淺談?lì)}庫(kù)試題錄入之Word自動(dòng)識(shí)別

7 評(píng)論 8258 瀏覽 20 收藏 8 分鐘

編輯導(dǎo)語(yǔ):題庫(kù)錄入對(duì)于題庫(kù)的質(zhì)與量都具有重要意義,Word文件導(dǎo)入是效率較高的錄入方式,本文將重點(diǎn)介紹Word文件自動(dòng)識(shí)別的具體實(shí)現(xiàn)方法,一起來(lái)學(xué)習(xí)一下吧~

一、前言

試題的錄入功能對(duì)于題庫(kù)來(lái)說(shuō)是核心功能,直接關(guān)系到題庫(kù)的質(zhì)與量。 錄題功能是否高效直接影響題庫(kù)中題目數(shù)量的多少,同時(shí)也決定著題目的質(zhì)量的高低。

目前的錄題方式以手動(dòng)錄入和文件導(dǎo)入為主,而文件導(dǎo)入格式又以Word和Excel為主。手動(dòng)錄入和Excel文件導(dǎo)入這兩種錄入方式效率低,對(duì)于存在公式的試題處理十分麻煩,而Word文件導(dǎo)入的錄入方式在效率方面完勝前兩種,并對(duì)于公式也有著很好的兼容處理。

本文將重點(diǎn)介紹Word文件自動(dòng)識(shí)別的具體實(shí)現(xiàn)方法。

二、文檔轉(zhuǎn)換工具的選擇

Word解析首先需要將其轉(zhuǎn)化成題庫(kù)需要的格式,那么選擇好的轉(zhuǎn)換工具將是整個(gè)文件識(shí)別的關(guān)鍵。

對(duì)比了Word2LaTeX,Pandoc和各種語(yǔ)言自帶的模塊及庫(kù)之后,選擇Pandoc作為Word文件解析的工具。選擇的理由是開源且支持多種格式。

Pandoc被譽(yù)為轉(zhuǎn)換領(lǐng)域中的“瑞士軍刀”,可以支持大量標(biāo)記語(yǔ)言之間的格式轉(zhuǎn)換,例如 Markdown 、Microsoft Word、PowerPoint、Jupyter Notebook、HTML、PDF、LaTeX、Wiki、EPUB 格式之間的相互轉(zhuǎn)換,感興趣的朋友可以去官網(wǎng)了解。

三、LaTeX/Markdown

文件轉(zhuǎn)換工具選擇好之后,就要確定使用哪種格式作為最終入庫(kù)的格式。手動(dòng)錄入和Excel導(dǎo)入采用的是HTML格式入庫(kù),但是HTML對(duì)于理科的公式處理效果不太理想。調(diào)研完目前的幾種主流的格式之后,發(fā)現(xiàn)LaTeX格式最為合適。在我的上一篇文章中也具體說(shuō)明了選擇LaTeX的原因,有興趣的小伙伴可以看看。

針對(duì)之前的業(yè)務(wù)場(chǎng)景,文科學(xué)科的試題有著字體(宋體,楷體,仿宋和黑體)需求,還要支持文字下方加點(diǎn)兼容下劃線,所以就采用了文科試題轉(zhuǎn)換成Markdown格式,如果沒(méi)有這些需求,可以統(tǒng)一處理成LaTeX格式。

四、公式識(shí)別

Word中通過(guò)公式編輯器MathType插入的公式都是以wmf格式的圖片呈現(xiàn)的,然而在常規(guī)業(yè)務(wù)場(chǎng)景下除了公式圖片外是不會(huì)添加wmf格式的圖片的,這樣就保證了公式圖片的獨(dú)特性。

首先找到所有的wmf圖片以及圖片對(duì)應(yīng)的Rid(word圖片對(duì)象的編號(hào))、位置以及寬高屬性,通過(guò)程序?qū)ml文件中對(duì)應(yīng)對(duì)象添加特殊標(biāo)記來(lái)實(shí)現(xiàn)自動(dòng)給公式打標(biāo)簽的功能,最后在導(dǎo)入Word時(shí)將上述圖片屬性組合成LaTeX格式并替代原先的特殊標(biāo)記。

找到的wmf圖片在導(dǎo)入試卷之后異步調(diào)用第三方公式OCR軟件Mathpix Snip,可以識(shí)別圖片中的公式并轉(zhuǎn)成LaTeX格式并返回,替換成原先的圖片地址就可以實(shí)現(xiàn)公式的識(shí)別。

公式識(shí)別

五、標(biāo)簽識(shí)別

標(biāo)簽識(shí)別是經(jīng)歷了一些優(yōu)化的歷程,主要是從標(biāo)簽識(shí)別-標(biāo)簽補(bǔ)充-標(biāo)簽簡(jiǎn)化這三個(gè)階段進(jìn)行。

1. 標(biāo)簽識(shí)別

除了公式之外,其它的內(nèi)容都是通過(guò)特征進(jìn)行識(shí)別的,比如題型,分?jǐn)?shù),難易度等。這些都是試題的屬性,也是區(qū)別于試題內(nèi)容之外需要識(shí)別的,但是程序是不知道這些屬性如何區(qū)分,所以需要給它們?cè)黾犹厥鈽?biāo)記(以英文符號(hào)[]作為標(biāo)記,例如:[題型])。

2. 標(biāo)簽補(bǔ)充

為了達(dá)到Word中的排版效果,比如段落的首行縮進(jìn),標(biāo)題正文的字體區(qū)別,居中居左居右等,就需要在Word中加入對(duì)應(yīng)樣式的標(biāo)簽。后期增加了將近10多個(gè)標(biāo)簽,效果還是不錯(cuò)的,但是效率卻明顯的下降了。由于每增加一個(gè)標(biāo)簽,都會(huì)直接影響教研老師的效率。

3. 標(biāo)簽簡(jiǎn)化

想要達(dá)到既能達(dá)到Word的排版效果,又能保證錄題的效率,團(tuán)隊(duì)做出了很多的嘗試,最終通過(guò)研究Word原始XML文件,完成大部分屬性的自動(dòng)識(shí)別,只需要教研老師在導(dǎo)入文件中打上題型的標(biāo)簽就可以直接入庫(kù)。

識(shí)別后的效果展示

六、總結(jié)

在整個(gè)項(xiàng)目中,從一開始的技術(shù)選型,工具選擇,迭代優(yōu)化,到最后實(shí)現(xiàn)錄題效率的極大提升,經(jīng)歷了不少的困難。項(xiàng)目一開始的時(shí)候其實(shí)是摸黑前行,找不到突破的方向,包括后期的效率提升方面,時(shí)間和業(yè)績(jī)的壓力導(dǎo)致內(nèi)部人員都產(chǎn)生過(guò)動(dòng)搖的念頭,大家都在疑問(wèn)到底能不能實(shí)現(xiàn)。但是我深知這個(gè)功能一旦實(shí)現(xiàn)了,將會(huì)給教研老師省去很大一部分的時(shí)間,那么它的價(jià)值就是不言而喻的。

Word自動(dòng)識(shí)別要想達(dá)到很好的排版效果,接近Word原排版樣式,是需要對(duì)細(xì)節(jié)有著嚴(yán)格要求的,中間的難點(diǎn)問(wèn)題是需要耐住性子,沉下心來(lái)一點(diǎn)點(diǎn)的去發(fā)現(xiàn)并攻克,借用曾國(guó)藩的一句話就是“結(jié)硬寨,打呆仗”。的確,如果沒(méi)有這樣的攻堅(jiān)態(tài)度是做不出來(lái)創(chuàng)新的。

在此,將這個(gè)功能的實(shí)現(xiàn)分享給大家,希望能對(duì)Word自動(dòng)識(shí)別方面感興趣的小伙伴們有一定的幫助,也希望大家共同探討。

 

本文由 @一條酸奶中的? 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 您好,想合作如何聯(lián)系您

    來(lái)自浙江 回復(fù)
  2. 通過(guò)這種方法就可以識(shí)別出word的公式了嗎? 還有表格是否可以識(shí)別?

    回復(fù)
  3. 如何通過(guò)程序?qū)崿F(xiàn)難度、知識(shí)點(diǎn)這些屬性的標(biāo)簽?zāi)兀?/p>

    回復(fù)
    1. 兩種方式:
      1. 人為手動(dòng)在Word中增加相應(yīng)的標(biāo)簽,入庫(kù)時(shí)程序校驗(yàn)識(shí)別
      2. 題目先入庫(kù),再在題庫(kù)里給題目打難度和知識(shí)點(diǎn)等標(biāo)簽

      來(lái)自陜西 回復(fù)
  4. 聽(tīng)君一席話,聽(tīng)君一席話。自動(dòng)識(shí)別體現(xiàn)在哪里?

    來(lái)自廣東 回復(fù)
    1. 整個(gè)識(shí)別過(guò)程除了簡(jiǎn)單的人為預(yù)處理,其它的都是通過(guò)程序?qū)崿F(xiàn)的

      來(lái)自陜西 回復(fù)
    2. 拋開內(nèi)容不說(shuō),你說(shuō)的都對(duì)。

      來(lái)自廣東 回復(fù)