蒙古文、藏文、維吾爾文等六種少數(shù)民族文字的紙出版物要轉(zhuǎn)換成電子出版物,今后不再靠人工錄入,只要經(jīng)“統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”處理,印刷文檔的掃描圖像就會(huì)自動(dòng)生成可編輯檢索的電子文檔。這是記者今天在清華大學(xué)舉行的“多體蒙古文(包括混排漢英)印刷文檔識(shí)別暨統(tǒng)一平臺(tái)少數(shù)民族文字識(shí)別系統(tǒng)”技術(shù)鑒定會(huì)上獲悉的。
據(jù)項(xiàng)目研制主持人,清華大學(xué)丁曉青教授介紹,該系統(tǒng)能識(shí)別多種印刷字體的蒙古文字符和文檔,并能識(shí)別蒙漢英混排的文檔,是集版面分析、文本行字切分、識(shí)別、縱向文檔圖文對(duì)照編改等技術(shù)于一體的蒙古文文檔識(shí)別實(shí)用系統(tǒng),解決了多字體蒙古文漢英混排文本切分和識(shí)別問(wèn)題。在實(shí)際的多字體蒙漢英文檔測(cè)試集上,文本識(shí)別率可達(dá)96.89%。
據(jù)介紹,該系統(tǒng)是全球首款在統(tǒng)一平臺(tái)上支持我國(guó)主要少數(shù)民族文字文檔的識(shí)別系統(tǒng)。系統(tǒng)在漢字和英文文檔識(shí)別的基礎(chǔ)上將四種類型六種文字的少數(shù)民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯?tīng)柨俗挝模ɑ炫艥h英)。文檔識(shí)別綜合集成在一個(gè)統(tǒng)一的平臺(tái)系統(tǒng)中,使我國(guó)最主要的少數(shù)民族文字文檔能夠自動(dòng)識(shí)別輸入計(jì)算機(jī)。該系統(tǒng)軟件產(chǎn)品采用國(guó)際標(biāo)準(zhǔn)編碼,系統(tǒng)結(jié)構(gòu)具有良好的擴(kuò)展性,還支持阿拉伯文的識(shí)別。
由倪光南、何新貴、戴浩院士組成的鑒定委員會(huì)認(rèn)為:該項(xiàng)目解決了實(shí)用的多字體印刷蒙古文文檔及其混排漢英的識(shí)別問(wèn)題,實(shí)現(xiàn)了在統(tǒng)一平臺(tái)上蒙、藏、維、哈、柯、朝(混排漢英)文檔識(shí)別的綜合集成,其主要技術(shù)指標(biāo)達(dá)到了國(guó)際領(lǐng)先水平,對(duì)促進(jìn)我國(guó)少數(shù)民族語(yǔ)言文字的信息化建設(shè)具有重要意義。
共有 網(wǎng)友評(píng)論