OCR技術研究進展及前瞻
1、概述
OCR (Optical Character Recognition),即光學字符識別,是指 電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。
隨著計算機網(wǎng)絡飛速發(fā)展信息電子化已經成為個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術則是文字電子化過程中最重要的環(huán)節(jié),它改變了傳統(tǒng)的紙質介質資料輸入的概念。比如,通過OCR技術.用戶可以將通過攝像機、掃描儀等光學輸入方式得到的報刊‘書籍、文稿、表格等印刷品的圖像信息轉化為可以供計算機識別和處理的文本信息。因此與傳統(tǒng)的手工錄入方式相比OCR技術大大提高了人們進行資料存儲.檢索.加工的效率。目前市場上符合銀行、證券、保險.稅務、公安.海關、機場、工商、軍隊及其它行業(yè)應用的OCR產品已經相對成熟,它們已經通過市場檢驗并被廣大用戶大規(guī)模使用11-4J。
2、OCR技術的起源及發(fā)展
OCR的起源最早追溯到1929年德國的科學家Taushcck獲得了 光學字符識別技術專利間,但是對于當時的科技發(fā)展情況而言,一切僅僅是個設想『直到計算機的誕生才使得這種設想成為現(xiàn)實。經過近百年的發(fā)展OCR已經成為當今模式識別領域中最活躍的分支之一。它綜合了數(shù)字圖像處理、計算機圖形學及人工智能等多方面的理論知識并在計算機及其相關領域中得到了相當廣泛的應用。近幾年來,它同語音識別、行為識到等一起曰益成為人們研究及關注的焦點。
在二十世紀六七十年代,世界各國就已經展開了光學字符識別研究,如我們的鄰國日本,在六十年代中期就有了郵政編碼識別系統(tǒng)的產品問世,該系統(tǒng)能夠識別郵件上的郵政編碼,幫助郵局進行區(qū)域分信作業(yè),這也使得郵政編碼一直沿用至今,6,隨后,經過科研學者的努力,日本的三洋,筆耕論文,富士,理光,松下等知名公司也相繼有字符識§lIJ系統(tǒng)的產品面世。
我國的光學字符識別研究相對國外起步較晚!但是發(fā)展十分迅速。從早期簡單的單體識別發(fā)展到多種字體混合排列的多體識別,從中文印刷材料的識別發(fā)展到中英文混排印刷材料的雙語言識別,目前各個系統(tǒng)都可以支持筒、繁體漢字的識別,也有同時支持中,英,韓等多國文字的識別系統(tǒng),它們解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行效的定量分析,同時漢字識別率已經可以達到98%以上。
推薦閱讀:《計算機研究與發(fā)展》
3、OCR技術的應用
國外的OCR技術應用相對成熟,包括IBM、Motor口怡、HP和Microsoft等世界型大公司都陸續(xù)展開了這方面的研究,在他們的產 品中綁定OCR技術。光符識別設備把報紙、雜志和其它印刷材料上的印刷字符讀取到計算機內存。OCR軟件可以和任何流行的操作系統(tǒng)一起使用。除了識別印刷字符之外OCR也可能識別欄目布局,這種布局會在報紙中出現(xiàn)。例如,微軟公司最新推出的辦公套件一一州icrosoft Office XP中不僅加強了原有對手寫輸入的支持,還新增加了光學字符識別(OCR)的工具組件。字符識別產品的廣泛應用推動了模式識別等相關理論的發(fā)展,促進了計算機應用的普及。2008竿, Google也宣布它將開始在網(wǎng)絡蜘蛛中使用OCR技術,這樣就可以識別許多非格式化文本和圖像并將其索引到數(shù)據(jù)庫。
如今OCR技術在我國的應用也極為廣泛,可以說有漢字的地方就有OCR技術應用的存在。在信息技術及計算機技術日益普及的今天,如何將文字方便、快捷地輸入到計算機中已經成為影響人機接口效率的一個重要難題,也關系到計算機是否能夠真正在我國得到普及和應用。
漢字輸入主要分為人工鍵盤輸入和機器自動識別輸入兩種c其中人工鍵入速度慢而且勞動強度大,自動輸入又分為漢字識別輸入及語音識別輸入。從識另IJ技術的難度來說,手寫體識別的難度高于印刷體識別,而在手寫體識別中,脫機手寫體的難度又遠遠超過聯(lián)機手寫體識別。歪IJ目前為止,除了脫機手寫體數(shù)字的識別已有實際應用外,漢字等文字的脫機手寫體識別還處在實驗室階段。簡單來說,從影像到結果輸出,須經過影像輸入、影像前處理、文字特征抽取、~t對識別、最后經人工校正將認錯的文字更正,將結果輸出等環(huán)節(jié)的過程。
隨著我國信息化建設全面普及OCR技術的應用前景將更加地廣闊。就目前從行業(yè)需求來看,金融、保險、稅務、工商‘電子商務等行業(yè)對信息識別的需求已經越來越廣泛,促進了識別技術的大規(guī)模應用。而個人消費者對資料電子化、手寫識別技術等各方面需求則拓展了OCR識另IJ技術在這一領域的應用之路,另一方面,網(wǎng)絡時代的高速發(fā)展使個人資料電子化、商務辦公自動化等需求的呼聲也變得越來越高。
本文編號:6149
本文鏈接:http://www.wukwdryxk.cn/qitalunwen/6149.html