基于LOF和波動閾值的古籍圖像版面分析
發(fā)布時間:2024-12-31 22:22
我國歷史悠久,珍貴的古籍藏書豐富,隨著計算機技術的高速發(fā)展,利用計算機輔助古籍研究是必由之路。古籍圖像版面結構復雜,對其進行有效、準確的分析是實現(xiàn)古籍漢字識別與檢索的前提和基礎,本文從以下兩個方面對古籍圖像展開研究。(1)古籍圖像非正文成分提取針對古籍圖像中存在印章、批注等非正文成分,影響版面分析準確性的問題,分別設計了基于自適應Canny算子的印章定位方法和基于Mask R-CNN的批注提取方法。對于印章,利用改進的自適應Canny算子提取古籍版面印章區(qū)域邊緣輪廓信息,選擇形狀參數(shù)提取印章特征,實現(xiàn)古籍印章與其周圍漢字的分離。對于批注,首先,使用Labelme圖像標注工具對古籍圖像批注數(shù)據(jù)集進行標注;其次,利用Mask R-CNN模型實例分割古籍批注圖像,得到預測結果Mask圖;然后,對比不同深度ResNet網絡對Mask R-CNN識別效果、速率的影響,選取最優(yōu)網絡架構;最后,采用二分K-means算法對Mask圖進行聚類,實現(xiàn)古籍批注成分的提取。(2)基于LOF和波動閾值的古籍圖像版面分析方法針對古籍版面成分多樣、古籍漢字結構復雜且風格多變的特點,提出了基于LOF(Local Ou...
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
本文編號:4021621
【文章頁數(shù)】:76 頁
【學位級別】:碩士
【部分圖文】:
圖3-1古籍圖
第三章古籍圖像非正文成分提取13第三章古籍圖像非正文成分提取古籍文獻具有許多不同于普通文獻的特點,例如,除漢字、框線等固有成分外,還存在印章、閱讀批注等,將這些后續(xù)加入的版面成分稱為非正文成分,給古籍圖像的版面分析與文本提取帶來了諸多困難,因此,有必要對其針對性地進行研究。3.1....
圖3-1古籍圖
第三章古籍圖像非正文成分提取13第三章古籍圖像非正文成分提取古籍文獻具有許多不同于普通文獻的特點,例如,除漢字、框線等固有成分外,還存在印章、閱讀批注等,將這些后續(xù)加入的版面成分稱為非正文成分,給古籍圖像的版面分析與文本提取帶來了諸多困難,因此,有必要對其針對性地進行研究。3.1....
圖3-2文淵閣《四庫全
第三章古籍圖像非正文成分提取13第三章古籍圖像非正文成分提取古籍文獻具有許多不同于普通文獻的特點,例如,除漢字、框線等固有成分外,還存在印章、閱讀批注等,將這些后續(xù)加入的版面成分稱為非正文成分,給古籍圖像的版面分析與文本提取帶來了諸多困難,因此,有必要對其針對性地進行研究。3.1....
圖3-3古籍印章邊緣檢測問題為了選取適用于古籍圖像的最優(yōu)邊緣檢測算法,本文以帶有印章的古籍圖像作為測
河北大學專業(yè)碩士學位論文14本文使用邊緣檢測算法提取印章輪廓特征信息,進一步實現(xiàn)印章和漢字的分離,為后續(xù)古籍圖像版面分析的順利進行奠定了基矗古籍樣張圖像邊緣極為復雜、噪聲較多,經典的邊緣檢測算子大多都對噪聲較為敏感,適用于結構簡單、噪聲較少的圖像。因此,處理古籍樣張的效果極不理想....
本文編號:4021621
本文鏈接:http://www.wukwdryxk.cn/tushudanganlunwen/4021621.html