基于多源異構(gòu)數(shù)據(jù)的甲骨學知識圖譜構(gòu)建方法研究
發(fā)布時間:2021-01-28 11:51
為解決和緩解甲骨學研究難度大、周期長、知識關(guān)聯(lián)性弱、知識共享程度低等問題;诙嘣串悩(gòu)數(shù)據(jù)源,融合基于文獻計量學的科學知識圖譜(MKD)和基于知識庫的知識圖譜(KG),構(gòu)建了甲骨學融合知識圖譜。通過融合兩類知識圖譜,并基于知識推理進行語義擴展,形成最終的甲骨學知識圖譜。其中包含實體148 305個,關(guān)系434 032條,可滿足甲骨學研究的基本需求。融合MKD和KG兩類知識圖譜,優(yōu)勢互補,實現(xiàn)甲骨學知識圖譜構(gòu)建,可為其他古籍類知識圖譜構(gòu)建提供借鑒。
【文章來源】:浙江大學學報(理學版). 2020,47(02)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
甲骨文多源異構(gòu)數(shù)據(jù)
甲骨學知識圖譜的構(gòu)建基于海量的多源異構(gòu)甲骨文研究數(shù)據(jù),通過融合MKD和KG兩類知識圖譜實現(xiàn)。其中MKD以甲骨學文獻為主要數(shù)據(jù)來源,KG以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學知識圖譜的構(gòu)建流程如圖2所示。由圖2可知,構(gòu)建甲骨學知識圖譜的數(shù)據(jù)源包括甲骨文文獻、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻,利用MKD表示甲骨學知識關(guān)聯(lián)、知識演化及知識群結(jié)構(gòu)。同時,MKD可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD中提取實體(如研究機構(gòu)、學者、地點、人物、事件等)和實體之間的關(guān)系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。
以CNKI為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927年5月至2019年1月的文獻,共篩選到5 971篇。由于文獻的標題、關(guān)鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構(gòu)建過程中,只取文獻的標題、關(guān)鍵詞和摘要進行共詞分析。利用CiteSpace工具,采用余弦函數(shù)進行共詞分析,得到的甲骨學MKD圖譜片段如圖3所示。從圖3中可看出,甲骨學MKD可以顯示其知識結(jié)構(gòu)及其分布。節(jié)點類型涵蓋了人物、機構(gòu)、時間、事件等實體,節(jié)點和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點之間的關(guān)系,顏色對應文獻發(fā)表年份。圖3顯示結(jié)果存在的最大問題是未考慮語義關(guān)系對實體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關(guān)系則沒有體現(xiàn)?梢姡瑔斡肕KD無法較好地表示甲骨學知識體系。
【參考文獻】:
期刊論文
[1]深度學習實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
[2]“科學知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J]. 馮新翎,何勝,熊太純,武群輝,柳益君. 情報雜志. 2017(01)
[3]面向網(wǎng)絡大數(shù)據(jù)的知識融合方法綜述[J]. 林海倫,王元卓,賈巖濤,張鵬,王偉平. 計算機學報. 2017(01)
[4]基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學報. 2016(04)
[5]知識庫實體對齊技術(shù)綜述[J]. 莊嚴,李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
[6]甲骨文知識圖譜構(gòu)建中的實體關(guān)系發(fā)現(xiàn)研究[J]. 熊晶,鐘珞,王愛民. 計算機工程與科學. 2015(11)
[7]甲骨文大規(guī);A(chǔ)數(shù)據(jù)的語義挖掘研究[J]. 熊晶,高峰,吳琴霞. 現(xiàn)代圖書情報技術(shù). 2015(02)
[8]國內(nèi)知識圖譜應用研究綜述[J]. 胡澤文,孫建軍,武夷山. 圖書情報工作. 2013(03)
[9]國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J]. 湯建民,余豐民. 情報資料工作. 2012(01)
[10]基于領(lǐng)域本體的信息檢索優(yōu)化策略[J]. 熊晶,王愛民,徐建良. 計算機工程與設計. 2011(08)
本文編號:3004947
【文章來源】:浙江大學學報(理學版). 2020,47(02)北大核心
【文章頁數(shù)】:12 頁
【部分圖文】:
甲骨文多源異構(gòu)數(shù)據(jù)
甲骨學知識圖譜的構(gòu)建基于海量的多源異構(gòu)甲骨文研究數(shù)據(jù),通過融合MKD和KG兩類知識圖譜實現(xiàn)。其中MKD以甲骨學文獻為主要數(shù)據(jù)來源,KG以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學知識圖譜的構(gòu)建流程如圖2所示。由圖2可知,構(gòu)建甲骨學知識圖譜的數(shù)據(jù)源包括甲骨文文獻、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻,利用MKD表示甲骨學知識關(guān)聯(lián)、知識演化及知識群結(jié)構(gòu)。同時,MKD可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD中提取實體(如研究機構(gòu)、學者、地點、人物、事件等)和實體之間的關(guān)系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。
以CNKI為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927年5月至2019年1月的文獻,共篩選到5 971篇。由于文獻的標題、關(guān)鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構(gòu)建過程中,只取文獻的標題、關(guān)鍵詞和摘要進行共詞分析。利用CiteSpace工具,采用余弦函數(shù)進行共詞分析,得到的甲骨學MKD圖譜片段如圖3所示。從圖3中可看出,甲骨學MKD可以顯示其知識結(jié)構(gòu)及其分布。節(jié)點類型涵蓋了人物、機構(gòu)、時間、事件等實體,節(jié)點和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點之間的關(guān)系,顏色對應文獻發(fā)表年份。圖3顯示結(jié)果存在的最大問題是未考慮語義關(guān)系對實體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關(guān)系則沒有體現(xiàn)?梢姡瑔斡肕KD無法較好地表示甲骨學知識體系。
【參考文獻】:
期刊論文
[1]深度學習實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學報. 2019(06)
[2]“科學知識圖譜”與“Google知識圖譜”比較分析——基于知識管理理論視角[J]. 馮新翎,何勝,熊太純,武群輝,柳益君. 情報雜志. 2017(01)
[3]面向網(wǎng)絡大數(shù)據(jù)的知識融合方法綜述[J]. 林海倫,王元卓,賈巖濤,張鵬,王偉平. 計算機學報. 2017(01)
[4]基于知網(wǎng)與詞林的詞語語義相似度計算[J]. 朱新華,馬潤聰,孫柳,陳宏朝. 中文信息學報. 2016(04)
[5]知識庫實體對齊技術(shù)綜述[J]. 莊嚴,李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
[6]甲骨文知識圖譜構(gòu)建中的實體關(guān)系發(fā)現(xiàn)研究[J]. 熊晶,鐘珞,王愛民. 計算機工程與科學. 2015(11)
[7]甲骨文大規(guī);A(chǔ)數(shù)據(jù)的語義挖掘研究[J]. 熊晶,高峰,吳琴霞. 現(xiàn)代圖書情報技術(shù). 2015(02)
[8]國內(nèi)知識圖譜應用研究綜述[J]. 胡澤文,孫建軍,武夷山. 圖書情報工作. 2013(03)
[9]國內(nèi)知識圖譜研究綜述與評估:2004-2010年[J]. 湯建民,余豐民. 情報資料工作. 2012(01)
[10]基于領(lǐng)域本體的信息檢索優(yōu)化策略[J]. 熊晶,王愛民,徐建良. 計算機工程與設計. 2011(08)
本文編號:3004947
本文鏈接:http://www.wukwdryxk.cn/shekelunwen/kgx/3004947.html
教材專著