中文微博實體鏈接研究
本文關(guān)鍵詞: 微博實體鏈接 改進的拼音編輯距離 后綴詞表匹配法 實體消歧 出處:《北京大學(xué)學(xué)報(自然科學(xué)版)》2014年01期 論文類型:期刊論文
【摘要】:針對2013年CCF自然語言處理與中文計算會議(NLPCC2013)中文微博實體鏈接的任務(wù),使用CCF提供的新浪微博數(shù)據(jù)作為訓(xùn)練和測試數(shù)據(jù),利用西南交通大學(xué)耶寶智慧中文分詞平臺作為自然語言預(yù)處理工具,提出一種實體鏈接的方法。該方法應(yīng)用改進的拼音編輯距離算法和后綴詞表匹配法,提出實體聚類消歧與基于百度百科詞頻的同類實體消歧相結(jié)合的消歧方法。在2013年CCF中文微博實體鏈接評測任務(wù)中正確結(jié)果的準(zhǔn)確率為0.8838,在10個參賽隊伍中名列第3位。表明該方法有效并可以適應(yīng)文本中的噪聲。
[Abstract]:Aiming at the task of CCF Natural language processing (NLPCC2013) Chinese Weibo physical link in 2013, the data of Sina Weibo provided by CCF is used as training and testing data. This paper presents a method of entity linking by using the Chinese word segmentation platform of Yebao, Southwest Jiaotong University, as a natural language preprocessing tool. The method applies the improved Pinyin Editing distance algorithm and the suffix table matching method. A disambiguation method combining entity clustering disambiguation with similar entity disambiguation based on Baidu Encyclopedia frequency is proposed. In 2013, the accuracy of correct results in the CCF Weibo Chinese entity link evaluation task was 0.8838. . The result shows that the method is effective and can adapt to the noise in the text.
【作者單位】: 西南交通大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金(61170111,61202043,61262058) 中國科學(xué)院自動化所復(fù)雜系統(tǒng)管理與控制重點實驗室開放課題(20110102) 中央高校基本科研業(yè)務(wù)費專項基金(SWJTU11ZT08)資助
【分類號】:TP391.1;TP393.092
【正文快照】: 中文微博實體鏈接是指給定一條微博中的實體指稱,確定這些指稱在給定知識庫中的目標(biāo)實體,實體鏈接在計算機理解微博的意義以及文本挖掘等方面有重要影響。根據(jù)新浪微博2012年的統(tǒng)計數(shù)據(jù),在這一年中其注冊用戶總數(shù)達到5.03億,全年增長率為73%,用戶每日發(fā)微博的數(shù)量不計其數(shù)。
【參考文獻】
相關(guān)期刊論文 前6條
1 胡文博;都云程;呂學(xué)強;施水才;;基于多層條件隨機場的中文命名實體識別[J];計算機工程與應(yīng)用;2009年01期
2 繆建明;張全;;一種基于概念關(guān)聯(lián)式的詞義消岐方法[J];計算機科學(xué);2010年01期
3 趙軍;;命名實體識別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報;2009年02期
4 趙軍;劉康;周光有;蔡黎;;開放式文本信息抽取[J];中文信息學(xué)報;2011年06期
5 楊欣欣;李培峰;朱巧明;;基于網(wǎng)頁文本依存特征的人名消歧[J];計算機工程;2012年19期
6 曹犟;鄔曉鈞;夏云慶;鄭方;;基于拼音索引的中文模糊匹配算法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2009年S1期
【共引文獻】
相關(guān)期刊論文 前10條
1 陶佳燕;李銀紅;石東源;覃松濤;鄭發(fā)林;蒙亮;;EMS與繼電保護定值校核系統(tǒng)實時數(shù)據(jù)匹配新方法[J];電力系統(tǒng)自動化;2012年10期
2 冷冰濤;梁維謙;董保帥;原道德;;基于連續(xù)識別的嵌入式孤立詞識別系統(tǒng)[J];電聲技術(shù);2011年11期
3 曾道建;來斯惟;張元哲;劉康;趙軍;;面向非結(jié)構(gòu)化文本的開放式實體屬性抽取[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2013年03期
4 賈真;楊宇飛;何大可;劉勝久;尹紅風(fēng);;面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期
5 羅文華;;非結(jié)構(gòu)化數(shù)據(jù)處理分析在電子數(shù)據(jù)取證中的應(yīng)用[J];警察技術(shù);2010年03期
6 馮鯨華;古麗拉·阿東別克;瑪依來·哈帕爾;;基于N-gram語言模型的哈薩克文機構(gòu)名識別[J];計算機工程與應(yīng)用;2010年31期
7 李靜;羅文華;林鴻飛;;自然語言處理技術(shù)在網(wǎng)絡(luò)案情分析系統(tǒng)中的應(yīng)用[J];計算機工程與應(yīng)用;2012年03期
8 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計算方法[J];計算機應(yīng)用研究;2010年12期
9 彭文惠;吳小剛;蔣華;;基于柔性字符串匹配的校園BBS過濾系統(tǒng)[J];計算機與現(xiàn)代化;2011年02期
10 趙軍;劉康;周光有;蔡黎;;開放式文本信息抽取[J];中文信息學(xué)報;2011年06期
相關(guān)會議論文 前5條
1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術(shù)研究與實現(xiàn)[A];全國計算機安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
2 鐘茂生;;基于詞語形式標(biāo)記的句際語義關(guān)系自動識別方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
3 齊振宇;趙軍;楊帆;;一種開放式中文命名實體識別的新方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
4 羅維;吉宗誠;呂雅娟;劉群;;一種改進詞語對齊的新方法[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
5 艾斯卡爾·肉孜;宗成慶;姑麗加瑪麗·麥麥提艾力;熱合木·馬合木提;艾斯卡爾·艾木都拉;;基于條件隨機場的維吾爾人名識別方法[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
相關(guān)博士學(xué)位論文 前6條
1 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 鐘茂生;基于內(nèi)容相關(guān)度計算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
3 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年
4 陸前;英、漢跨語言話題檢測與跟蹤技術(shù)研究[D];中央民族大學(xué);2013年
5 張俊三;Web中相關(guān)實體發(fā)現(xiàn)研究[D];北京交通大學(xué);2013年
6 伍大勇;搜索引擎中命名實體查詢處理相關(guān)技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 廖文平;基于CRF的中文地名識別研究[D];大連理工大學(xué);2010年
2 紅霞;基于層疊條件隨機場的中文機構(gòu)名識別的研究[D];大連理工大學(xué);2010年
3 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年
4 王思麗;藏文網(wǎng)頁自動發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年
5 楊曉東;中文命名實體識別及若干相關(guān)問題的研究[D];江蘇大學(xué);2010年
6 羅永剛;基金信息與基金投資風(fēng)險的定量關(guān)系研究[D];華東師范大學(xué);2011年
7 尹義方;野營房產(chǎn)品設(shè)計與成本核算系統(tǒng)研究[D];東北石油大學(xué);2011年
8 何世柱;文本分類和聚類若干模型的研究[D];江西師范大學(xué);2011年
9 陳慧煒;刑事案件文本信息抽取研究[D];南京師范大學(xué);2011年
10 馬二磊;互聯(lián)網(wǎng)人物信息排歧技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J];電子學(xué)報;2006年05期
2 王廣正;王喜鳳;;基于知網(wǎng)語義相關(guān)度計算的詞義消歧方法[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年01期
3 陳笑蓉;秦進;;基于最大熵原理的漢語詞義消歧[J];計算機科學(xué);2005年05期
4 張華平,劉群;基于角色標(biāo)注的中國人名自動識別研究[J];計算機學(xué)報;2004年01期
5 莊明,老松楊,吳玲達;一種統(tǒng)計和詞性相結(jié)合的命名實體發(fā)現(xiàn)方法[J];計算機應(yīng)用;2004年01期
6 鄭家恒,李鑫,譚紅葉;基于語料庫的中文姓名識別方法研究[J];中文信息學(xué)報;2000年01期
7 劉秉偉,黃萱菁,郭以昆,吳立德;基于統(tǒng)計方法的中文姓名識別[J];中文信息學(xué)報;2000年03期
8 黃德根,楊元生,王省,張艷麗,鐘萬勰;基于統(tǒng)計方法的中文姓名識別[J];中文信息學(xué)報;2001年02期
9 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期
10 王厚峰;指代消解的基本方法和實現(xiàn)技術(shù)[J];中文信息學(xué)報;2002年06期
相關(guān)會議論文 前1條
1 齊振宇;趙軍;楊帆;;一種開放式中文命名實體識別的新方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
相關(guān)碩士學(xué)位論文 前4條
1 喬羽;基于最大熵模型的中文人名識別方法研究[D];山西大學(xué);2005年
2 陳晴;基于條件隨機場的自動分詞技術(shù)的研究[D];東北大學(xué);2005年
3 王志強;基于條件隨機域的中文命名實體識別研究[D];南京理工大學(xué);2006年
4 郭家清;基于條件隨機場的命名實體識別研究[D];沈陽航空工業(yè)學(xué)院;2007年
【相似文獻】
相關(guān)期刊論文 前10條
1 陳年長;;人工智能將影響未來工廠的主要設(shè)計思想[J];世界科技研究與發(fā)展;1989年01期
2 余國建,楊惠英 ,吳子喬 ,張健 ,胡代槐 ,李育福;在袖珍機上開發(fā)中醫(yī)專家系統(tǒng)的方法與技術(shù)[J];大自然探索;1993年01期
3 吳伏家,王世偉;圓孔拉刀智能CAD系統(tǒng)的研究[J];新技術(shù)新工藝;1995年05期
4 鄭金華,肖松青,彭貴華;一種實用的知識庫模型[J];湘潭大學(xué)自然科學(xué)學(xué)報;1999年03期
5 劉玉葆,孟志青;戰(zhàn)略投資DSS知識庫管理系統(tǒng)的設(shè)計[J];湘潭大學(xué)自然科學(xué)學(xué)報;1999年03期
6 李偉,劉海峰,靳紅;藥物研究開發(fā)知識庫"的建立[J];河北科技大學(xué)學(xué)報;2002年04期
7 劉佳,許鋒,李虎,王宛山;網(wǎng)絡(luò)化集成制造平臺下個性化定制系統(tǒng)研究[J];機械制造;2005年08期
8 陳正銘;鄧雪梅;;Web知識挖掘與計算機網(wǎng)絡(luò)[J];韶關(guān)學(xué)院學(xué)報;2006年09期
9 王巍;閆新慶;李文鋒;陳定方;;一種在關(guān)系型數(shù)據(jù)庫中存儲OWL對象的方法[J];微計算機信息;2006年30期
10 席生長;胡宏濤;;信息檢索技術(shù)在中石油勘探與生產(chǎn)分公司門戶內(nèi)的應(yīng)用研究[J];福建電腦;2008年01期
相關(guān)會議論文 前10條
1 胡志光;梁川;常愛玲;;電除塵器幫助系統(tǒng)軟件的開發(fā)研究[A];第十二屆中國電除塵學(xué)術(shù)會議論文集[C];2007年
2 張遠芳;張有仁;;PDMS2001:一個基于并行計算的數(shù)據(jù)挖掘系統(tǒng)[A];2002中國控制與決策學(xué)術(shù)年會論文集[C];2002年
3 錢海忠;武芳;孫建東;葛磊;朱強;王家耀;;自動制圖綜合鏈理論與技術(shù)模型[A];中國測繪學(xué)會九屆四次理事會暨2008年學(xué)術(shù)年會論文集[C];2008年
4 張亞瓊;韓江洪;魏振春;;一種改進的DES自動機模型知識表示和快速知識提取方法[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會論文集[C];2006年
5 高陽;李一智;劉洪生;楊玲玲;;技術(shù)改造投資決策支持系統(tǒng)研究。[A];1993中國控制與決策學(xué)術(shù)年會論文集[C];1993年
6 劉旭花;孟祥增;劉俊曉;吳鵬飛;;一種基于知識庫的圖像對象自動識別方法[A];第十三屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2006年
7 杜向陽;張吉林;;基于語義本體知識庫技術(shù)的主題分類方法在輿情監(jiān)測實踐中的應(yīng)用[A];中國新聞技術(shù)工作者聯(lián)合會五屆一次理事會暨學(xué)術(shù)年會論文集(上篇)[C];2009年
8 陳再旺;宋蓓;;人工智能在醫(yī)療診斷系統(tǒng)中的應(yīng)用[A];廣西計算機學(xué)會2004年學(xué)術(shù)年會論文集[C];2004年
9 劉國剛;;人工智能客戶服務(wù)體系的研究與實現(xiàn)[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年
10 周強;王俊俊;陳麗歐;;構(gòu)建大規(guī)模的漢語事件知識庫[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
相關(guān)重要報紙文章 前10條
1 胡紅軍;軟件業(yè)應(yīng)注重搭建行業(yè)知識庫[N];經(jīng)濟日報;2007年
2 ;開天辟地第一回[N];計算機世界;2002年
3 李廣錄;BakBone NetVault TrueCDP可恢復(fù)到任意時間點[N];中國計算機報;2008年
4 北京市科學(xué)技術(shù)委員會信息處 姜廣智 阿孜古麗;行業(yè)信息化知識庫構(gòu)建先進的行業(yè)信息化平臺[N];中國計算機報;2006年
5 本報記者 吳蔚;東軟建健康管理知識庫[N];中國計算機報;2010年
6 凌曼文;小公司也可上線知識庫[N];中國計算機報;2007年
7 高雪娟;PLM將汽車上市周期縮短十個月[N];中國計算機報;2007年
8 北京市科學(xué)技術(shù)委員會信息處 姜廣智 阿孜古麗;催生軟件產(chǎn)業(yè)發(fā)展軌跡的新拐點[N];中國計算機報;2006年
9 陸元婕;聰明的搜索引擎[N];中國計算機報;2001年
10 吳玉征;中國軟件業(yè)應(yīng)走行業(yè)應(yīng)用之路[N];計算機世界;2007年
相關(guān)博士學(xué)位論文 前10條
1 黃莎莎;語義萬維網(wǎng)中本體與規(guī)則上的非經(jīng)典推理[D];湖南大學(xué);2012年
2 劉忠途;基于知識的CAD系統(tǒng)若干關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2005年
3 李榮;基于知識的裝配序列規(guī)劃關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
4 李歡;問答系統(tǒng)中的文本信息抽取研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2009年
5 高明霞;問答式OWL知識檢索技術(shù)[D];北京工業(yè)大學(xué);2008年
6 杜震洪;近海環(huán)境地物認知模型與智能服務(wù)聚合研究[D];浙江大學(xué);2010年
7 譚武征;基于知識的概念創(chuàng)新設(shè)計系統(tǒng)關(guān)鍵技術(shù)的研究[D];上海交通大學(xué);2008年
8 陳興蜀;應(yīng)用區(qū)域邊界的安全體系結(jié)構(gòu)及實用模型研究[D];四川大學(xué);2004年
9 杜永萍;基于模式知識庫的問題回答關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年
10 李如仁;公眾參與式地理信息系統(tǒng)的理論與實踐[D];遼寧工程技術(shù)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 周美希;漢語語句組塊及消歧的研究與實現(xiàn)[D];電子科技大學(xué);2005年
2 石林;基于對象的Web圖像檢索研究[D];山東師范大學(xué);2005年
3 郭寶恩;計算機輔助QFD概念設(shè)計專家系統(tǒng)的開發(fā)研究[D];天津科技大學(xué);2005年
4 葉紅;面向?qū)ο蠹皹?gòu)件技術(shù)在專家系統(tǒng)開發(fā)中的應(yīng)用研究[D];安徽大學(xué);2005年
5 羅云;青少年焦慮抑郁單光子成像數(shù)據(jù)挖掘方法研究[D];大連理工大學(xué);2006年
6 袁利鋒;以財務(wù)數(shù)據(jù)為基礎(chǔ)的專家系統(tǒng)的研究與開發(fā)[D];華北電力大學(xué)(北京);2006年
7 楊楠;基于知識的人工骨三維結(jié)構(gòu)仿生設(shè)計[D];西北工業(yè)大學(xué);2007年
8 陸翠敏;納米材料數(shù)據(jù)庫系統(tǒng)的研制與開發(fā)[D];河北理工學(xué)院;2003年
9 張愛華;辦公自動化系統(tǒng)中知識管理的研究與實現(xiàn)[D];大連理工大學(xué);2007年
10 曲曉棠;基于多Agent的網(wǎng)絡(luò)教學(xué)系統(tǒng)的研究與應(yīng)用[D];蘇州大學(xué);2007年
,本文編號:1448885
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/1448885.html