基于回歸模型與譜聚類的微博突發(fā)話題檢測方法
本文關鍵詞:基于回歸模型與譜聚類的微博突發(fā)話題檢測方法 出處:《計算機工程》2015年12期 論文類型:期刊論文
更多相關文章: 微博 突發(fā)話題檢測 詞頻分析 回歸模型 譜聚類 大數(shù)據(jù)
【摘要】:微博社交網(wǎng)絡短文本具有數(shù)據(jù)規(guī)模巨大、快速傳播、模態(tài)多樣、質(zhì)量較低等特性,導致現(xiàn)有傳統(tǒng)的話題檢測與跟蹤技術在對其進行數(shù)據(jù)處理時面臨復雜度高、特征稀疏和噪聲干擾等問題。為此,提出一種在回歸預測和譜聚類基礎上的突發(fā)話題檢測方法。該方法針對關鍵詞詞頻變動趨勢,基于回歸模型,量化微博關鍵詞的突發(fā)程度,從詞頻趨勢分析的角度準確地提取出突發(fā)詞集合。設計一個基于譜聚類思想的突發(fā)詞聚類方法提高聚類結(jié)果的準確性。在大規(guī)模微博數(shù)據(jù)集的實驗結(jié)果證明,與baseline方法相比,該方法的準確率、召回率、F值都有較大提高,在微博信息分析領域有著較好的應用前景。
[Abstract]:Weibo social network short text has the characteristics of large data scale, rapid transmission, diverse modes, low quality and other characteristics, resulting in the existing traditional topic detection and tracking technology in its data processing faces a high complexity. Based on regression prediction and spectral clustering, a method of burst topic detection is proposed. The method is based on regression model for word frequency change trend of keywords. Quantifying the burst degree of Weibo's keywords. From the angle of word frequency trend analysis, the burst word set is extracted accurately. A burst word clustering method based on spectral clustering is designed to improve the accuracy of the clustering results. Compared with the baseline method, the accuracy of the method and the recall rate of F value are greatly improved, and it has a better application prospect in the field of Weibo information analysis.
【作者單位】: 武漢大學計算機學院;武漢大學深圳研究院;
【基金】:國家自然科學基金資助項目“社會網(wǎng)絡的主題演化分析與傳播趨勢預測研究”(61472291) 深圳市知識創(chuàng)新計劃基礎研究基金資助項目“基于壓縮感知的社交網(wǎng)絡主題提取與演化分析”
【分類號】:TP393.092;TP391.1
【正文快照】: 中文引用格式:彭敏,張?zhí)┈|,黃佳佳,等.基于回歸模型與譜聚類的微博突發(fā)話題檢測方法[J].計算機工程,2015,41(12):176-181.英文引用格式:Peng Min,Zhang Taiwei,Huang Jiajia,et al.Microblog Sudden Topic Detection Method Based onRegression Models and Spectral Clusterin
【相似文獻】
相關期刊論文 前10條
1 王娜;杜海峰;莊健;余進濤;王孫安;;三種典型的基于圖分割的譜聚類方法比較[J];系統(tǒng)仿真學報;2009年11期
2 王會青;陳俊杰;;基于圖劃分的譜聚類方法的研究[J];計算機工程與設計;2011年01期
3 王春騰;符傳誼;邢潔清;;基于非負約束的譜聚類方法[J];電腦知識與技術;2011年17期
4 何飛;王曉晨;馬粹;梁治國;;生產(chǎn)狀態(tài)的測地距離譜聚類分析[J];計算機工程與應用;2012年24期
5 薛寧靜;;生產(chǎn)狀態(tài)的熵值評估譜聚類分析[J];計算機工程與應用;2012年19期
6 管濤;王杰;;譜聚類的算子理論研究進展[J];計算機科學;2013年S1期
7 周文剛;陳雷霆;董仕;;基于譜聚類的網(wǎng)絡流量分類識別算法[J];電子測量與儀器學報;2013年12期
8 王玲;薄列峰;焦李成;;密度敏感的半監(jiān)督譜聚類[J];軟件學報;2007年10期
9 林立;胡俠;朱俊彥;;基于譜聚類的多文檔摘要新方法[J];計算機工程;2010年22期
10 劉馨月;李靜偉;于紅;尤全增;林鴻飛;;基于共享近鄰的自適應譜聚類[J];小型微型計算機系統(tǒng);2011年09期
相關博士學位論文 前1條
1 孔敏;關聯(lián)圖的譜分析及譜聚類方法研究[D];安徽大學;2006年
相關碩士學位論文 前10條
1 何心琪;基于譜聚類的水聲圖像分割技術研究[D];哈爾濱工程大學;2013年
2 趙冬琴;基于譜聚類的MCI影像學分類特征研究與應用[D];太原理工大學;2014年
3 張俊英;基于譜聚類的圖書目錄重構(gòu)[D];浙江大學;2010年
4 張?zhí)鞆?基于譜聚類的親友通話圈挖掘[D];華南理工大學;2013年
5 鄭偉;基于核與特征選擇的譜聚類社區(qū)檢測算法[D];西安電子科技大學;2013年
6 朱正偉;譜聚類研究及其在入侵檢測中的應用[D];重慶大學;2010年
7 由里;基于譜聚類的圖像分割方法研究[D];國防科學技術大學;2011年
8 張洪;結(jié)合概率潛在語義分析的文本譜聚類研究[D];重慶大學;2012年
9 陳志豪;基于阻尼距離的譜聚類集成算法研究與實現(xiàn)[D];華南理工大學;2013年
10 鄧小燕;譜聚類在基因表達數(shù)據(jù)分析中的應用與研究[D];重慶大學;2010年
,本文編號:1437214
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/1437214.html