微博網(wǎng)絡熱點話題發(fā)現(xiàn)技術研究
發(fā)布時間:2024-11-02 14:12
微博已經(jīng)成為當今社會新一代的重要媒體,幾乎現(xiàn)實社會中的事件都會在微博中形成討論,并進一步醞釀發(fā)酵,進而影響到現(xiàn)實中的社會事件。因此對微博網(wǎng)絡中話題的產(chǎn)生發(fā)展及影響力研究,是當前業(yè)界關注的問題之一,具有較強的社會意義和現(xiàn)實意義。 本論文的主要工作如下: 1、研究了微博文本的特點,并針對其特殊性分析了現(xiàn)有文本處理策略對微博文本的適用性,在現(xiàn)有文本表示策略的基礎上,結合微博網(wǎng)絡的特點,提出了一種適用于微博短文本的文本表示策略,其基本思想是將TFIDF策略與近義詞庫應用相結合,對傳統(tǒng)的特征空間進行調(diào)整,合并具有相關性的特征項,以修正傳統(tǒng)特征空間中正交假設帶來的文本相似性度量的偏差,并利用微博評論擴充微博文本,從而能夠更準確的計算文本間的相似度。 2、在分析現(xiàn)有聚類算法的基礎上,給出了傳統(tǒng)文本聚類算法的優(yōu)缺點,并在分析微博網(wǎng)絡中話題的發(fā)現(xiàn)對聚類算法的要求的基礎上,提出了增量式聚類算法Ant-tree的改進算法——RD-Ant-tree算法。該算法利用Ant-tree算法在效率上的先天優(yōu)勢,針對Ant-tree算法對數(shù)據(jù)輸入順序敏感的問題,通過動態(tài)調(diào)整結果樹,降低了輸入順序?qū)λ惴ńY...
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【文章目錄】:
致謝
中文摘要
ABSTRACT
1 引言
1.1 背景及意義
1.2 相關研究現(xiàn)狀
1.2.1 短文本預處理與表示策略相關研究現(xiàn)狀
1.2.2 文本聚類相關研究現(xiàn)狀
1.3 論文主要工作及組織結構
2 微博網(wǎng)絡話題發(fā)現(xiàn)相關技術
2.1 微博文本的特點
2.2 短文本表示策略的相關研究
2.3 經(jīng)典文本聚類算法
2.3.1 基于劃分的聚類算法
2.3.2 層次聚類算法
2.3.3 密度聚類算法
2.3.4 增量式聚類算法
2.4 微博用戶劃分研究
2.5 微博話題傳播特點
2.5.1 微博話題生命周期
2.5.2 二次傳播理論
2.6 本章小結
3 微博短文本表示策略研究
3.1 短文本降維策略改進
3.1.1 短文本表示策略比較
3.1.2 RD-TFIDF表示策略的理論基礎
3.1.3 RD-TFIDF表示策略
3.2 評論信息擴展的微博文本表示
3.2.1 微博評論的表現(xiàn)形式
3.2.2 微博評論的獲取
3.2.3 微博評論信息的過濾
3.2.5 微博文本信息擴展策略
3.3 RD-TFIDF文本表示策略驗證
3.3.1 實驗數(shù)據(jù)準備
3.3.2 評價方法與標準
3.3.3 實驗結果與分析
3.4 本章小結
4 微博信息短文本聚類算法研究
4.1 Ant-tree的改進算法RD-Ant-tree
4.1.1 現(xiàn)有聚類算法分析
4.1.2 Ant-tree算法的相關研究與改進思路
4.1.3 DR-Ant-tree算法的設計思想
4.1.4 DR-Ant-tree算法描述
4.1.5 DR-Ant-tree算法性能分析
4.2 DR-Ant-tree算法驗證
4.2.1 性能評價指標
4.2.2 實驗結果及分析
4.3 本章小結
5 基于微博網(wǎng)絡的話題評估研究
5.1 基于話題能量的話題熱度評估
5.1.1 熱點話題特征
5.1.2 微博話題熱度的影響因素
5.1.3 基于話題能量的熱度評估模型
5.2 話題潛在影響力評估
5.2.1 微博平臺的用戶劃分
5.2.2 微博突發(fā)事件傳播模型分析
5.2.3 微博話題的潛在影響力
5.3 本章小結
6 微博網(wǎng)絡熱點話題系統(tǒng)總體設計與實現(xiàn)
6.1 整體設計
6.2 話題發(fā)現(xiàn)模塊核心實現(xiàn)
6.2.1 微博信息的預處理實現(xiàn)
6.2.2 聚類分析實現(xiàn)
6.3 話題評估模塊處理流程與運行效果
6.5 本章小結
7 結論與展望
7.1 總結
7.2 研究展望
參考文獻
作者簡歷
學位論文數(shù)據(jù)集
本文編號:4009632
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【文章目錄】:
致謝
中文摘要
ABSTRACT
1 引言
1.1 背景及意義
1.2 相關研究現(xiàn)狀
1.2.1 短文本預處理與表示策略相關研究現(xiàn)狀
1.2.2 文本聚類相關研究現(xiàn)狀
1.3 論文主要工作及組織結構
2 微博網(wǎng)絡話題發(fā)現(xiàn)相關技術
2.1 微博文本的特點
2.2 短文本表示策略的相關研究
2.3 經(jīng)典文本聚類算法
2.3.1 基于劃分的聚類算法
2.3.2 層次聚類算法
2.3.3 密度聚類算法
2.3.4 增量式聚類算法
2.4 微博用戶劃分研究
2.5 微博話題傳播特點
2.5.1 微博話題生命周期
2.5.2 二次傳播理論
2.6 本章小結
3 微博短文本表示策略研究
3.1 短文本降維策略改進
3.1.1 短文本表示策略比較
3.1.2 RD-TFIDF表示策略的理論基礎
3.1.3 RD-TFIDF表示策略
3.2 評論信息擴展的微博文本表示
3.2.1 微博評論的表現(xiàn)形式
3.2.2 微博評論的獲取
3.2.3 微博評論信息的過濾
3.2.5 微博文本信息擴展策略
3.3 RD-TFIDF文本表示策略驗證
3.3.1 實驗數(shù)據(jù)準備
3.3.2 評價方法與標準
3.3.3 實驗結果與分析
3.4 本章小結
4 微博信息短文本聚類算法研究
4.1 Ant-tree的改進算法RD-Ant-tree
4.1.1 現(xiàn)有聚類算法分析
4.1.2 Ant-tree算法的相關研究與改進思路
4.1.3 DR-Ant-tree算法的設計思想
4.1.4 DR-Ant-tree算法描述
4.1.5 DR-Ant-tree算法性能分析
4.2 DR-Ant-tree算法驗證
4.2.1 性能評價指標
4.2.2 實驗結果及分析
4.3 本章小結
5 基于微博網(wǎng)絡的話題評估研究
5.1 基于話題能量的話題熱度評估
5.1.1 熱點話題特征
5.1.2 微博話題熱度的影響因素
5.1.3 基于話題能量的熱度評估模型
5.2 話題潛在影響力評估
5.2.1 微博平臺的用戶劃分
5.2.2 微博突發(fā)事件傳播模型分析
5.2.3 微博話題的潛在影響力
5.3 本章小結
6 微博網(wǎng)絡熱點話題系統(tǒng)總體設計與實現(xiàn)
6.1 整體設計
6.2 話題發(fā)現(xiàn)模塊核心實現(xiàn)
6.2.1 微博信息的預處理實現(xiàn)
6.2.2 聚類分析實現(xiàn)
6.3 話題評估模塊處理流程與運行效果
6.5 本章小結
7 結論與展望
7.1 總結
7.2 研究展望
參考文獻
作者簡歷
學位論文數(shù)據(jù)集
本文編號:4009632
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/4009632.html
最近更新
教材專著