微博僵尸粉識別技術研究與實現(xiàn)
發(fā)布時間:2024-07-02 06:09
伴隨著微博平臺的開放,大量出于各種目的“僵尸粉”隨之產(chǎn)生。這些“僵尸粉”或用于制造虛假的人氣,或參與網(wǎng)絡營銷,或作為某些事件甚至謠言的推手,進而成為人們享受這項服務的困擾,甚至安全隱患。因此,對這種機器生成的“僵尸粉”的識別工作正變得越來越重要。對于僵尸粉識別問題,本文主要做了以下幾方面工作:(1)鑒于微博的短文本特征,利用現(xiàn)有文本分析技術處理微博文本存在一定困難。本文利用僵尸粉發(fā)帖的內(nèi)容特征,將文本復制檢測技術應用到博文文本特征分析問題中,提出了一種基于信息指紋的微博文本查重技術,并利用此技術實現(xiàn)了僵尸粉的識別。(2)國內(nèi)外僵尸粉識別研究中缺少對特征識別效力的討論,本文針對這一問題對常用的幾項僵尸粉的識別特征進行了擴展并完成了相應的實驗分析,最終給出各個特征識別效力的評估結果;(3)根據(jù)特征識別力將僵尸粉識別特征分為強特征與弱特征,進而提出了基于強特征的僵尸粉過濾方法以及基于弱特征的用戶信任度投票方法。將兩種方法相結合可以給出用戶真實性的判斷結果。同時,還制定了兩種判別機制的多級閾值選取策略。為了檢驗算法的識別能力,利用標注數(shù)據(jù)集對其識別效果進行評測,結果顯示,該算法對僵尸粉及真實用...
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.1.1 微博的特點
1.1.2 僵尸粉的產(chǎn)生與發(fā)展
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 社交平臺應對僵尸粉的策略
1.2.2 僵尸粉識別技術
1.3 本文的研究內(nèi)容
1.4 本文的組織結構
第二章 相關理論與技術
2.1 僵尸粉對微博影響的研究
2.1.1 僵尸粉對影響力模型的影響
2.1.2 僵尸粉對微博傳播的影響
2.2 微博文本分析技術
2.2.1 文本分類的一般技術
2.2.2 微博短文本分析技術
2.3 海量數(shù)據(jù)處理相關技術
2.3.1 大數(shù)據(jù)分析架構
2.3.2 Hadoop原理
2.4 本章小結
第三章 基于信息指紋的僵尸粉微博文本分析方法
3.1 僵尸粉用戶的微博文本特征
3.1.1 僵尸粉的重定義
3.1.2 僵尸粉用戶的微博文本特征
3.2 文本復制檢測技術概述
3.3 基于信息指紋的微博文本查重算法實現(xiàn)
3.3.1 微博指紋庫的構建
3.3.2 用戶博文內(nèi)容查重
3.4 本章小結
第四章 多元特征識別力分析
4.1 僵尸粉的產(chǎn)生原因及行為特征
4.2 僵尸粉識別特征
4.2.1 用戶賬號特征
4.2.2 用戶關系特征
4.2.3 博文特征
4.3 實驗與分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 實驗結果分析
4.4 本章小結
第五章 基于特征識別力的僵尸粉識別方法
5.1 僵尸粉判別的流程
5.2 強特征過濾算法實現(xiàn)
5.2.1 真實用戶過濾特征閾值選取
5.2.2 僵尸粉過濾特征的閾值選取
5.2.3 強特征過濾
5.3 弱特征投票算法實現(xiàn)
5.3.1 特征正向投票閾值的選取
5.3.2 特征反向投票閾值的選取
5.3.3 弱特征投票
5.4 僵尸粉識別結果評測
5.5 本章小結
第六章 一種僵尸粉分析服務架構的實現(xiàn)
6.1 核心模塊設計
6.1.1 數(shù)據(jù)采集模塊
6.1.2 數(shù)據(jù)存儲與處理模塊
6.1.3 候選特征模塊
6.1.4 服務模塊
6.2 服務定制策略
6.2.1 單用戶判斷服務特征定制策略
6.2.2 粉絲質(zhì)量分析服務特征定制策略
6.2.3 事件分析服務特征定制策略
6.3 本章小結
第七章 結束語
7.1 全文工作總結
7.2 工作展望
致謝
參考文獻
作者在學期間取得的學術成果
本文編號:3999797
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景
1.1.1 微博的特點
1.1.2 僵尸粉的產(chǎn)生與發(fā)展
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 社交平臺應對僵尸粉的策略
1.2.2 僵尸粉識別技術
1.3 本文的研究內(nèi)容
1.4 本文的組織結構
第二章 相關理論與技術
2.1 僵尸粉對微博影響的研究
2.1.1 僵尸粉對影響力模型的影響
2.1.2 僵尸粉對微博傳播的影響
2.2 微博文本分析技術
2.2.1 文本分類的一般技術
2.2.2 微博短文本分析技術
2.3 海量數(shù)據(jù)處理相關技術
2.3.1 大數(shù)據(jù)分析架構
2.3.2 Hadoop原理
2.4 本章小結
第三章 基于信息指紋的僵尸粉微博文本分析方法
3.1 僵尸粉用戶的微博文本特征
3.1.1 僵尸粉的重定義
3.1.2 僵尸粉用戶的微博文本特征
3.2 文本復制檢測技術概述
3.3 基于信息指紋的微博文本查重算法實現(xiàn)
3.3.1 微博指紋庫的構建
3.3.2 用戶博文內(nèi)容查重
3.4 本章小結
第四章 多元特征識別力分析
4.1 僵尸粉的產(chǎn)生原因及行為特征
4.2 僵尸粉識別特征
4.2.1 用戶賬號特征
4.2.2 用戶關系特征
4.2.3 博文特征
4.3 實驗與分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 實驗結果分析
4.4 本章小結
第五章 基于特征識別力的僵尸粉識別方法
5.1 僵尸粉判別的流程
5.2 強特征過濾算法實現(xiàn)
5.2.1 真實用戶過濾特征閾值選取
5.2.2 僵尸粉過濾特征的閾值選取
5.2.3 強特征過濾
5.3 弱特征投票算法實現(xiàn)
5.3.1 特征正向投票閾值的選取
5.3.2 特征反向投票閾值的選取
5.3.3 弱特征投票
5.4 僵尸粉識別結果評測
5.5 本章小結
第六章 一種僵尸粉分析服務架構的實現(xiàn)
6.1 核心模塊設計
6.1.1 數(shù)據(jù)采集模塊
6.1.2 數(shù)據(jù)存儲與處理模塊
6.1.3 候選特征模塊
6.1.4 服務模塊
6.2 服務定制策略
6.2.1 單用戶判斷服務特征定制策略
6.2.2 粉絲質(zhì)量分析服務特征定制策略
6.2.3 事件分析服務特征定制策略
6.3 本章小結
第七章 結束語
7.1 全文工作總結
7.2 工作展望
致謝
參考文獻
作者在學期間取得的學術成果
本文編號:3999797
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/3999797.html
上一篇:在線社會網(wǎng)絡用戶行為模型與應用算法研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著