基于密度峰值融合K-means聚類算法的微博輿情分析
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖3.1微博開放平臺Fig.3.1WeiboOpenPlatform
19第3章微博數(shù)據(jù)采集獲取微博文本是進行輿情分析實驗的前提,微博文本數(shù)據(jù)的采集主要是利用微博搜索界面利用網(wǎng)頁提取技術(shù)來爬取數(shù)據(jù),采集技術(shù)主要包括基于微博API的采集方式,另一種是手工開發(fā)抓取程序的形式,本文接下來將詳細介紹這兩種不同的采集方式。3.1微博API數(shù)據(jù)采集方式3.1.....
圖3.4請求數(shù)據(jù)流Fig.3.4RequestDataFlow
23網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)是通過模擬瀏覽器行為向服務(wù)器發(fā)送請求從而獲得微博文本信息的過程,本章節(jié)主要介紹網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)的方式中需要解決的關(guān)鍵性的問題:對網(wǎng)頁抓包以及微博站點進行分析,模擬瀏覽器行為請求并開啟微博數(shù)據(jù)爬取,最后對存儲的微博數(shù)據(jù)存儲予以解析。爬蟲方式獲取數(shù)據(jù)流程圖如圖3.....
圖3.5請求相應(yīng)信息Fig.3.5RequestCorrespondingInformation
23網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)是通過模擬瀏覽器行為向服務(wù)器發(fā)送請求從而獲得微博文本信息的過程,本章節(jié)主要介紹網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)的方式中需要解決的關(guān)鍵性的問題:對網(wǎng)頁抓包以及微博站點進行分析,模擬瀏覽器行為請求并開啟微博數(shù)據(jù)爬取,最后對存儲的微博數(shù)據(jù)存儲予以解析。爬蟲方式獲取數(shù)據(jù)流程圖如圖3.....
圖3.6微博高級搜索Fig.3.6WeiboAdvancedSearch
24者工具中分析抓包過程。當用戶訪問微博點擊登錄時,如圖3.4所示的開發(fā)者模式中可以看到捕捉的登錄請求數(shù)據(jù)流。Network可以查看所有加載的請求。由圖3.5所示,點擊左側(cè)的請求網(wǎng)址,可以通過右側(cè)的Headers看到頭部參數(shù)設(shè)置,這里面包含了請求的URL和相應(yīng)的信息,點擊Resp....
本文編號:3998259
本文鏈接:http://www.wukwdryxk.cn/xinwenchuanbolunwen/3998259.html
下一篇:沒有了