a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

云環(huán)境下基于RIHDBSCAN的微博事件檢測及跟蹤

發(fā)布時間:2020-01-22 10:32
【摘要】:微博近幾年有著飛速的發(fā)展和廣泛的影響。用戶通過網(wǎng)頁、手機(jī)、SMS等多種途徑,隨時隨地記錄見聞時事、參與話題討論等。對實(shí)時產(chǎn)生的大量微博文本進(jìn)行分析和挖掘具有風(fēng)險預(yù)警、輿論監(jiān)控等重要實(shí)際意義,也給文本挖掘領(lǐng)域帶來了新的挑戰(zhàn)。 針對微博的挖掘分析,國內(nèi)外學(xué)者已經(jīng)取得了一定的成果。然而,為了提高從海量迅速增長的微博數(shù)據(jù)中挖掘新聞事件的速度和精度,需要采取新的更加有效的方法來處理即時更新的大量文本數(shù)據(jù)流。云計(jì)算技術(shù)是未來的趨勢,它能夠高效的完成海量數(shù)據(jù)的存儲和計(jì)算任務(wù),將云計(jì)算技術(shù)和微博挖掘結(jié)合起來勢在必行。論文設(shè)計(jì)了一套完整的云環(huán)境下的微博事件檢測跟蹤模型。主要研究及創(chuàng)新點(diǎn)如下: ①制定機(jī)械化過濾規(guī)則,將抓取的微博文本按規(guī)則進(jìn)行過濾,有效提高后續(xù)處理的效率。 ②在傳統(tǒng)TF-IDF算法的基礎(chǔ)上,提出動態(tài)權(quán)值計(jì)算方法FCF-DIDF。該算法基于微博轉(zhuǎn)發(fā)數(shù)和評論數(shù),能夠有效改善TF-IDF算法的不足,并考慮到微博文本集規(guī)模的不斷增加,適合處理微博短文本。 ③基于DBSCAN算法,提出基于代表點(diǎn)的增量層次密度聚類算法(RIHDBSCAN)。該算法分為三個步驟:生成初始簇、初始簇合并、選出代表點(diǎn)。算法執(zhí)行過程中只需要選取部分對象進(jìn)行核心點(diǎn)檢測,大大降低了I/O開銷,屏蔽了數(shù)據(jù)輸入順序敏感性。RIHDBSAN算法在每輪事件檢測聚類算法執(zhí)行結(jié)束后,選出代表點(diǎn)組參與下輪的增量聚類,并通過增量聚類中簇結(jié)構(gòu)和關(guān)鍵詞變化追蹤事件的發(fā)展軌跡。 ④針對單一節(jié)點(diǎn)處理海量微博數(shù)據(jù)面臨困境,將算法部署在Hadoop云計(jì)算平臺上。模型的四個部分:文本過濾、FCF-DIDF動態(tài)權(quán)值計(jì)算、余弦距離計(jì)算、RIHDBSCAN聚類,都并行在該平臺上。 通過在新浪微博平臺上抽取的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)表明,表明論文提出的FCF-DIDF算法對比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用較好的提高了從大規(guī)模微博數(shù)據(jù)中挖掘新聞事件的效率,,適合用于海量數(shù)據(jù)的分析和挖掘。
【圖文】:

詞條,權(quán)值矩陣,文檔,向量空間模型


文檔-詞條權(quán)值矩陣Fig2.2.Theweightmatrixoftext-term

相似度,余弦,歐氏距離,文本


圖 2.3 歐氏距離和余弦相似度的區(qū)別2.3 The difference between Euclidean distance and Cosine sim,余弦相似度能夠有效規(guī)避文本間的差異表現(xiàn),場景,論文采用規(guī)范化的余弦公式計(jì)算余弦相似度續(xù)聚類分析有重要的影響。本章介紹了預(yù)處理關(guān)鍵首先提出根據(jù)機(jī)械化規(guī)則直接過濾文本,提高后提出一種改進(jìn)的 FCF-DIDF 動態(tài)權(quán)值算法計(jì)算特公式來計(jì)算文本向量間的相似度,最后得到余弦模型,為聚類分析做好了數(shù)據(jù)準(zhǔn)備。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蔡穎琨,謝昆青,馬修軍;屏蔽了輸入?yún)?shù)敏感性的DBSCAN改進(jìn)算法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期

2 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期

3 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計(jì)算機(jī)科學(xué);2012年01期

4 邱云飛;程亮;;微博突發(fā)話題檢測方法研究[J];計(jì)算機(jī)工程;2012年09期

5 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報(bào);2007年06期

6 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期

7 周紅芳;趙雪涵;周揚(yáng);;基于限定區(qū)域數(shù)據(jù)取樣的密度聚類算法[J];計(jì)算機(jī)應(yīng)用;2012年08期

8 李勁;張華;吳浩雄;向軍;;基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J];計(jì)算機(jī)應(yīng)用;2012年08期

9 周水庚,周傲英,金文,范曄,錢衛(wèi)寧;FDBSCAN:一種快速 DBSCAN算法(英文)[J];軟件學(xué)報(bào);2000年06期

10 馬帥,王騰蛟,唐世渭,楊冬青,高軍;一種基于參考點(diǎn)和密度的快速聚類算法[J];軟件學(xué)報(bào);2003年06期



本文編號:2571936

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2571936.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶afd83***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美日韩亚洲国产综合乱| 国产乱人无码伦av在线a| 久久先锋男人av资源网站| 国产中文区3幕区2021| 凹凸国产熟女精品视频| 亚洲成a∧人片在线播放| 亚洲一二三区成人无码| 久久精品国产亚洲AV麻豆色欲| 亚洲精品综合在线影院| 色婷婷中文字幕| 亚洲А∨天堂久久精品| 这里只有国产中文精品99久久| 亚洲综合精品伊人久久| 黑人太粗太深了太硬受不了了| 育儿| 久久99国产精一区二区三区| 国产成人综合网| 久久婷婷五月综合色精品| 强壮公弄得我次次高潮| 亚洲第一区无码专区| 亚洲国产精品成人精品无码区 | 欧美VA亚洲VA日韩VA| 久久99精品久久久久久不卡| 成人欧美一区二区三区视频 | 被黑人猛躁10次高潮视频| 上司的丰满人妻中文字幕| 国产婷婷一区二区三区久久| 国产成人精品| y111111国产精品久久久| 美女啪啪网站又黄又免费| 夜夜影院未满十八勿进| 亚洲午夜未满十八勿入网站2| 江孜县| 国产无遮挡裸体免费久久| 国产777| 久久综合九色综合久99| 久久国产乱子伦免费精品无码| 无码不卡中文字幕av| 玩弄放荡人妻少妇系列视频 | 五月丁香色综合久久4438| 被粗汉h玩松了尿进去|