計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)論文開題報(bào)告
本文關(guān)鍵詞:基于生成模型的大規(guī)模網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)方法研究,由筆耕文化傳播整理發(fā)布。
開題報(bào)告是由選題者把自己所選的課題的概況(即"開題報(bào)告內(nèi)容"),向有關(guān)專家、學(xué)者、科技人員進(jìn)行陳述,以下 是一篇關(guān)于計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)論文開題報(bào)告,供大家參考!
論文題目:基于生成模型的大規(guī)模網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)方法研究
一、研究背景
互聯(lián)網(wǎng)時代催生了社會媒體和在線社交平臺的蓬勃發(fā)展,這些網(wǎng)絡(luò)具有用戶自由表達(dá)意愿及產(chǎn)生信息的功能,成為人們信息生成、傳播及交流的主要模式。流行的在線社交平臺有Wikipedia、My Space、Facebook、YouTtibe、Twitter、微信、騰訊、淘寶、亞馬遜、人人網(wǎng)、新浪微博、博客等。根據(jù)IntemetLiveStats報(bào)道,截至2014年11月,數(shù)字世界再次到達(dá)另一個重要的里程碑,全球互聯(lián)網(wǎng)用戶數(shù)量超過了30億人大關(guān);Facebook用戶達(dá)到13.5億,活躍用戶基數(shù)顯示增長了2.3%; Twitter有6億用戶;人人網(wǎng)有2.8億用戶;新浪微博有5.6億用戶;亞馬遜每個月用戶達(dá)7900萬;淘寶有5億用戶,雙十一時淘寶用戶增至350億。用戶、消費(fèi)者等實(shí)體對這些在線社交平臺的應(yīng)用興趣愈加濃厚。普通用戶通過在線社會網(wǎng)絡(luò)進(jìn)行各類交互,如用戶通過微信、微博、Twitter進(jìn)行關(guān)注、轉(zhuǎn)帖等操作,基于這些操作信息可構(gòu)建各類網(wǎng)絡(luò)。消費(fèi)者通過在線社交平臺了解商家,如淘寶、當(dāng)當(dāng)、京東、亞馬遜等商業(yè)營銷網(wǎng)絡(luò)平臺,對各個商家進(jìn)行關(guān)注、購買、評價等行為,基于這些行為形成多種交互網(wǎng)絡(luò)。這些在線網(wǎng)絡(luò)平臺用戶每天產(chǎn)生龐大的關(guān)系數(shù)據(jù)和內(nèi)容數(shù)據(jù),用戶的增加也使網(wǎng)絡(luò)由原來的以數(shù)據(jù)為中心變?yōu)橐杂脩魹橹行,網(wǎng)絡(luò)信息獲取由原來的網(wǎng)頁搜索方式變?yōu)榫W(wǎng)絡(luò)群體智能挖掘方式。商家將在線社交平臺作為信息獲取源頭,挖掘大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)獲取信息,為進(jìn)行各類市場營銷產(chǎn)生盈利提供依據(jù),在線社交平臺成為下一代商務(wù)智能平臺的重要部分。政府部門挖掘在線社交平臺產(chǎn)生數(shù)據(jù)結(jié)構(gòu)規(guī)律,進(jìn)行突發(fā)事件監(jiān)測、輿情監(jiān)控、恐怖活動預(yù)防等。網(wǎng)絡(luò)產(chǎn)生大量的數(shù)據(jù)可建模為關(guān)系網(wǎng)絡(luò),節(jié)點(diǎn)表示實(shí)體,包括用戶、網(wǎng)頁、組織等,節(jié)點(diǎn)邊表示實(shí)體交互關(guān)系。如TNvitter用戶關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)表示用戶,邊表示用戶間的關(guān)系;博客網(wǎng)頁鏈接網(wǎng)絡(luò),節(jié)點(diǎn)表示網(wǎng)頁,邊表示網(wǎng)頁間的引用關(guān)系;淘寶商家和用戶構(gòu)成的混合網(wǎng)絡(luò),節(jié)點(diǎn)表示用戶或商家,邊表示用戶間關(guān)系、商家間關(guān)系及用戶和商家間的關(guān)系。構(gòu)建的網(wǎng)絡(luò)系統(tǒng)除了包含大量鏈接之外,節(jié)點(diǎn)還包括豐富的內(nèi)容屬性。如用戶發(fā)布的信息、博客網(wǎng)頁的文本信息。在線社交平臺產(chǎn)生越來越多的網(wǎng)絡(luò)數(shù)據(jù),其具有結(jié)構(gòu)復(fù)雜、規(guī)模龐大、內(nèi)容豐富等特點(diǎn)。對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘和分析有助于我們了解和管理各類系統(tǒng),進(jìn)而為決策者提供決策依據(jù)。己有成果表明對網(wǎng)絡(luò)數(shù)據(jù)的研宄主要從3個層面進(jìn)行:復(fù)雜網(wǎng)絡(luò)理論和算法理論;社會網(wǎng)絡(luò)分析,包括網(wǎng)絡(luò)的微觀(Micro)、中觀(Meso)和宏觀(Macro)研宄;網(wǎng)絡(luò)的應(yīng)用研宄,如搜索、預(yù)測、信息傳播、推薦、廣告。社會網(wǎng)絡(luò)分析研宄隨著社會媒體的發(fā)展近來成為學(xué)術(shù)界和工業(yè)界的重要研宄方向。其中微觀研究包括用戶建模、行為分析、影響度分析。宏觀研宄包括網(wǎng)絡(luò)的結(jié)構(gòu)本質(zhì)、規(guī)律研究,如小世界現(xiàn)象(Small World Phenomenon)、優(yōu)先鏈接(Preferential Attachment)模型,大量網(wǎng)絡(luò)數(shù)據(jù)的可獲取性使這些結(jié)構(gòu)屬性的統(tǒng)計(jì)特性驗(yàn)證更加魯棒。中觀研究包括社區(qū)結(jié)構(gòu)發(fā)現(xiàn)、結(jié)構(gòu)洞分析、網(wǎng)絡(luò)模體(network motif)等.網(wǎng)絡(luò)中觀結(jié)構(gòu)的研宄對社會網(wǎng)絡(luò)分析及其應(yīng)用起著關(guān)鍵作用。將網(wǎng)絡(luò)進(jìn)行聚類,獲取簡化的網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)具有重要的意義。如可將網(wǎng)絡(luò)聚類為較小規(guī)模的結(jié)構(gòu),便于使用己有方法處理大規(guī)模網(wǎng)絡(luò)分析;可利用聚類結(jié)構(gòu)實(shí)現(xiàn)各種應(yīng)用活動。其中,傳統(tǒng)社區(qū)結(jié)構(gòu)發(fā)現(xiàn)用來識別網(wǎng)絡(luò)中的緊密鏈接節(jié)點(diǎn)簇,是社會網(wǎng)絡(luò)分析的基礎(chǔ)研宄。目前研究者提出了許多傳統(tǒng)社區(qū)發(fā)現(xiàn)方法,如層次聚類方法、模塊度方法、圖分割算法、基于統(tǒng)計(jì)推理的方法等⑴。大多傳統(tǒng)社區(qū)發(fā)現(xiàn)方法針對靜態(tài)網(wǎng)絡(luò),解決緊密子圖發(fā)現(xiàn)問題。最近,也有少量針對動態(tài)網(wǎng)絡(luò)演化社區(qū)發(fā)現(xiàn)的方法[7-9]。已有的傳統(tǒng)社區(qū)發(fā)現(xiàn)方法主要用來發(fā)現(xiàn)類內(nèi)緊密、類間稀疏的網(wǎng)絡(luò)結(jié)構(gòu)。
二、研究目的和意義
隨著社會媒體和在線社交平臺的發(fā)展,互聯(lián)網(wǎng)產(chǎn)生大量可建模為網(wǎng)絡(luò)系統(tǒng)的數(shù)據(jù),商家、政府、網(wǎng)站管理者等實(shí)體需要了解真正的網(wǎng)絡(luò)結(jié)構(gòu)。流行的結(jié)構(gòu)發(fā)現(xiàn)方法傳統(tǒng)社區(qū)發(fā)現(xiàn)方法要求我們預(yù)先假設(shè)網(wǎng)絡(luò)具有某種結(jié)構(gòu),但網(wǎng)絡(luò)中可能沒有這種結(jié)構(gòu),也可能還有許多其它的結(jié)構(gòu);陔S機(jī)塊模型的廣義社區(qū)發(fā)現(xiàn)方法對網(wǎng)絡(luò)結(jié)構(gòu)假設(shè)較少,可以更好地發(fā)現(xiàn)網(wǎng)絡(luò)中的多類型結(jié)構(gòu)。廣義社區(qū)發(fā)現(xiàn)模型不僅可以根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)的隨機(jī)對等性將節(jié)點(diǎn)聚類,還可發(fā)現(xiàn)類間鏈接規(guī)律。廣義社區(qū)發(fā)現(xiàn)的研宄為網(wǎng)絡(luò)建模提供了有效的理論模型,,便于研宄者分析研究網(wǎng)絡(luò)的屬性;同時廣義社區(qū)發(fā)現(xiàn)理論模型及算法實(shí)現(xiàn)也豐富了概率圖模型在大規(guī)模復(fù)雜網(wǎng)絡(luò)分析領(lǐng)域的理論框架。廣義社區(qū)發(fā)現(xiàn)具有重要的實(shí)用價值:1)根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)聚類結(jié)構(gòu)可發(fā)現(xiàn)網(wǎng)絡(luò)中哪些實(shí)體具有相同的性質(zhì),基于節(jié)點(diǎn)的相似性可實(shí)現(xiàn)各類應(yīng)用,如對相似的實(shí)體實(shí)現(xiàn)相同推薦,基于節(jié)點(diǎn)相似性及類間鏈接規(guī)律實(shí)現(xiàn)鏈接預(yù)測;2)將大規(guī)模網(wǎng)絡(luò)進(jìn)行聚類實(shí)現(xiàn)網(wǎng)絡(luò)壓縮,降低網(wǎng)絡(luò)問題求解規(guī)模;3)將大規(guī)模網(wǎng)絡(luò)進(jìn)行不同粒度的聚類,可在不同分辨率下可視化網(wǎng)絡(luò),為網(wǎng)絡(luò)分析與導(dǎo)航提供直觀解決方法。因此,本論文針對在線社會網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、規(guī)模龐大、節(jié)點(diǎn)內(nèi)容豐富等特點(diǎn),關(guān)注網(wǎng)絡(luò)數(shù)據(jù)的廣義社區(qū)發(fā)現(xiàn)概率生成模型及求解。
三、本文研究涉及的主要理論
本論文相關(guān)的及設(shè)計(jì)的廣義社區(qū)發(fā)現(xiàn)模型屬于概率生成模型。機(jī)器學(xué)習(xí)領(lǐng)域,概率生成模型描述觀測變量如何由給定參數(shù)集合生成。生成模型與判別模型相對應(yīng),生成模型是所有變量的模型,判別模型僅提供觀測變量條件下給定隱含變量的模型。因此,生成模型可用來模擬模型中任何變量的值。如果節(jié)點(diǎn)間存在某種層次,則該生成模型稱作層次生成模型。這種模型中通常有依賴于潛在變量的觀測變量,潛在變量分布由參數(shù)特征化。如果參數(shù)有先驗(yàn),則由其它超參數(shù)生成。只要建模需要這種結(jié)構(gòu)可以有很多層。然而,隨著模型復(fù)雜度的增加,計(jì)算量大幅度增長。許多情況下需要在模型豐富性和計(jì)算效率間進(jìn)行折中。數(shù)據(jù)分析的生成模型方法包含兩個階段:第一階段定義生成模型,先驗(yàn)分布在該階段指派;第二階段貝葉斯估計(jì)用來根據(jù)觀測數(shù)據(jù)和先驗(yàn)分布推導(dǎo)后驗(yàn)分布。第一步方向?yàn)閰?shù)生成數(shù)據(jù),對廣義社區(qū)發(fā)現(xiàn)建模來說就是構(gòu)建網(wǎng)絡(luò)生成過程的鏈接模型。第二步方向?yàn)閺臄?shù)據(jù)估計(jì)參數(shù),即根據(jù)觀測數(shù)據(jù)和模型估計(jì)模型參數(shù)。本部分首先介紹典型的網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)鏈接模型;然后給出概率模型的相關(guān)求解方法,包括EM算法、在線EM算法、變分貝葉斯推理及隨機(jī)變分推理算法。
簡單隨機(jī)塊模型SBM可實(shí)現(xiàn)廣義社區(qū)發(fā)現(xiàn),一些研宄者對該模型進(jìn)行約束簡化設(shè)計(jì)了一些傳統(tǒng)社區(qū)發(fā)現(xiàn)鏈接模型,與本論文研宄相關(guān)的模型有基于PLSA模型的社區(qū)發(fā)現(xiàn)模型SPAEM、生成度-流行度鏈接模型PPL和鏈接社區(qū)模型LCM. —些研究者擴(kuò)展SBM關(guān)于網(wǎng)絡(luò)鏈接的生成過程,典型的模型有考慮節(jié)點(diǎn)重疊性質(zhì)的混合隸屬度隨機(jī)塊模型MMSB、考慮節(jié)點(diǎn)度分布的度更正隨機(jī)塊模型DCSBM、考慮鏈接方向的隨機(jī)塊模型GSB。與SBM相似,混合模型NMM及其擴(kuò)展模型也具有網(wǎng)絡(luò)多類型結(jié)構(gòu)發(fā)現(xiàn)能力。
四、本文研究的主要內(nèi)容及研究框架
(一)本文研究的主要內(nèi)容
在線社會媒體產(chǎn)生的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、規(guī)模龐大,廣義社區(qū)發(fā)現(xiàn)概率模型可以更好地處理在線網(wǎng)絡(luò)潛在結(jié)構(gòu)發(fā)現(xiàn)問題.但當(dāng)前的廣義社區(qū)發(fā)現(xiàn)模型及算法求解的速度和準(zhǔn)確性還遠(yuǎn)遠(yuǎn)不能應(yīng)對實(shí)際網(wǎng)絡(luò)應(yīng)用的需求,因此,有必要研究更符合實(shí)際的廣義社區(qū)發(fā)現(xiàn)模型和算法,以提高網(wǎng)絡(luò)結(jié)構(gòu)發(fā)現(xiàn)算法的準(zhǔn)確性和高效性。本文在GSB模型和NMM模型基礎(chǔ)上展開研宄,首先設(shè)計(jì)一個啟發(fā)式的廣義社區(qū)發(fā)現(xiàn)快速算法估計(jì)GSB模型的參數(shù);然后擴(kuò)展GSB模型設(shè)計(jì)更實(shí)際的網(wǎng)絡(luò)生成模型PPSB模型,并進(jìn)一步融合網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)容;為降低PPSB模型的過擬合現(xiàn)象及對訓(xùn)練數(shù)據(jù)之外數(shù)據(jù)的可適性,對模型參數(shù)引入先驗(yàn)分布,并設(shè)計(jì)隨機(jī)變分推理算法求解模型參數(shù)。最后,針對Newman的NMM模型可更快地實(shí)現(xiàn)類個數(shù)較大的廣義社區(qū)發(fā)現(xiàn)優(yōu)點(diǎn),設(shè)計(jì)在線EM算法求解模型參數(shù)。本論文研究內(nèi)容詳細(xì)介紹如下:1)設(shè)計(jì)基于擴(kuò)展隨機(jī)塊模型的快速廣義社區(qū)發(fā)現(xiàn)算法隨機(jī)塊模型可生成多種類型結(jié)構(gòu)的網(wǎng)絡(luò),該模型基于節(jié)點(diǎn)的概率對等性識別網(wǎng)絡(luò)的廣義社區(qū)。但簡單隨機(jī)塊模型的網(wǎng)絡(luò)生成假設(shè)不符合實(shí)際網(wǎng)絡(luò)特性,模型參數(shù)估計(jì)算法不能有效處理大規(guī)模網(wǎng)絡(luò)。擴(kuò)展隨機(jī)塊模型GSB可更好的對網(wǎng)絡(luò)節(jié)點(diǎn)的不同角色建模,但該模型的參數(shù)估計(jì)算法效率較低。為提高GSB模型參數(shù)估計(jì)算法的運(yùn)行效率,基于GSB模型設(shè)計(jì)一種快速參數(shù)估計(jì)算法,使其在保證與GSB參數(shù)估計(jì)EM算法具有相似準(zhǔn)確率的條件下,更有效地識別網(wǎng)絡(luò)廣義社區(qū)。2)設(shè)計(jì)網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)鏈接模型和內(nèi)容網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)模型及求解算法擴(kuò)展隨機(jī)塊模型對網(wǎng)絡(luò)生成過程建模時,沒有同時考慮節(jié)點(diǎn)的產(chǎn)生鏈接能力、接收鏈接能力、節(jié)點(diǎn)混合隸屬度對生成網(wǎng)絡(luò)鏈接的影響。不能很好地對實(shí)際冪率度分布的網(wǎng)絡(luò)建模,且沒有考慮節(jié)點(diǎn)內(nèi)容屬性。設(shè)計(jì)新的廣義社區(qū)發(fā)現(xiàn)鏈接模型,使該模型具有己有隨機(jī)塊模型框架下所有模型廣義社區(qū)發(fā)現(xiàn)的優(yōu)點(diǎn),還可以生成節(jié)點(diǎn)度服從冪率度分布的網(wǎng)絡(luò);谠O(shè)計(jì)的鏈接模型,進(jìn)一步對網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)容屬性和拓?fù)浣Y(jié)構(gòu)同時建模實(shí)現(xiàn)內(nèi)容網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)。3)設(shè)計(jì)三層廣義社區(qū)發(fā)現(xiàn)貝葉斯模型及基于隨機(jī)變分推理的推理算法上述鏈接模型可同時對多類型網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(diǎn)混合隸屬度建模,但是該模型沒有對節(jié)點(diǎn)混合隸屬度和網(wǎng)絡(luò)鏈接概率生成過程建模。致使模型易隨訓(xùn)練集合大小線性增長,出現(xiàn)過擬合現(xiàn)象。也不易為訓(xùn)練集合之外的網(wǎng)絡(luò)實(shí)體實(shí)現(xiàn)鏈接預(yù)測。另外,己有的EM參數(shù)估計(jì)算法在千數(shù)個節(jié)點(diǎn)上運(yùn)行時間都需要幾個小時,使模型不適用處理大規(guī)模網(wǎng)絡(luò)。針對己有廣義社區(qū)發(fā)現(xiàn)算法存在的這些問題,設(shè)計(jì)一個三層貝葉斯網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)模型,在上述設(shè)計(jì)的鏈接模型基礎(chǔ)上增加節(jié)點(diǎn)隸屬度和網(wǎng)絡(luò)塊鏈接模式的生成過程。并基于隨機(jī)變分推理(Stochastic VariationalInference)設(shè)計(jì)參數(shù)估計(jì)算法。最后,與同類流行概率方法比較驗(yàn)證該模型和算法的有效性。4)設(shè)計(jì)基于混合模型的在線EM(ExpectationMaxiinization)廣義社區(qū)發(fā)現(xiàn)算法隨機(jī)塊模型可對更多類型的網(wǎng)絡(luò)結(jié)構(gòu)聚類問題建模,其在線參數(shù)估計(jì)算法關(guān)于類個數(shù)的復(fù)雜度是C?(i^2)。Newman的混合模型也可以發(fā)現(xiàn)網(wǎng)絡(luò)中潛在的廣義社區(qū),其關(guān)于類個數(shù)的復(fù)雜度為C>(in,可處理類個數(shù)較大的網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)。但是基于混合模型的廣義社區(qū)發(fā)現(xiàn)算法每次迭代需要在所有網(wǎng)絡(luò)鏈接上操作,致使該算法不能處理百萬級或更大規(guī)模的網(wǎng)絡(luò),從而不能應(yīng)用到實(shí)際網(wǎng)絡(luò)結(jié)構(gòu)發(fā)現(xiàn)中。為了使該混合模型求解算法可應(yīng)用到實(shí)際大規(guī)模網(wǎng)絡(luò)上,設(shè)計(jì)一個基于混合模型的在線變分EM廣義社區(qū)發(fā)現(xiàn)算法。最后與混合模型的傳統(tǒng)EM算法和簡單隨機(jī)塊模型的在線EM算法進(jìn)行性能比較.
(二)本文研究框架
最近更新:
本文關(guān)鍵詞:基于生成模型的大規(guī)模網(wǎng)絡(luò)廣義社區(qū)發(fā)現(xiàn)方法研究,由筆耕文化傳播整理發(fā)布。
本文編號:181842
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xxkjbs/181842.html