基于流量的網(wǎng)絡(luò)用戶關(guān)聯(lián)分析方法研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-12-04 06:44
從大規(guī)模的網(wǎng)絡(luò)流量中分析挖掘出用戶特征、分析用戶行為,現(xiàn)如今已經(jīng)是互聯(lián)網(wǎng)時(shí)代的一項(xiàng)關(guān)鍵技術(shù),引起了業(yè)內(nèi)廣泛的重視與研究。如何通過用戶在網(wǎng)絡(luò)上的行為數(shù)據(jù),發(fā)現(xiàn)用戶之間潛在的關(guān)系,從而轉(zhuǎn)化為輔助網(wǎng)絡(luò)安全建設(shè)和互聯(lián)網(wǎng)發(fā)展的有用知識(shí),是現(xiàn)階段亟需解決的問題。本文對網(wǎng)絡(luò)協(xié)議的結(jié)構(gòu)和通信方式以及數(shù)據(jù)挖掘算法進(jìn)行了深入研究,分析了每種協(xié)議可以提取的用戶特征,利用這些特征數(shù)據(jù)從繁雜的流量中找出用戶賬號(hào),并提出了基于流量和屬性相似度的用戶關(guān)聯(lián)性分析模型,最后設(shè)計(jì)并實(shí)現(xiàn)了網(wǎng)絡(luò)用戶關(guān)聯(lián)分析系統(tǒng)。論文的主要的研究內(nèi)容和相關(guān)成果包括以下幾個(gè)方面:(1)針對多種網(wǎng)絡(luò)主流協(xié)議的結(jié)構(gòu)和用戶關(guān)聯(lián)性分析的需求,設(shè)計(jì)了解析模型實(shí)現(xiàn)了對網(wǎng)絡(luò)流量的數(shù)據(jù)挖掘和特征提取,模型根據(jù)各種主流協(xié)議的結(jié)構(gòu),明確了相應(yīng)的解析方法,并對關(guān)鍵字段進(jìn)行了自動(dòng)化的提取。(2)對流量中的用戶賬號(hào)進(jìn)行了提取,并且為判斷用戶之間是否有關(guān)聯(lián)提取出了相應(yīng)的賬號(hào)屬性特征,并另外提出了四種會(huì)話屬性特征以增強(qiáng)關(guān)聯(lián)效果。并為不同用戶間的特征相似度提出了 N-Gram、Jaro距離等不同的度量方式。(3)利用SVM機(jī)器學(xué)習(xí)理論和提取的用戶數(shù)據(jù)特征,提出使用屬性相似度特...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
離群噪聲點(diǎn)示意圖
??(4)目前兩兩之間的用戶匹配基本時(shí)間復(fù)雜是0(W2),如果N數(shù)量很際上消耗的時(shí)間是較高的,如何去提升時(shí)間效率,也是一個(gè)亟待研究的問本章主要針對以上提出的幾個(gè)問題,提出了屬性相似度的網(wǎng)絡(luò)爪戶關(guān)聯(lián)章建立的模型將挖掘出不同平臺(tái)網(wǎng)絡(luò)用戶互相之間是否屬于同一實(shí)體用,盡可能地從復(fù)雜流量中挖掘?qū)?yīng)關(guān)系,除了利用社會(huì)屬性特征之外,本對用戶關(guān)聯(lián)這一問題,新提出了會(huì)話特征和[P-SimRank算法,結(jié)合SVM型,來判斷兩兩用戶間是否有是否屬于同一實(shí)體用戶。??.2基于屬性相似度的網(wǎng)絡(luò)用戶關(guān)聯(lián)模型結(jié)構(gòu)??本文以分析兩兩用戶之間的關(guān)聯(lián)性(是否屬于同一實(shí)體用戶)為目標(biāo),了基于屬性相似度的網(wǎng)絡(luò)用戶關(guān)聯(lián)模型。首先該模型將用戶之間是否關(guān)聯(lián)轉(zhuǎn)類問題,并使用SVM算法去進(jìn)行分類,主要在特征和用戶相似度度量方幾個(gè)方向上對整個(gè)分類模型進(jìn)行優(yōu)化,整個(gè)模型的流程圖如圖3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??圖3-?3?HTTP請求消息結(jié)構(gòu)圖??上圖中第一行表示的是HTTP請求行,表示客戶端通過POST方法請求指定??URL下的資源。URL對應(yīng)著網(wǎng)站的某一處資源,這些URL在對應(yīng)特定的網(wǎng)站,??比如本文所涉及的百度搜索,通過對URL進(jìn)行判斷,可以知道該會(huì)話可能攜帶??百度賬號(hào)的相關(guān)用戶信息,進(jìn)而可以通過Cookie來提取相應(yīng)的賬號(hào),百度搜索??URL示例如圖3-4。??圖3-4百度搜索對應(yīng)的URL??要想分析用戶之間的關(guān)聯(lián)性,首要的便是需要能夠挖掘出流量中存在的用戶??賬號(hào),本節(jié)就此采用一種利用正則表達(dá)式匹配的賬號(hào)1D提取技術(shù),以提取流量??中存在的用戶賬號(hào)。即通過分析HTTP會(huì)話的內(nèi)容,判斷哪些會(huì)話的域名是平臺(tái)??相關(guān)的域名
【參考文獻(xiàn)】:
期刊論文
[1]面向社會(huì)網(wǎng)絡(luò)融合的關(guān)聯(lián)用戶挖掘方法綜述[J]. 周小平,梁循,趙吉超,李志宇,馬躍峰. 軟件學(xué)報(bào). 2017(06)
[2]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]RBF-SVM的核參數(shù)選擇方法及其在故障診斷中的應(yīng)用[J]. 周紹磊,廖劍,史賢俊. 電子測量與儀器學(xué)報(bào). 2014(03)
[4]兩種基于雙向比較的最長公共子串算法[J]. 王開云,孔思淇,付云生,潘澤友,馬衛(wèi)東,趙強(qiáng). 計(jì)算機(jī)研究與發(fā)展. 2013(11)
[5]基于HTTP協(xié)議的POST數(shù)據(jù)分析與還原[J]. 陳雷,劉嘉勇. 通信技術(shù). 2011(04)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[7]基于關(guān)聯(lián)規(guī)則的高校課程關(guān)聯(lián)性分析[J]. 鄧硯谷,佘穎. 現(xiàn)代教育技術(shù). 2010(05)
[8]TCP協(xié)議簡述與三次握手原理解析[J]. 朱晶. 電腦知識(shí)與技術(shù). 2009(05)
[9]Cookie技術(shù)在Web日志挖掘預(yù)處理中的應(yīng)用[J]. 周增國,龐有軍. 大連大學(xué)學(xué)報(bào). 2006(02)
[10]基于有向圖的對象范式生成算法[J]. 劉國華,汪衛(wèi),張亮,施伯樂. 軟件學(xué)報(bào). 2004(05)
碩士論文
[1]多社交網(wǎng)絡(luò)用戶身份識(shí)別算法研究[D]. 孟波.大連理工大學(xué) 2015
[2]支持向量機(jī)增量學(xué)習(xí)算法研究[D]. 李金鳳.中南民族大學(xué) 2011
本文編號(hào):2897175
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
離群噪聲點(diǎn)示意圖
??(4)目前兩兩之間的用戶匹配基本時(shí)間復(fù)雜是0(W2),如果N數(shù)量很際上消耗的時(shí)間是較高的,如何去提升時(shí)間效率,也是一個(gè)亟待研究的問本章主要針對以上提出的幾個(gè)問題,提出了屬性相似度的網(wǎng)絡(luò)爪戶關(guān)聯(lián)章建立的模型將挖掘出不同平臺(tái)網(wǎng)絡(luò)用戶互相之間是否屬于同一實(shí)體用,盡可能地從復(fù)雜流量中挖掘?qū)?yīng)關(guān)系,除了利用社會(huì)屬性特征之外,本對用戶關(guān)聯(lián)這一問題,新提出了會(huì)話特征和[P-SimRank算法,結(jié)合SVM型,來判斷兩兩用戶間是否有是否屬于同一實(shí)體用戶。??.2基于屬性相似度的網(wǎng)絡(luò)用戶關(guān)聯(lián)模型結(jié)構(gòu)??本文以分析兩兩用戶之間的關(guān)聯(lián)性(是否屬于同一實(shí)體用戶)為目標(biāo),了基于屬性相似度的網(wǎng)絡(luò)用戶關(guān)聯(lián)模型。首先該模型將用戶之間是否關(guān)聯(lián)轉(zhuǎn)類問題,并使用SVM算法去進(jìn)行分類,主要在特征和用戶相似度度量方幾個(gè)方向上對整個(gè)分類模型進(jìn)行優(yōu)化,整個(gè)模型的流程圖如圖3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??圖3-?3?HTTP請求消息結(jié)構(gòu)圖??上圖中第一行表示的是HTTP請求行,表示客戶端通過POST方法請求指定??URL下的資源。URL對應(yīng)著網(wǎng)站的某一處資源,這些URL在對應(yīng)特定的網(wǎng)站,??比如本文所涉及的百度搜索,通過對URL進(jìn)行判斷,可以知道該會(huì)話可能攜帶??百度賬號(hào)的相關(guān)用戶信息,進(jìn)而可以通過Cookie來提取相應(yīng)的賬號(hào),百度搜索??URL示例如圖3-4。??圖3-4百度搜索對應(yīng)的URL??要想分析用戶之間的關(guān)聯(lián)性,首要的便是需要能夠挖掘出流量中存在的用戶??賬號(hào),本節(jié)就此采用一種利用正則表達(dá)式匹配的賬號(hào)1D提取技術(shù),以提取流量??中存在的用戶賬號(hào)。即通過分析HTTP會(huì)話的內(nèi)容,判斷哪些會(huì)話的域名是平臺(tái)??相關(guān)的域名
【參考文獻(xiàn)】:
期刊論文
[1]面向社會(huì)網(wǎng)絡(luò)融合的關(guān)聯(lián)用戶挖掘方法綜述[J]. 周小平,梁循,趙吉超,李志宇,馬躍峰. 軟件學(xué)報(bào). 2017(06)
[2]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]RBF-SVM的核參數(shù)選擇方法及其在故障診斷中的應(yīng)用[J]. 周紹磊,廖劍,史賢俊. 電子測量與儀器學(xué)報(bào). 2014(03)
[4]兩種基于雙向比較的最長公共子串算法[J]. 王開云,孔思淇,付云生,潘澤友,馬衛(wèi)東,趙強(qiáng). 計(jì)算機(jī)研究與發(fā)展. 2013(11)
[5]基于HTTP協(xié)議的POST數(shù)據(jù)分析與還原[J]. 陳雷,劉嘉勇. 通信技術(shù). 2011(04)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計(jì)算機(jī)工程與應(yīng)用. 2011(03)
[7]基于關(guān)聯(lián)規(guī)則的高校課程關(guān)聯(lián)性分析[J]. 鄧硯谷,佘穎. 現(xiàn)代教育技術(shù). 2010(05)
[8]TCP協(xié)議簡述與三次握手原理解析[J]. 朱晶. 電腦知識(shí)與技術(shù). 2009(05)
[9]Cookie技術(shù)在Web日志挖掘預(yù)處理中的應(yīng)用[J]. 周增國,龐有軍. 大連大學(xué)學(xué)報(bào). 2006(02)
[10]基于有向圖的對象范式生成算法[J]. 劉國華,汪衛(wèi),張亮,施伯樂. 軟件學(xué)報(bào). 2004(05)
碩士論文
[1]多社交網(wǎng)絡(luò)用戶身份識(shí)別算法研究[D]. 孟波.大連理工大學(xué) 2015
[2]支持向量機(jī)增量學(xué)習(xí)算法研究[D]. 李金鳳.中南民族大學(xué) 2011
本文編號(hào):2897175
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2897175.html
最近更新
教材專著