基于流量的網(wǎng)絡用戶關聯(lián)分析方法研究與實現(xiàn)
發(fā)布時間:2020-12-04 06:44
從大規(guī)模的網(wǎng)絡流量中分析挖掘出用戶特征、分析用戶行為,現(xiàn)如今已經(jīng)是互聯(lián)網(wǎng)時代的一項關鍵技術,引起了業(yè)內(nèi)廣泛的重視與研究。如何通過用戶在網(wǎng)絡上的行為數(shù)據(jù),發(fā)現(xiàn)用戶之間潛在的關系,從而轉(zhuǎn)化為輔助網(wǎng)絡安全建設和互聯(lián)網(wǎng)發(fā)展的有用知識,是現(xiàn)階段亟需解決的問題。本文對網(wǎng)絡協(xié)議的結構和通信方式以及數(shù)據(jù)挖掘算法進行了深入研究,分析了每種協(xié)議可以提取的用戶特征,利用這些特征數(shù)據(jù)從繁雜的流量中找出用戶賬號,并提出了基于流量和屬性相似度的用戶關聯(lián)性分析模型,最后設計并實現(xiàn)了網(wǎng)絡用戶關聯(lián)分析系統(tǒng)。論文的主要的研究內(nèi)容和相關成果包括以下幾個方面:(1)針對多種網(wǎng)絡主流協(xié)議的結構和用戶關聯(lián)性分析的需求,設計了解析模型實現(xiàn)了對網(wǎng)絡流量的數(shù)據(jù)挖掘和特征提取,模型根據(jù)各種主流協(xié)議的結構,明確了相應的解析方法,并對關鍵字段進行了自動化的提取。(2)對流量中的用戶賬號進行了提取,并且為判斷用戶之間是否有關聯(lián)提取出了相應的賬號屬性特征,并另外提出了四種會話屬性特征以增強關聯(lián)效果。并為不同用戶間的特征相似度提出了 N-Gram、Jaro距離等不同的度量方式。(3)利用SVM機器學習理論和提取的用戶數(shù)據(jù)特征,提出使用屬性相似度特...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
離群噪聲點示意圖
??(4)目前兩兩之間的用戶匹配基本時間復雜是0(W2),如果N數(shù)量很際上消耗的時間是較高的,如何去提升時間效率,也是一個亟待研究的問本章主要針對以上提出的幾個問題,提出了屬性相似度的網(wǎng)絡爪戶關聯(lián)章建立的模型將挖掘出不同平臺網(wǎng)絡用戶互相之間是否屬于同一實體用,盡可能地從復雜流量中挖掘?qū)P系,除了利用社會屬性特征之外,本對用戶關聯(lián)這一問題,新提出了會話特征和[P-SimRank算法,結合SVM型,來判斷兩兩用戶間是否有是否屬于同一實體用戶。??.2基于屬性相似度的網(wǎng)絡用戶關聯(lián)模型結構??本文以分析兩兩用戶之間的關聯(lián)性(是否屬于同一實體用戶)為目標,了基于屬性相似度的網(wǎng)絡用戶關聯(lián)模型。首先該模型將用戶之間是否關聯(lián)轉(zhuǎn)類問題,并使用SVM算法去進行分類,主要在特征和用戶相似度度量方幾個方向上對整個分類模型進行優(yōu)化,整個模型的流程圖如圖3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??圖3-?3?HTTP請求消息結構圖??上圖中第一行表示的是HTTP請求行,表示客戶端通過POST方法請求指定??URL下的資源。URL對應著網(wǎng)站的某一處資源,這些URL在對應特定的網(wǎng)站,??比如本文所涉及的百度搜索,通過對URL進行判斷,可以知道該會話可能攜帶??百度賬號的相關用戶信息,進而可以通過Cookie來提取相應的賬號,百度搜索??URL示例如圖3-4。??圖3-4百度搜索對應的URL??要想分析用戶之間的關聯(lián)性,首要的便是需要能夠挖掘出流量中存在的用戶??賬號,本節(jié)就此采用一種利用正則表達式匹配的賬號1D提取技術,以提取流量??中存在的用戶賬號。即通過分析HTTP會話的內(nèi)容,判斷哪些會話的域名是平臺??相關的域名
【參考文獻】:
期刊論文
[1]面向社會網(wǎng)絡融合的關聯(lián)用戶挖掘方法綜述[J]. 周小平,梁循,趙吉超,李志宇,馬躍峰. 軟件學報. 2017(06)
[2]中文分詞模型的領域適應性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[3]RBF-SVM的核參數(shù)選擇方法及其在故障診斷中的應用[J]. 周紹磊,廖劍,史賢俊. 電子測量與儀器學報. 2014(03)
[4]兩種基于雙向比較的最長公共子串算法[J]. 王開云,孔思淇,付云生,潘澤友,馬衛(wèi)東,趙強. 計算機研究與發(fā)展. 2013(11)
[5]基于HTTP協(xié)議的POST數(shù)據(jù)分析與還原[J]. 陳雷,劉嘉勇. 通信技術. 2011(04)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應用. 2011(03)
[7]基于關聯(lián)規(guī)則的高校課程關聯(lián)性分析[J]. 鄧硯谷,佘穎. 現(xiàn)代教育技術. 2010(05)
[8]TCP協(xié)議簡述與三次握手原理解析[J]. 朱晶. 電腦知識與技術. 2009(05)
[9]Cookie技術在Web日志挖掘預處理中的應用[J]. 周增國,龐有軍. 大連大學學報. 2006(02)
[10]基于有向圖的對象范式生成算法[J]. 劉國華,汪衛(wèi),張亮,施伯樂. 軟件學報. 2004(05)
碩士論文
[1]多社交網(wǎng)絡用戶身份識別算法研究[D]. 孟波.大連理工大學 2015
[2]支持向量機增量學習算法研究[D]. 李金鳳.中南民族大學 2011
本文編號:2897175
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
離群噪聲點示意圖
??(4)目前兩兩之間的用戶匹配基本時間復雜是0(W2),如果N數(shù)量很際上消耗的時間是較高的,如何去提升時間效率,也是一個亟待研究的問本章主要針對以上提出的幾個問題,提出了屬性相似度的網(wǎng)絡爪戶關聯(lián)章建立的模型將挖掘出不同平臺網(wǎng)絡用戶互相之間是否屬于同一實體用,盡可能地從復雜流量中挖掘?qū)P系,除了利用社會屬性特征之外,本對用戶關聯(lián)這一問題,新提出了會話特征和[P-SimRank算法,結合SVM型,來判斷兩兩用戶間是否有是否屬于同一實體用戶。??.2基于屬性相似度的網(wǎng)絡用戶關聯(lián)模型結構??本文以分析兩兩用戶之間的關聯(lián)性(是否屬于同一實體用戶)為目標,了基于屬性相似度的網(wǎng)絡用戶關聯(lián)模型。首先該模型將用戶之間是否關聯(lián)轉(zhuǎn)類問題,并使用SVM算法去進行分類,主要在特征和用戶相似度度量方幾個方向上對整個分類模型進行優(yōu)化,整個模型的流程圖如圖3-1所示。??
Connection:?Keep-Alive??name:::Professional%20AjQx&publisher:::Wiley??圖3-?3?HTTP請求消息結構圖??上圖中第一行表示的是HTTP請求行,表示客戶端通過POST方法請求指定??URL下的資源。URL對應著網(wǎng)站的某一處資源,這些URL在對應特定的網(wǎng)站,??比如本文所涉及的百度搜索,通過對URL進行判斷,可以知道該會話可能攜帶??百度賬號的相關用戶信息,進而可以通過Cookie來提取相應的賬號,百度搜索??URL示例如圖3-4。??圖3-4百度搜索對應的URL??要想分析用戶之間的關聯(lián)性,首要的便是需要能夠挖掘出流量中存在的用戶??賬號,本節(jié)就此采用一種利用正則表達式匹配的賬號1D提取技術,以提取流量??中存在的用戶賬號。即通過分析HTTP會話的內(nèi)容,判斷哪些會話的域名是平臺??相關的域名
【參考文獻】:
期刊論文
[1]面向社會網(wǎng)絡融合的關聯(lián)用戶挖掘方法綜述[J]. 周小平,梁循,趙吉超,李志宇,馬躍峰. 軟件學報. 2017(06)
[2]中文分詞模型的領域適應性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[3]RBF-SVM的核參數(shù)選擇方法及其在故障診斷中的應用[J]. 周紹磊,廖劍,史賢俊. 電子測量與儀器學報. 2014(03)
[4]兩種基于雙向比較的最長公共子串算法[J]. 王開云,孔思淇,付云生,潘澤友,馬衛(wèi)東,趙強. 計算機研究與發(fā)展. 2013(11)
[5]基于HTTP協(xié)議的POST數(shù)據(jù)分析與還原[J]. 陳雷,劉嘉勇. 通信技術. 2011(04)
[6]SVM分類核函數(shù)及參數(shù)選擇比較[J]. 奉國和. 計算機工程與應用. 2011(03)
[7]基于關聯(lián)規(guī)則的高校課程關聯(lián)性分析[J]. 鄧硯谷,佘穎. 現(xiàn)代教育技術. 2010(05)
[8]TCP協(xié)議簡述與三次握手原理解析[J]. 朱晶. 電腦知識與技術. 2009(05)
[9]Cookie技術在Web日志挖掘預處理中的應用[J]. 周增國,龐有軍. 大連大學學報. 2006(02)
[10]基于有向圖的對象范式生成算法[J]. 劉國華,汪衛(wèi),張亮,施伯樂. 軟件學報. 2004(05)
碩士論文
[1]多社交網(wǎng)絡用戶身份識別算法研究[D]. 孟波.大連理工大學 2015
[2]支持向量機增量學習算法研究[D]. 李金鳳.中南民族大學 2011
本文編號:2897175
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2897175.html
最近更新
教材專著