基于機(jī)器學(xué)習(xí)的移動流量識別與異常檢測研究
發(fā)布時間:2020-11-17 03:33
隨著互聯(lián)網(wǎng)的飛速發(fā)展,移動應(yīng)用產(chǎn)生的流量呈現(xiàn)爆發(fā)式增長,對于移動應(yīng)用流量的識別和檢測異常流量已成為一項艱巨的任務(wù)。雖然在該領(lǐng)域已提出許多方法,但是仍然存在幾個重要問題亟待解決:①能夠?qū)用芰髁考捌鋺?yīng)用進(jìn)行識別,并且支持在線實(shí)時的識別功能;②隨機(jī)森林分類器對于不平衡數(shù)據(jù)極容易產(chǎn)生偏向性分類問題而忽略少數(shù)類樣本;③目前沒有權(quán)威的移動應(yīng)用異常流量數(shù)據(jù),從而導(dǎo)致移動應(yīng)用異常流量檢測不夠全面和準(zhǔn)確。本文針對以上問題對移動應(yīng)用的流量識別和異常檢測進(jìn)行研究,主要工作分為以下兩部分。第一,通過提出一種基于隨機(jī)森林的不平衡數(shù)據(jù)改進(jìn)算法,以實(shí)現(xiàn)對加密或不加密流量的在線實(shí)時識別。①本文針對采集到的上萬量級的移動應(yīng)用流量數(shù)據(jù)進(jìn)行處理,采用數(shù)據(jù)包長度作為數(shù)據(jù)特征提取的基礎(chǔ),在數(shù)據(jù)預(yù)處理的方式上進(jìn)行了優(yōu)化。通過優(yōu)化突發(fā)、網(wǎng)絡(luò)流等概念,將流量數(shù)據(jù)離散化為流量塊,以更小粒度的劃分,使得模型能夠達(dá)到在線實(shí)時識別的目的。②針對不平衡數(shù)據(jù)的偏向性問題,本文提出了一種基于稀疏度權(quán)重值法的不平衡數(shù)據(jù)改進(jìn)算法,與以往研究不同的是,首先對數(shù)據(jù)整體進(jìn)行聚類而不是單獨(dú)對多數(shù)類或者少數(shù)類樣本聚類,這樣可以避免過擬合的問題;其次,在聚類后加入了稀疏度權(quán)重值法,充分考慮了數(shù)據(jù)分布、邊緣情況,改善了以往研究出現(xiàn)的問題。第二,考慮到目前移動異常流量數(shù)據(jù)的不全面性,設(shè)計了一種半合成流量生成的方法,以此使得數(shù)據(jù)集更接近真實(shí)、全面的情況。同時結(jié)合了基于相關(guān)性特征選擇和C4.5決策樹算法,首先選擇特征最優(yōu)子集,根據(jù)數(shù)據(jù)集選擇出與異常流量類型最相關(guān)的特征,然后采用C4.5決策樹算法多分類的特性,可以同時達(dá)到自動化檢測異常流量和識別異常類型的目的。綜上所述,本文所設(shè)計的框架模型十分輕量并具有高度擴(kuò)展性和移植性。對于移動應(yīng)用流量的識別,實(shí)驗(yàn)中通過采用控制變量法的參數(shù)優(yōu)化方案,運(yùn)行一組完整的實(shí)驗(yàn)和對比實(shí)驗(yàn),準(zhǔn)確率可以達(dá)到98%以上。對于移動流量的異常檢測,對三種常見的異常類型的檢測準(zhǔn)確率均可以達(dá)到94%以上,通過結(jié)合算法第三種異常類型的檢測準(zhǔn)確率更是提高了7%,同時也驗(yàn)證了半合成數(shù)據(jù)生成方法和采用結(jié)合算法檢測器的可靠性和有效性。
【學(xué)位單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP393.06;TP181
【部分圖文】:
魂王自:理請求消啟籍式
使得模型的輸出結(jié)果盡可能接近真實(shí)結(jié)果。模型訓(xùn)練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機(jī)等等。有監(jiān)督學(xué)習(xí)方法的模型訓(xùn)練流程如圖2-4所示:??訓(xùn)練樣本?—|??箕法訓(xùn)練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學(xué)習(xí)方法模型訓(xùn)練流程??基于無監(jiān)督學(xué)習(xí)的方法,其算法的實(shí)質(zhì)為對數(shù)據(jù)樣本進(jìn)行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進(jìn)行改進(jìn),將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學(xué)習(xí)方法在本質(zhì)上只能對相同類型進(jìn)行聚??類并不能進(jìn)行識別,但是如果后續(xù)對數(shù)據(jù)樣本進(jìn)行標(biāo)記以明確分類,也可達(dá)到分??類和識別的目的,這種方法也叫做半監(jiān)督學(xué)習(xí)方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標(biāo)記,此時半監(jiān)督的學(xué)習(xí)方法就可發(fā)揮其優(yōu)勢,將不帶有標(biāo)??記的數(shù)據(jù)集進(jìn)行聚類,從而擴(kuò)大數(shù)據(jù)集的覆蓋率和分類準(zhǔn)確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標(biāo)記??分類模型?—?分類????圖2-5無監(jiān)螫學(xué)習(xí)方法模型訓(xùn)練流程??12??
使得模型的輸出結(jié)果盡可能接近真實(shí)結(jié)果。模型訓(xùn)練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機(jī)等等。有監(jiān)督學(xué)習(xí)方法的模型訓(xùn)練流程如圖2-4所示:??訓(xùn)練樣本?—|??箕法訓(xùn)練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學(xué)習(xí)方法模型訓(xùn)練流程??基于無監(jiān)督學(xué)習(xí)的方法,其算法的實(shí)質(zhì)為對數(shù)據(jù)樣本進(jìn)行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進(jìn)行改進(jìn),將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學(xué)習(xí)方法在本質(zhì)上只能對相同類型進(jìn)行聚??類并不能進(jìn)行識別,但是如果后續(xù)對數(shù)據(jù)樣本進(jìn)行標(biāo)記以明確分類,也可達(dá)到分??類和識別的目的,這種方法也叫做半監(jiān)督學(xué)習(xí)方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標(biāo)記,此時半監(jiān)督的學(xué)習(xí)方法就可發(fā)揮其優(yōu)勢,將不帶有標(biāo)??記的數(shù)據(jù)集進(jìn)行聚類,從而擴(kuò)大數(shù)據(jù)集的覆蓋率和分類準(zhǔn)確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標(biāo)記??分類模型?—?分類????圖2-5無監(jiān)螫學(xué)習(xí)方法模型訓(xùn)練流程??12??
【參考文獻(xiàn)】
本文編號:2887045
【學(xué)位單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP393.06;TP181
【部分圖文】:
魂王自:理請求消啟籍式
使得模型的輸出結(jié)果盡可能接近真實(shí)結(jié)果。模型訓(xùn)練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機(jī)等等。有監(jiān)督學(xué)習(xí)方法的模型訓(xùn)練流程如圖2-4所示:??訓(xùn)練樣本?—|??箕法訓(xùn)練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學(xué)習(xí)方法模型訓(xùn)練流程??基于無監(jiān)督學(xué)習(xí)的方法,其算法的實(shí)質(zhì)為對數(shù)據(jù)樣本進(jìn)行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進(jìn)行改進(jìn),將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學(xué)習(xí)方法在本質(zhì)上只能對相同類型進(jìn)行聚??類并不能進(jìn)行識別,但是如果后續(xù)對數(shù)據(jù)樣本進(jìn)行標(biāo)記以明確分類,也可達(dá)到分??類和識別的目的,這種方法也叫做半監(jiān)督學(xué)習(xí)方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標(biāo)記,此時半監(jiān)督的學(xué)習(xí)方法就可發(fā)揮其優(yōu)勢,將不帶有標(biāo)??記的數(shù)據(jù)集進(jìn)行聚類,從而擴(kuò)大數(shù)據(jù)集的覆蓋率和分類準(zhǔn)確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標(biāo)記??分類模型?—?分類????圖2-5無監(jiān)螫學(xué)習(xí)方法模型訓(xùn)練流程??12??
使得模型的輸出結(jié)果盡可能接近真實(shí)結(jié)果。模型訓(xùn)練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學(xué)習(xí)方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機(jī)等等。有監(jiān)督學(xué)習(xí)方法的模型訓(xùn)練流程如圖2-4所示:??訓(xùn)練樣本?—|??箕法訓(xùn)練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學(xué)習(xí)方法模型訓(xùn)練流程??基于無監(jiān)督學(xué)習(xí)的方法,其算法的實(shí)質(zhì)為對數(shù)據(jù)樣本進(jìn)行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進(jìn)行改進(jìn),將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學(xué)習(xí)方法在本質(zhì)上只能對相同類型進(jìn)行聚??類并不能進(jìn)行識別,但是如果后續(xù)對數(shù)據(jù)樣本進(jìn)行標(biāo)記以明確分類,也可達(dá)到分??類和識別的目的,這種方法也叫做半監(jiān)督學(xué)習(xí)方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標(biāo)記,此時半監(jiān)督的學(xué)習(xí)方法就可發(fā)揮其優(yōu)勢,將不帶有標(biāo)??記的數(shù)據(jù)集進(jìn)行聚類,從而擴(kuò)大數(shù)據(jù)集的覆蓋率和分類準(zhǔn)確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標(biāo)記??分類模型?—?分類????圖2-5無監(jiān)螫學(xué)習(xí)方法模型訓(xùn)練流程??12??
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 梁偉;陳福才;李海濤;;一種基于C4.5決策樹的VoIP流量識別方法[J];計算機(jī)應(yīng)用研究;2012年09期
2 黃愛輝;;決策樹C4.5算法的改進(jìn)及應(yīng)用[J];科學(xué)技術(shù)與工程;2009年01期
3 唐華松,姚耀文;數(shù)據(jù)挖掘中決策樹算法的探討[J];計算機(jī)應(yīng)用研究;2001年08期
相關(guān)碩士學(xué)位論文 前1條
1 張睿;ID3決策樹算法分析與改進(jìn)[D];蘭州大學(xué);2010年
本文編號:2887045
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2887045.html
最近更新
教材專著