一種基于統(tǒng)計頻率的網(wǎng)絡(luò)流量特征選擇方法
本文關(guān)鍵詞: 網(wǎng)絡(luò)流量分類 多類不均衡 統(tǒng)計頻率 特征選擇 出處:《小型微型計算機系統(tǒng)》2016年11期 論文類型:期刊論文
【摘要】:在對多類不均衡的網(wǎng)絡(luò)流量進行分類時,基于機器學習的分類模型傾向于多數(shù)類,導(dǎo)致少數(shù)類召回率較低.針對該問題,提出一種基于統(tǒng)計頻率的特征選擇方法.該方法首先根據(jù)樣本的統(tǒng)計頻率計算出度量每個特征區(qū)分能力的特征選擇系數(shù),然后根據(jù)特征選擇系數(shù)構(gòu)建特征選擇矩陣,最后為每個類選擇與之相關(guān)性較強的特征.在實驗階段,使用該方法選擇的特征對多類不均衡的網(wǎng)絡(luò)流量進行分類獲得了較高的整體準確率、少數(shù)類召回率和g-mean值,證明該方法可以減輕多類不均衡問題帶來的不良影響.
[Abstract]:The classification model based on machine learning tends to most classes, which leads to a low recall rate of a few classes. A feature selection method based on statistical frequency is proposed. Firstly, based on the statistical frequency of the sample, the feature selection coefficient is calculated to measure the distinguishing ability of each feature. Then the feature selection matrix is constructed according to the feature selection coefficient. Finally, each class selects the feature with strong correlation. The features selected by this method are used to classify the multi-class unbalanced network traffic and obtain higher overall accuracy, a few class recall rate and g-mean value. It is proved that this method can reduce the adverse effects of many kinds of unbalanced problems.
【作者單位】: 上海大學通信與信息工程學院;中國科學院上海高等研究院;
【基金】:國家自然科學青年基金項目(61302093)資助 上海市科委重大項目(14511101505)資助;上海市科委院市合作專項(13DZ1511200)資助 中科院重點部署項目(KGZW-EW-103)資助 東南大學移動通信國家重點實驗室開放研究基金項目(2013D07)資助
【分類號】:TP393.06
【正文快照】: 1引言網(wǎng)絡(luò)流量分類對于實現(xiàn)網(wǎng)絡(luò)監(jiān)管、提高服務(wù)質(zhì)量以及維護網(wǎng)絡(luò)安全具有重要意義.傳統(tǒng)基于端口的分類技術(shù)難以對靈活使用端口號的流量進行分類;基于深度包檢測的分類技術(shù)在數(shù)據(jù)進行加密的情況下準確率較低,并且在一定程度上侵犯了用戶的隱私權(quán)[1].因此,基于機器學習的網(wǎng)絡(luò)流
【相似文獻】
相關(guān)期刊論文 前10條
1 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機系統(tǒng);2008年12期
2 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學報;2008年S1期
3 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識集的特征選擇方法[J];微型機與應(yīng)用;2009年23期
4 朱顥東;周姝;鐘勇;;結(jié)合差別對象對集的綜合性特征選擇方法[J];計算機工程與設(shè)計;2010年03期
5 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
6 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
7 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學報;2013年04期
8 張玉紅;周全;胡學鋼;;面向跨領(lǐng)域情感分類的特征選擇方法[J];模式識別與人工智能;2013年11期
9 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機技術(shù)與發(fā)展;2013年12期
10 申清明;閆利軍;高建民;趙靜;;基于混沌搜索的特征選擇方法[J];兵工學報;2013年12期
相關(guān)會議論文 前6條
1 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
2 肖婷;唐雁;;文本分類中特征選擇方法及應(yīng)用[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
4 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學會2009年學術(shù)交流年會論文集[C];2010年
5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學會2010年學術(shù)年會論文集[C];2010年
6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學術(shù)會議論文集[C];2006年
相關(guān)博士學位論文 前4條
1 劉明霞;屬性學習若干重要問題的研究及應(yīng)用[D];南京航空航天大學;2015年
2 毛勇;基于支持向量機的特征選擇方法的研究與應(yīng)用[D];浙江大學;2006年
3 尹留志;關(guān)于非平衡數(shù)據(jù)特征問題的研究[D];中國科學技術(shù)大學;2014年
4 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學中的應(yīng)用[D];吉林大學;2008年
相關(guān)碩士學位論文 前10條
1 曹晉;基于SVDD的特征選擇方法研究及其應(yīng)用[D];蘇州大學;2015年
2 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學技術(shù)大學;2015年
3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學;2014年
4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學;2015年
5 于海珠;面向文本聚類的特征選擇方法及應(yīng)用研究[D];大連理工大學;2015年
6 趙世琛;文本分類中特征選擇方法研究[D];山西大學;2014年
7 王丹;特征選擇算法研究及其在異常檢測中的應(yīng)用[D];電子科技大學;2014年
8 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學;2014年
9 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學院;2015年
10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應(yīng)用研究[D];南京航空航天大學;2015年
,本文編號:1449593
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/1449593.html