a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于MIC的高維數(shù)據(jù)特征選擇及應(yīng)用研究

發(fā)布時間:2020-06-19 23:17
【摘要】:隨著大數(shù)據(jù)時代的到來,高維數(shù)據(jù)的“維度災難”問題也隨之受到更多學者的廣泛關(guān)注。高維數(shù)據(jù)通常指包含成千上百個特征且具有大量無關(guān)信息和冗余特征的數(shù)據(jù)集,如在自然語言處理領(lǐng)域、生物工程領(lǐng)域、醫(yī)療領(lǐng)域、金融領(lǐng)域和人臉識別領(lǐng)域等都存在著大量的高維數(shù)據(jù),而其中包含的冗余特征會給后續(xù)的學習和研究帶來極大的不便,更會降低最后分析結(jié)果的可信度,甚至會得到錯誤的結(jié)果。因此,高維數(shù)據(jù)的特征選擇方法成為了國內(nèi)外學者的研究重點,并且在多個領(lǐng)域都得到了廣泛應(yīng)用。本文提出利用最大信息系數(shù)(Maximal Information coefficient,簡稱MIC)的方法進行高維數(shù)據(jù)的特征選擇。MIC是由哈佛大學的David N.Reshef等人在2011年提出的度量兩個變量之間相互依賴程度的一個指標,且有基于觀測數(shù)據(jù)的計算方法。傳統(tǒng)的特征選擇方法(如AIC、BIC)需要先確定模型,不同的模型選擇出的特征集差異較大,且模型的可解釋性較差。本文從理論角度證明了MIC的重要性質(zhì)。在實驗部分先基于MIC度量進行特征選擇,MIC特征選擇方法不依賴于所選模型,不論后面建模中使用什么模型以及如何使用這些特征,理論上均不會丟失真正有相依關(guān)系的特征,此特性充分體現(xiàn)了所選特征子集的穩(wěn)定性。然后建立隨機森林模型來檢驗所選特征的合適與否,首先使用組塊3x2交叉驗證來進行模型訓練集和測試集的劃分而非傳統(tǒng)的k折交叉驗證,接著在得到的6個訓練集上訓練隨機森林模型并分別在對應(yīng)的測試集上檢驗分類性能,采取袋外誤差OOB(out-of-bag)作為隨機森林模型調(diào)參的評價準則,并且將決策樹的個數(shù)k和樹結(jié)點的特征選擇個數(shù)p雙參數(shù)組合進行調(diào)參而非傳統(tǒng)的單參數(shù)固定調(diào)參。最后,將6組實驗結(jié)果取均值后與未進行特征選取的數(shù)據(jù)在模型性能上進行對比,結(jié)果表明模型分類的準確率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分說明利用MIC進行高維數(shù)據(jù)特征選擇的有效性。
【學位授予單位】:山西大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:C81
【圖文】:

互信息,相依性,變量,互信


第二章 相關(guān)概念及理論變量相依性時主要有兩個優(yōu)點:以度量變量之間任意類型關(guān)系間的相依性:因為由互信基于變量之間的邊緣和聯(lián)合概率密度函數(shù),而不是基于計特性;行空間維度的變換時,互信息具有不變性。熵的關(guān)系以等價的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:

曲線,圖線,高維數(shù)據(jù),特征選擇


基于 MIC 的高維數(shù)據(jù)特征選擇及應(yīng)用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標“真正例率”(True Positive Rate,簡稱 TPR)為縱軸,以標“假正例率”(False Positive Rate,簡稱 FPR)為橫軸進行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .

【相似文獻】

相關(guān)期刊論文 前10條

1 張何辛;孫效華;郭煒煒;;高維數(shù)據(jù)的交互式沉浸可視化——以城市生活質(zhì)量數(shù)據(jù)為例[J];裝飾;2019年06期

2 陳紅彬;;基于大數(shù)據(jù)的高維數(shù)據(jù)挖掘探究[J];通訊世界;2018年03期

3 于君;范文彬;杜永軍;;智能電網(wǎng)中高維數(shù)據(jù)聚類方法研究[J];智能計算機與應(yīng)用;2016年01期

4 張凌潔;;淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期

5 李澤安;;淺談高維數(shù)據(jù)挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期

6 宋懷波;何東健;;面向精細農(nóng)業(yè)的高維數(shù)據(jù)本征維數(shù)估計方法研究進展[J];中國科學:信息科學;2010年S1期

7 張航;PP型擬合優(yōu)度檢驗[J];系統(tǒng)科學與數(shù)學;1988年03期

8 余立蘋;李云飛;朱世行;;基于高維數(shù)據(jù)流的異常檢測算法[J];計算機工程;2018年01期

9 虞翔;李青;;大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘在入侵檢測中的有效應(yīng)用[J];電腦編程技巧與維護;2016年22期

10 宋玉林;訾雪e

本文編號:2721479


資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2721479.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2f727***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
97香蕉碰碰人妻国产欧美| 久久伊人网站| 91精品国产91久久久久水蜜桃| 欧美日产国产精品| 中文字幕一区二区人妻| 九九国产| 国产精品毛片无遮挡高清| 精品国产香蕉伊思人在线| 免费看美女隐私全部| 麻豆产精品一二三产区区| 超碰人人澡人人碰人人| 毛片色毛片18毛片美女| 日本一码二码三码是什么尺码 | 亚洲18色成人网站WWW| 宁夏| 日本精品网站| 色五婷婷| 国产91精品一区二区绿帽| av免费不卡国产观看| 久久婷婷五月综合色欧美| 亚洲国产精品一区二区美利坚| 欧美熟妇av777777| 人人爽人人爽人人| 天海翼在线| 天堂av网站| 无码精品视频一区二区三区蜜臀视频| 亚洲高清无在码在线电影不卡| 久久精品AⅤ无码中文字字幕不卡| 97色伦综合在线欧美视频| 亚洲AV中文无码字幕色最| 国产一区二区好的精华液| 日韩一区二| 亚洲乱色| 四虎国产精品免费久久5151| 日韩一级大片| 国产黄色录像视频| 日韩Av无码中文无码电影| 衤字旁加韦字| 久久久国产精华液| 97色偷偷色噜噜男人的天堂| 久久小视频精品人妻|