a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于MIC的高維數(shù)據(jù)特征選擇及應(yīng)用研究

發(fā)布時(shí)間:2020-06-19 23:17
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),高維數(shù)據(jù)的“維度災(zāi)難”問(wèn)題也隨之受到更多學(xué)者的廣泛關(guān)注。高維數(shù)據(jù)通常指包含成千上百個(gè)特征且具有大量無(wú)關(guān)信息和冗余特征的數(shù)據(jù)集,如在自然語(yǔ)言處理領(lǐng)域、生物工程領(lǐng)域、醫(yī)療領(lǐng)域、金融領(lǐng)域和人臉識(shí)別領(lǐng)域等都存在著大量的高維數(shù)據(jù),而其中包含的冗余特征會(huì)給后續(xù)的學(xué)習(xí)和研究帶來(lái)極大的不便,更會(huì)降低最后分析結(jié)果的可信度,甚至?xí)玫藉e(cuò)誤的結(jié)果。因此,高維數(shù)據(jù)的特征選擇方法成為了國(guó)內(nèi)外學(xué)者的研究重點(diǎn),并且在多個(gè)領(lǐng)域都得到了廣泛應(yīng)用。本文提出利用最大信息系數(shù)(Maximal Information coefficient,簡(jiǎn)稱MIC)的方法進(jìn)行高維數(shù)據(jù)的特征選擇。MIC是由哈佛大學(xué)的David N.Reshef等人在2011年提出的度量?jī)蓚(gè)變量之間相互依賴程度的一個(gè)指標(biāo),且有基于觀測(cè)數(shù)據(jù)的計(jì)算方法。傳統(tǒng)的特征選擇方法(如AIC、BIC)需要先確定模型,不同的模型選擇出的特征集差異較大,且模型的可解釋性較差。本文從理論角度證明了MIC的重要性質(zhì)。在實(shí)驗(yàn)部分先基于MIC度量進(jìn)行特征選擇,MIC特征選擇方法不依賴于所選模型,不論后面建模中使用什么模型以及如何使用這些特征,理論上均不會(huì)丟失真正有相依關(guān)系的特征,此特性充分體現(xiàn)了所選特征子集的穩(wěn)定性。然后建立隨機(jī)森林模型來(lái)檢驗(yàn)所選特征的合適與否,首先使用組塊3x2交叉驗(yàn)證來(lái)進(jìn)行模型訓(xùn)練集和測(cè)試集的劃分而非傳統(tǒng)的k折交叉驗(yàn)證,接著在得到的6個(gè)訓(xùn)練集上訓(xùn)練隨機(jī)森林模型并分別在對(duì)應(yīng)的測(cè)試集上檢驗(yàn)分類性能,采取袋外誤差OOB(out-of-bag)作為隨機(jī)森林模型調(diào)參的評(píng)價(jià)準(zhǔn)則,并且將決策樹(shù)的個(gè)數(shù)k和樹(shù)結(jié)點(diǎn)的特征選擇個(gè)數(shù)p雙參數(shù)組合進(jìn)行調(diào)參而非傳統(tǒng)的單參數(shù)固定調(diào)參。最后,將6組實(shí)驗(yàn)結(jié)果取均值后與未進(jìn)行特征選取的數(shù)據(jù)在模型性能上進(jìn)行對(duì)比,結(jié)果表明模型分類的準(zhǔn)確率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分說(shuō)明利用MIC進(jìn)行高維數(shù)據(jù)特征選擇的有效性。
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:

互信息,相依性,變量,互信


第二章 相關(guān)概念及理論變量相依性時(shí)主要有兩個(gè)優(yōu)點(diǎn):以度量變量之間任意類型關(guān)系間的相依性:因?yàn)橛苫バ呕谧兞恐g的邊緣和聯(lián)合概率密度函數(shù),而不是基于計(jì)特性;行空間維度的變換時(shí),互信息具有不變性。熵的關(guān)系以等價(jià)的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:

曲線,圖線,高維數(shù)據(jù),特征選擇


基于 MIC 的高維數(shù)據(jù)特征選擇及應(yīng)用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標(biāo)“真正例率”(True Positive Rate,簡(jiǎn)稱 TPR)為縱軸,以標(biāo)“假正例率”(False Positive Rate,簡(jiǎn)稱 FPR)為橫軸進(jìn)行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張何辛;孫效華;郭煒煒;;高維數(shù)據(jù)的交互式沉浸可視化——以城市生活質(zhì)量數(shù)據(jù)為例[J];裝飾;2019年06期

2 陳紅彬;;基于大數(shù)據(jù)的高維數(shù)據(jù)挖掘探究[J];通訊世界;2018年03期

3 于君;范文彬;杜永軍;;智能電網(wǎng)中高維數(shù)據(jù)聚類方法研究[J];智能計(jì)算機(jī)與應(yīng)用;2016年01期

4 張凌潔;;淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期

5 李澤安;;淺談高維數(shù)據(jù)挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期

6 宋懷波;何東健;;面向精細(xì)農(nóng)業(yè)的高維數(shù)據(jù)本征維數(shù)估計(jì)方法研究進(jìn)展[J];中國(guó)科學(xué):信息科學(xué);2010年S1期

7 張航;PP型擬合優(yōu)度檢驗(yàn)[J];系統(tǒng)科學(xué)與數(shù)學(xué);1988年03期

8 余立蘋(píng);李云飛;朱世行;;基于高維數(shù)據(jù)流的異常檢測(cè)算法[J];計(jì)算機(jī)工程;2018年01期

9 虞翔;李青;;大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘在入侵檢測(cè)中的有效應(yīng)用[J];電腦編程技巧與維護(hù);2016年22期

10 宋玉林;訾雪e

本文編號(hào):2721479


資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2721479.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2f727***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
色综合热无码热国产| 亚洲AV综合色区无码专区桃色| 熟女91| 日本丰满妇人成熟免费中文字幕| www超碰| 99这里只有精品黄色一级片| 久久综合九色综合97欧美| 妺妺窝人体色WWW视频| 亚洲激情在线| 激情五月天综合网| 国产自偷自偷免费一区| 欧美激情A∨在线视频播放| 亚洲另类激情综合偷自拍图| WWW亚洲精品久久久| 清涧县| 中国人妻| 毛片影视| 国产精品久久久久久久久久软件| 一级毛片正片免费视频手机看| 在线观看人成视频免费| 欧美XXXXX性喷潮| 免费精品一区二区三区第35| 狠狠躁夜夜躁人人爽天天开心婷婷| 沽源县| 97超碰大香蕉| 成人久久久精品乱码一区二区三区 | 国产三级精品三级在专区| 草草影院发布页| 人妻少妇精品中文字幕AV| 超碰日本| 中文字幕日韩一区二区三区不卡| 操比网| rylskyart极品少妇人体| 天堂网a| 国产在线第一页| 美日韩精品无码AV专区久久久| 亚洲精品NV久久久久久久久久| 久久精品国产99久久久| 亚洲乱码中文字幕综合234| 亚洲热妇无码av在线播放| 欧美高清在线精品一区|