a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于MIC的高維數(shù)據(jù)特征選擇及應(yīng)用研究

發(fā)布時(shí)間:2020-06-19 23:17
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),高維數(shù)據(jù)的“維度災(zāi)難”問(wèn)題也隨之受到更多學(xué)者的廣泛關(guān)注。高維數(shù)據(jù)通常指包含成千上百個(gè)特征且具有大量無(wú)關(guān)信息和冗余特征的數(shù)據(jù)集,如在自然語(yǔ)言處理領(lǐng)域、生物工程領(lǐng)域、醫(yī)療領(lǐng)域、金融領(lǐng)域和人臉識(shí)別領(lǐng)域等都存在著大量的高維數(shù)據(jù),而其中包含的冗余特征會(huì)給后續(xù)的學(xué)習(xí)和研究帶來(lái)極大的不便,更會(huì)降低最后分析結(jié)果的可信度,甚至?xí)玫藉e(cuò)誤的結(jié)果。因此,高維數(shù)據(jù)的特征選擇方法成為了國(guó)內(nèi)外學(xué)者的研究重點(diǎn),并且在多個(gè)領(lǐng)域都得到了廣泛應(yīng)用。本文提出利用最大信息系數(shù)(Maximal Information coefficient,簡(jiǎn)稱MIC)的方法進(jìn)行高維數(shù)據(jù)的特征選擇。MIC是由哈佛大學(xué)的David N.Reshef等人在2011年提出的度量?jī)蓚(gè)變量之間相互依賴程度的一個(gè)指標(biāo),且有基于觀測(cè)數(shù)據(jù)的計(jì)算方法。傳統(tǒng)的特征選擇方法(如AIC、BIC)需要先確定模型,不同的模型選擇出的特征集差異較大,且模型的可解釋性較差。本文從理論角度證明了MIC的重要性質(zhì)。在實(shí)驗(yàn)部分先基于MIC度量進(jìn)行特征選擇,MIC特征選擇方法不依賴于所選模型,不論后面建模中使用什么模型以及如何使用這些特征,理論上均不會(huì)丟失真正有相依關(guān)系的特征,此特性充分體現(xiàn)了所選特征子集的穩(wěn)定性。然后建立隨機(jī)森林模型來(lái)檢驗(yàn)所選特征的合適與否,首先使用組塊3x2交叉驗(yàn)證來(lái)進(jìn)行模型訓(xùn)練集和測(cè)試集的劃分而非傳統(tǒng)的k折交叉驗(yàn)證,接著在得到的6個(gè)訓(xùn)練集上訓(xùn)練隨機(jī)森林模型并分別在對(duì)應(yīng)的測(cè)試集上檢驗(yàn)分類性能,采取袋外誤差OOB(out-of-bag)作為隨機(jī)森林模型調(diào)參的評(píng)價(jià)準(zhǔn)則,并且將決策樹(shù)的個(gè)數(shù)k和樹(shù)結(jié)點(diǎn)的特征選擇個(gè)數(shù)p雙參數(shù)組合進(jìn)行調(diào)參而非傳統(tǒng)的單參數(shù)固定調(diào)參。最后,將6組實(shí)驗(yàn)結(jié)果取均值后與未進(jìn)行特征選取的數(shù)據(jù)在模型性能上進(jìn)行對(duì)比,結(jié)果表明模型分類的準(zhǔn)確率由67%提高到82.5%,_1F值由65.26%提高到80.73%,充分說(shuō)明利用MIC進(jìn)行高維數(shù)據(jù)特征選擇的有效性。
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:

互信息,相依性,變量,互信


第二章 相關(guān)概念及理論變量相依性時(shí)主要有兩個(gè)優(yōu)點(diǎn):以度量變量之間任意類型關(guān)系間的相依性:因?yàn)橛苫バ呕谧兞恐g的邊緣和聯(lián)合概率密度函數(shù),而不是基于計(jì)特性;行空間維度的變換時(shí),互信息具有不變性。熵的關(guān)系以等價(jià)的表示為:( , ) ( ) ( | )( ) ( | )( ) ( ) ( , )( , ) ( | ) ( | )I X Y H X H X YH Y H Y XH X H Y H X YH X Y H Y X H X Y .用 Veen 圖表示如下:

曲線,圖線,高維數(shù)據(jù),特征選擇


基于 MIC 的高維數(shù)據(jù)特征選擇及應(yīng)用研究用的1F 值。12=P RFP R .(4)ROCROC 曲線是以指標(biāo)“真正例率”(True Positive Rate,簡(jiǎn)稱 TPR)為縱軸,以標(biāo)“假正例率”(False Positive Rate,簡(jiǎn)稱 FPR)為橫軸進(jìn)行作圖描繪的曲線,它兩的定義如下:TPTPRTP FN .FPFPRTN FP .

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張何辛;孫效華;郭煒煒;;高維數(shù)據(jù)的交互式沉浸可視化——以城市生活質(zhì)量數(shù)據(jù)為例[J];裝飾;2019年06期

2 陳紅彬;;基于大數(shù)據(jù)的高維數(shù)據(jù)挖掘探究[J];通訊世界;2018年03期

3 于君;范文彬;杜永軍;;智能電網(wǎng)中高維數(shù)據(jù)聚類方法研究[J];智能計(jì)算機(jī)與應(yīng)用;2016年01期

4 張凌潔;;淺談高維數(shù)據(jù)變量選擇現(xiàn)狀與方法[J];數(shù)碼世界;2016年07期

5 李澤安;;淺談高維數(shù)據(jù)挖掘的現(xiàn)狀與方法[J];福建電腦;2014年07期

6 宋懷波;何東健;;面向精細(xì)農(nóng)業(yè)的高維數(shù)據(jù)本征維數(shù)估計(jì)方法研究進(jìn)展[J];中國(guó)科學(xué):信息科學(xué);2010年S1期

7 張航;PP型擬合優(yōu)度檢驗(yàn)[J];系統(tǒng)科學(xué)與數(shù)學(xué);1988年03期

8 余立蘋(píng);李云飛;朱世行;;基于高維數(shù)據(jù)流的異常檢測(cè)算法[J];計(jì)算機(jī)工程;2018年01期

9 虞翔;李青;;大數(shù)據(jù)環(huán)境下的高維數(shù)據(jù)挖掘在入侵檢測(cè)中的有效應(yīng)用[J];電腦編程技巧與維護(hù);2016年22期

10 宋玉林;訾雪e

本文編號(hào):2721479


資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2721479.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2f727***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
99国产欧美久久久精品蜜芽| 久久久久亚洲AV片无码| 亚洲欧美日韩综合一区二区| 国产高清久久| 天天噜日日噜狠狠噜免费| 极品人妻videosss人妻| 亚洲一线产区和二线产区 | 久久亚洲精品无码AV红樱桃| 日韩一吸| 亚洲 校园 欧美 国产 另类| 波多野结衣AV无码久久一区| 曰本大码熟中文字幕| 国产女人18毛片水多18精品| 熟女影院| 午夜精品久久久久久久无码 | 蜜臀av性久久久久av蜜臀妖精| 久久九九99| 久久久中文久久久无码| 在线精品自偷自拍无码| 在线看片免费人成视频久网下载| 亚洲色图15p| 日韩久| 丝袜熟女| 亚洲男人天堂| yy111111少妇影院免费观看| 在线aⅴ亚洲中文字幕| 粗大猛烈进出高潮视频免费看| 97蜜桃| 97碰碰视频| 久久激情| 无码人妻少妇伦在线电影| 国产成人AV区一区二区三| 97久久超碰成人精品网页| 再深点灬舒服灬受不了了视频| 巴中市| 久久久夜| 日本xxxx人| 综合久久婷婷| 亚洲一线产区和二线产区的| 色综合视频| 欧美日本亚洲|