a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

不平衡數(shù)據(jù)的研究及應(yīng)用

發(fā)布時間:2020-07-24 18:33
【摘要】:隨著信息技術(shù)的發(fā)展,各行各業(yè)的數(shù)據(jù)呈爆炸式產(chǎn)生.在這種形勢下,如何快速有效地從數(shù)據(jù)的海洋中挖掘出有價值的信息和知識,就成為了各行各業(yè)所要解決的重要問題之一.而不平衡數(shù)據(jù)因其在實際生活中十分常見,成為了專家和學(xué)者們的研究熱點和方向之一.本文以UCI上的信用卡客戶違約數(shù)據(jù)集為例,該數(shù)據(jù)集正?蛻(0類)樣本數(shù)量為23364,違約客戶(1類)樣本數(shù)量為6636,類別比約為3.5:1.如果直接用分類方法RF對原始數(shù)據(jù)建模的話,AUC值為0.7195,違約客戶的召回率僅0.34,所以本文通過不平衡數(shù)據(jù)的方法處理數(shù)據(jù),在保證綜合評價指標(biāo)AUC高的基礎(chǔ)上提高違約客戶的召回率.研究內(nèi)容如下:(1)數(shù)據(jù)預(yù)處理,包括缺失值和異常值檢驗,特征衍生,標(biāo)準(zhǔn)化,連續(xù)數(shù)據(jù)離散化,根據(jù)每個特征不同類別的樣本分布和隨機(jī)森林特征排序選取特征等;(2)數(shù)據(jù)層面選擇最優(yōu)方法,采樣法包括欠采樣、過采樣、混合采樣,欠采樣又可分為基本的欠采樣、基于聚類的欠采樣(本文借鑒了CUSBoost算法),混合采樣法有SMOTEENN、SMOTE+Tomek links方法.本文嘗試以上五種方法,分別建立隨機(jī)森林模型,其中SMOTEENN方法效果最好,AUC值為0.7458,召回率0.60;(3)算法層面選擇最優(yōu)方法,基于SMOTEENN方法,建立LR、SVM、RF、XGBoost、LightGBM模型,并根據(jù)經(jīng)驗和網(wǎng)格搜索調(diào)整各個模型參數(shù),對比模型效果,發(fā)現(xiàn)最優(yōu)模型是基于SMOTEENN方法的LightGBM算法,AUC值為0.7815,召回率0.70.和最初的效果相比,AUC值提高了0.062,違約客戶的召回率提高了0.36.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:C81
【圖文】:

密度圖,密度圖,分布和,邏輯斯諦回歸


4.1.2 邏輯斯諦回歸算法邏輯斯諦回歸(logistic regression)是統(tǒng)計學(xué)中非常經(jīng)典的分類方法,也簡稱LR,可解釋性強(qiáng),應(yīng)用十分廣泛.例如,根據(jù)病人的各種身體指標(biāo)預(yù)測是否會患病,預(yù)測經(jīng)濟(jì)走勢等[30].定義 4.1:(邏輯斯諦分布)假設(shè)有連續(xù)隨機(jī)變量 X ,如果 X 服從 logistic 分布,則 X 應(yīng)該滿足以下分布和密度函數(shù):,11()() ( )/ xeF xPXx(4.2.(1)()()()/2()/ xxeef xFx(4.3式(4.2)和(4.3)中, 0代表形狀參數(shù), 表示位置參數(shù).F (x)和 f (x)函數(shù)的圖形如圖 4-1:

不平衡數(shù)據(jù)的研究及應(yīng)用


SVM分類n

類別,樣本分布,初中,小學(xué)


科 技 大 學(xué) 碩 士 學(xué) 位 特征 EDUCATION 有 7 個取值,分別為 0 到 能是缺失值,5 和 6 可能分別代表初中和小學(xué)為 0 到 3,比特征簡介中多了一個 0,0 可能是被數(shù)據(jù)貢獻(xiàn)者進(jìn)行了填充.特征 EDUCATIOIAGE 異常值的數(shù)量為 54,相對總樣本數(shù)量 3征 0 類和 1 類的樣本分布圖,我們可以發(fā)現(xiàn)這樣,所以根據(jù)樣本分布篩選特征的時候,我們這兩個特征進(jìn)行其他方式的填充.

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 董玉翠;蘇曉鋒;林劍春;張雙壘;龔學(xué)藝;陳凡勝;;時空過采樣探測系統(tǒng)性能仿真[J];強(qiáng)激光與粒子束;2013年03期

2 洪志良,曹先國,王曉悅;18位過采樣∑△A/D變換器設(shè)計[J];半導(dǎo)體學(xué)報;1996年11期

3 李淼;龍云利;李駿;安瑋;周一宇;;采用多伯努利濾波器的過采樣點目標(biāo)檢測前跟蹤[J];光學(xué)精密工程;2015年12期

4 莫晨晨;;通信信號處理應(yīng)用過采樣技術(shù)的思考[J];信息通信;2013年06期

5 張菲菲;王黎明;柴玉梅;;一種改進(jìn)過采樣的不平衡數(shù)據(jù)集成分類算法[J];小型微型計算機(jī)系統(tǒng);2018年10期

6 馮志成;安建平;;過采樣下分?jǐn)?shù)階傅里葉變換的改進(jìn)算法[J];系統(tǒng)工程與電子技術(shù);2012年03期

7 高美靜;金偉其;王霞;于杰;陳艷;;顯微熱成像系統(tǒng)幀間差分過采樣重構(gòu)研究[J];北京理工大學(xué)學(xué)報;2009年08期

8 張文昱;;時-空過采樣系統(tǒng)對點目標(biāo)成像仿真與驗證(英文)[J];紅外與激光工程;2015年10期

9 盧大成;肖振宇;張昌明;金德鵬;;基于兩倍過采樣的60GHz系統(tǒng)并行定時同步[J];傳感器與微系統(tǒng);2012年12期

10 陳文健;張海樟;;高維帶寬有限隨機(jī)信號從平均過采樣的指數(shù)階逼近[J];計算數(shù)學(xué);2017年04期

相關(guān)會議論文 前9條

1 董玉翠;蘇曉鋒;林劍春;張雙壘;龔學(xué)藝;陳凡勝;;時空過采樣探測系統(tǒng)性能仿真[A];第十屆全國光電技術(shù)學(xué)術(shù)交流會論文集[C];2012年

2 應(yīng)懷樵;劉進(jìn)明;沈松;應(yīng)明;董書偉;趙增欣;;抗混濾波器原理及過采樣/BDFWPS“抗混”濾波研究[A];第十九屆和第二十屆全國振動與噪聲高技術(shù)及應(yīng)用會議論文集[C];2007年

3 林兩魁;王少游;唐忠興;;基于深度卷積神經(jīng)網(wǎng)絡(luò)的紅外過采樣掃描圖像點目標(biāo)檢測方法[A];第四屆高分辨率對地觀測學(xué)術(shù)年會論文集[C];2017年

4 張瑞永;陳國海;孫曉聞;;過采樣對線性調(diào)頻信號采樣抖動的影響[A];2008通信理論與技術(shù)新發(fā)展——第十三屆全國青年通信學(xué)術(shù)會議論文集(下)[C];2008年

5 杜會文;許建華;張超;詹永衛(wèi);王峰;杜以濤;;基于數(shù)字中頻的頻譜分析儀動態(tài)范圍擴(kuò)展技術(shù)[A];2013年全國微波毫米波會議論文集[C];2013年

6 賀梅;顧漢明;;致密砂巖氣藏儲層類型識別——類不均衡問題討論[A];2019年油氣地球物理學(xué)術(shù)年會論文集[C];2019年

7 劉玉;孟宏;;數(shù)據(jù)采集中過采樣系統(tǒng)設(shè)計[A];2008中國儀器儀表與測控技術(shù)進(jìn)展大會論文集(Ⅲ)[C];2008年

8 應(yīng)懷樵;劉進(jìn)明;沈松;應(yīng)明;;過采樣/BDFWPS“抗混”濾波研究及抗混濾波器原理[A];全國第一屆信號處理學(xué)術(shù)會議暨中國高科技產(chǎn)業(yè)化研究會信號處理分會籌備工作委員會第三次工作會議?痆C];2007年

9 柴利;沈國榮;汪磊;趙曉東;;基于格型結(jié)構(gòu)過采樣濾波器組的H_2最優(yōu)設(shè)計[A];第二十七屆中國控制會議論文集[C];2008年

相關(guān)重要報紙文章 前1條

1 周琳 徐胥;儲糧需要新模式 像理財一樣“理糧”[N];糧油市場報;2013年

相關(guān)博士學(xué)位論文 前5條

1 方夢園;面向工業(yè)模型預(yù)測控制的高精度系統(tǒng)辨識方法研究[D];浙江大學(xué);2018年

2 張子良;相控陣天氣雷達(dá)關(guān)鍵技術(shù)研究[D];南京信息工程大學(xué);2012年

3 黃小偉;高性能音頻∑-△數(shù)模轉(zhuǎn)換器的研究與實現(xiàn)[D];浙江大學(xué);2009年

4 何峰;胃電檢測方法的研究及相關(guān)數(shù)據(jù)分析[D];天津大學(xué);2009年

5 馬紹宇;高性能、低功耗∑△模數(shù)轉(zhuǎn)換器的研究與實現(xiàn)[D];浙江大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 郝曉紅;不平衡數(shù)據(jù)的研究及應(yīng)用[D];華中科技大學(xué);2019年

2 周穎;基于生成式模型的不平衡分類算法研究[D];哈爾濱工業(yè)大學(xué);2019年

3 齊常青;面向不平衡樣本分類的過采樣集成學(xué)習(xí)算法研究[D];哈爾濱工業(yè)大學(xué);2019年

4 洪亮;可重構(gòu)24bit音頻過采樣DAC的FPGA實現(xiàn)研究[D];華東師范大學(xué);2006年

5 曲本香;格型結(jié)構(gòu)濾波器組的設(shè)計與仿真[D];武漢科技大學(xué);2011年

6 王建東;基于FPGA的高速串行數(shù)據(jù)采集及恢復(fù)技術(shù)研究[D];電子科技大學(xué);2017年

7 張麗君;過采樣技術(shù)及其在生物醫(yī)學(xué)信號檢測中的應(yīng)用[D];天津大學(xué);2008年

8 鄧彥松;基于過采樣Σ-Δ噪聲整形的16位DAC設(shè)計和VLSI實現(xiàn)[D];電子科技大學(xué);2005年

9 林桂鵬;過采樣線性相位完全重構(gòu)濾波器組的研究與實現(xiàn)[D];武漢科技大學(xué);2013年

10 張輝;圖像編碼中濾波器組的優(yōu)化設(shè)計及FPGA實現(xiàn)[D];武漢科技大學(xué);2011年



本文編號:2769233

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2769233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0fdd8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
无人区乱码一区二区三区 | 免费91麻豆精品国产自产在| 午夜福利AV无码一区二区| 久久中文精品无码中文字幕下载 | 人人妻人人澡人人爽超污| 中文字幕精品一区二区2021年| 婷婷婷婷婷婷婷婷| 亚洲一区在线| 久操视频在线观看| 伊人久久精品中文字幕无码| 精品国产污污免费网站| 日本中文字幕亚洲乱码| 哈巴河县| 绥德县| 奇米超碰| 2020阿v天堂网手机版| 亚洲性片| 亚洲h片| 国产清纯在线一区二区| √天堂8资源中文在线| 成人品视频观看在线| 久久精品亚洲精品无码金尊| 老司机精品视频一区二区| 少妇中文字幕乱码亚洲影视| 久久99久久99精品中文字幕| 午夜婷婷| 91精品丝袜国产高跟在线一区| 无码精品人妻一区二区三区AV| 久久久久久久无码高潮| 亚洲国产精品无码一区二区三区| 久久久久人妻精品一区蜜桃| 国产在线精品成人一区二区 | 无码午夜成人1000部免费视频 | 人妻无码一区二区三区四区| 好男人社区在线影视WWW| 97久久超碰国产精品旧版| 亚洲不卡中文字幕无码| 亚洲乱码AV中文一区二区| 99精品人妻少妇一区二区| 亚洲av成人影视综合网| 国产精品多人P群无码|