基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法研究
本文關鍵詞:基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法研究,由筆耕文化傳播整理發(fā)布。
《華東理工大學》 2015年
基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法研究
楊澤平
【摘要】:不平衡數(shù)據(jù)分類問題是機器學習領域內(nèi)一個重要的研究課題,引起國內(nèi)外學者的廣泛關注。不平衡數(shù)據(jù)普遍存在于現(xiàn)實生活中,例如:基因表達數(shù)據(jù)、信用卡交易數(shù)據(jù)和醫(yī)學數(shù)據(jù)等。現(xiàn)有分類器及其學習算法在解決不平衡數(shù)據(jù)分類問題時,由于只關注整體識別率而往往忽視少數(shù)類的識別率。如何改善類間樣本的不平衡,增加少數(shù)類的識別率,同時兼顧多數(shù)類的準確度,是亟需解決的一個問題。 本論文分析和比較了一些常用的分類模型與算法對不平衡數(shù)據(jù)集的學習和推廣性能,從數(shù)據(jù)和算法兩個層面重點研究基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法。本文的主要研究工作如下: (1)在分析了不平衡數(shù)據(jù)對神經(jīng)網(wǎng)絡及其誤差反傳(Back-propagation, BP)算法性能影響的基礎上,提出了面向不平衡數(shù)據(jù)集的主動下采樣算法。該算法可以自動去除遠離邊界的多數(shù)類樣本,在保持整體分布特性近似不變的前提下,使得類別間不平衡程度得到改善。本文根據(jù)不平衡分類評價指標對主動下采樣算法和現(xiàn)有采樣方法進行了比較。實驗結(jié)果表明,本文提出的下采樣算法能夠有效地減輕不平衡數(shù)據(jù)對BP算法性能的影響,提高少數(shù)類識別率且兼顧整體識別率。 (2)傳統(tǒng)采樣方法在解決不平衡分類問題時容易導致類間樣本重疊,現(xiàn)有數(shù)據(jù)清理算法在判斷樣本是否可刪除時總是存在誤刪除現(xiàn)象。借鑒離群點檢測算法的思想,結(jié)合采樣方法,提出了邊界噪聲因子(Borderline Noise Factor, BNF)的概念,給出了基于邊界噪聲因子的數(shù)據(jù)清理算法。實驗結(jié)果證明,基于邊界噪聲因子的數(shù)據(jù)清理算法和采樣方法相結(jié)合可有效改善不平衡和類間樣本重疊對BP算法性能的影響。 (3)針對不平衡數(shù)據(jù)對極限學習機(Extreme Learning Machine, ELM)算法的影響,提出了量子行為粒子群優(yōu)化極限學習機算法,該算法采用量子行為粒子群優(yōu)化算法來優(yōu)化極限學習機的網(wǎng)絡結(jié)構(gòu),在經(jīng)驗風險和結(jié)構(gòu)風險之間保持一個良好的平衡,并采用面向不平衡數(shù)據(jù)集分類器的評價標準作為優(yōu)化算法的目標評價函數(shù);實驗結(jié)果證明,該算法不僅能夠優(yōu)化極限學習機的網(wǎng)絡結(jié)構(gòu),且適用于不平衡數(shù)據(jù)集。 (4)傳統(tǒng)極限學習機對不平衡數(shù)據(jù)集分類時,采用相同的錯分代價,導致少數(shù)類的識別率不高,針對這一問題提出了加權(quán)極限學習機的權(quán)值新策略;極限學習機算法隨機選擇輸入權(quán)值和隱層閾值而導致隱節(jié)點大量冗余,加重了網(wǎng)絡結(jié)構(gòu)的復雜程度,影響了極限學習機的推廣性能,因此提出了一種自適應剪枝算法來解決隱節(jié)點冗余問題,并采用隱節(jié)點輸出向量正交投影距離和隱節(jié)點輸出向量的范數(shù)這兩種剪枝標準:將自適應剪枝算法與加權(quán)極限學習機相結(jié)合,提出自適應剪枝加權(quán)極限學習機算法。實驗證明,自適應剪枝加權(quán)極限學習機算法能夠有效地解決不平衡問題,且有很好的推廣性能。 (5)基因表達數(shù)據(jù)有著樣本分布不平衡,基因維數(shù)大,樣本維數(shù)小等特點,針對基因表達數(shù)據(jù)的特點,采用分類信息指數(shù)準則來進行初始基因的選擇,然后利用主成分分析進行降維,同等條件下,采用不同的分類算法對實際的基因表達數(shù)據(jù)(結(jié)腸數(shù)據(jù)集、白血病數(shù)據(jù)集、蛋白質(zhì)數(shù)據(jù)集等)進行了分析,結(jié)果表明本文所提出的這些不平衡分類算法能夠提高基因表達數(shù)據(jù)的分類準確率。 總之,本論文主要以經(jīng)典的機器學習數(shù)據(jù)庫不平衡數(shù)據(jù)集和基因表達數(shù)據(jù)為應用對象,從數(shù)據(jù)和算法兩方面提出一系列學習方法,提高了神經(jīng)網(wǎng)絡對不平衡數(shù)據(jù)集的分類能力。
【關鍵詞】:
【學位授予單位】:華東理工大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP18
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 謝紀剛;裘正定;;非平衡數(shù)據(jù)集Fisher線性判別模型[J];北京交通大學學報;2006年05期
2 李穎新,阮曉鋼;基于支持向量機的腫瘤分類特征基因選取[J];計算機研究與發(fā)展;2005年10期
3 林舒楊;李翠華;江弋;林琛;鄒權(quán);;不平衡數(shù)據(jù)的降采樣方法研究[J];計算機研究與發(fā)展;2011年S3期
4 王和勇;樊泓坤;姚正安;;SMOTE和Biased-SVM相結(jié)合的不平衡數(shù)據(jù)分類方法[J];計算機科學;2008年05期
5 高大啟;有教師的線性基本函數(shù)前向三層神經(jīng)網(wǎng)絡結(jié)構(gòu)研究[J];計算機學報;1998年01期
6 鄧萬宇;鄭慶華;陳琳;許學斌;;神經(jīng)網(wǎng)絡極速學習方法研究[J];計算機學報;2010年02期
7 劉波;王凌;金以慧;;差分進化算法研究進展[J];控制與決策;2007年07期
8 尹軍梅;楊明;萬建武;;一種面向不平衡數(shù)據(jù)集的核Fisher線性判別分析方法[J];模式識別與人工智能;2010年03期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 許小健;張金輪;;微進化算法[J];安徽工程科技學院學報(自然科學版);2010年04期
2 馬麗麗;賀超興;紀建偉;張志斌;;基于BP神經(jīng)網(wǎng)絡番茄果實橫縱徑生長的建模研究[J];安徽農(nóng)業(yè)科學;2008年06期
3 ;Multi-swingby optimization of mission to Saturn using global optimization algorithms[J];Acta Mechanica Sinica;2009年06期
4 ;A Preliminary Application of the Differential Evolution Algorithm to Calculate the CNOP[J];Atmospheric and Oceanic Science Letters;2009年06期
5 許小健;干洪;張金輪;;差分進化算法及其在固結(jié)系數(shù)計算中的應用[J];地下空間與工程學報;2010年05期
6 傅陽光;周成平;胡漢平;;無人飛行器海上航跡規(guī)劃差分進化算法研究[J];兵工學報;2012年03期
7 董奎勇,楊萍;預報細紗條干不勻率的BP神經(jīng)網(wǎng)絡方法[J];北京紡織;2002年05期
8 黃林軍,劉讓同;BP神經(jīng)網(wǎng)絡在羊毛品質(zhì)預測中的應用研究[J];北京紡織;2003年05期
9 劉全金;李穎新;阮曉鋼;;基于SVM的靈敏度分析方法選取腫瘤特征基因[J];北京工業(yè)大學學報;2007年09期
10 焦建成,邢濟收,楊大勇;電火花加工中最優(yōu)加工條件的確定[J];北京機械工業(yè)學院學報;2004年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 李娜;高廣勇;何宏啟;曹陽;;基于神經(jīng)網(wǎng)絡模型的室內(nèi)空氣品質(zhì)評價方法研究[A];2011中國環(huán)境科學學會學術(shù)年會論文集(第四卷)[C];2011年
2 孔筍;陳增強;;基于差分進化的QoS組播路由算法[A];第二十九屆中國控制會議論文集[C];2010年
3 龔鹍;鄧方;陳杰;;基于自適應差分進化算法和傅里葉神經(jīng)網(wǎng)絡的電子羅盤的標定[A];中國自動化學會控制理論專業(yè)委員會B卷[C];2011年
4 王亞楠;陳杰;甘明剛;;基于差分進化的改進粒子濾波目標跟蹤算法[A];中國自動化學會控制理論專業(yè)委員會C卷[C];2011年
5 王偉;張航;羅大庸;;基于核模糊C均值聚類和局部建模方法的煙氣含氧量軟測量模型[A];中國自動化學會控制理論專業(yè)委員會C卷[C];2011年
6 ;A New Multiple Attribute Decision Making Method Based on Preference and Projection Pursuit Clustering Model[A];中國自動化學會控制理論專業(yè)委員會D卷[C];2011年
7 李俊峰;祝開建;;2005年~2007年國際深空軌跡優(yōu)化競賽綜述[A];動力學與控制及航天應用[C];2008年
8 李二保;雷菁;徐富兵;華力;;LDPC碼度分布的優(yōu)化研究[A];第十三屆全國信號處理學術(shù)年會(CCSP-2007)論文集[C];2007年
9 李志偉;胥頤;郝天珧;劉勁松;;利用非線性方法反演琉球-臺灣-呂宋地區(qū)的巖石層P波速度結(jié)構(gòu)[A];中國科學院地質(zhì)與地球物理研究所2007學術(shù)論文匯編(第六卷)[C];2008年
10 Steve Roecker;;A global optimizing approach for waveform inversion of receiver functions[A];中國科學院地質(zhì)與地球物理研究所第十屆(2010年度)學術(shù)年會論文集(中)[C];2011年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 于化龍;基于DNA微陣列數(shù)據(jù)的癌癥分類技術(shù)研究[D];哈爾濱工程大學;2010年
2 吳德烽;計算智能在三維表面掃描機器人系統(tǒng)中的應用研究[D];大連海事大學;2010年
3 王正家;ACA互連的多因素作用分析與性能優(yōu)化[D];華中科技大學;2010年
4 朱少敏;多媒體數(shù)字水印若干關鍵算法研究[D];中國電力科學研究院;2010年
5 許偉;基于進化算法的復雜化工過程智能建模方法及其應用[D];華東理工大學;2011年
6 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應用[D];浙江大學;2010年
7 楊國鵬;基于機器學習方法的高光譜影像分類研究[D];解放軍信息工程大學;2010年
8 劉貴;精毛紡織品虛擬加工中的預報與反演模型研究[D];東華大學;2010年
9 張明明;面向量子可逆邏輯自動綜合的多目標進化算法研究[D];東華大學;2010年
10 齊峰;人工神經(jīng)樹網(wǎng)絡模型的優(yōu)化研究與應用[D];山東師范大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 曹婷婷;基于結(jié)構(gòu)方程的商戶小額貸款信用評價研究[D];大連理工大學;2010年
2 龔正;多目標進化算法改進策略的研究[D];湘潭大學;2010年
3 劉子文;改進的粒子群算法在停車場中的應用[D];湘潭大學;2010年
4 范勤勤;基于協(xié)進化策略的改進差分進化算法及應用[D];華東理工大學;2011年
5 李飛;改進的AEA算法及其在過程建模中的應用[D];華東理工大學;2011年
6 蘇友富;基于車輛實時調(diào)度的公交優(yōu)化措施研究[D];昆明理工大學;2009年
7 夏宇慶;人工魚群與差分進化混合優(yōu)化算法在水質(zhì)模擬預測中的應用[D];浙江大學;2011年
8 衛(wèi)煒;注塑成型工藝參數(shù)多目標優(yōu)化設計[D];中南林業(yè)科技大學;2009年
9 梁峰;基于BPSO和變鄰域差分進化算法的配電網(wǎng)重構(gòu)[D];東北電力大學;2011年
10 張銳;基于圖像處理的簾子布疵點檢測的算法研究[D];中原工學院;2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 謝紀剛;裘正定;;非平衡數(shù)據(jù)集Fisher線性判別模型[J];北京交通大學學報;2006年05期
2 徐志高,關正西,張煒;模糊神經(jīng)網(wǎng)絡在導彈動力系統(tǒng)多故障診斷中的應用[J];彈箭與制導學報;2005年01期
3 陳光禹,李為民;一種基于神經(jīng)網(wǎng)絡的ICCAT專家系統(tǒng)測試方法的研究[J];電子學報;1994年08期
4 張吳明,鐘約先;基于改進差分進化算法的相機標定研究[J];光學技術(shù);2004年06期
5 何小榮,陳丙珍,胡山鷹,朱振偉;一種新的BP神經(jīng)網(wǎng)絡培訓方法[J];化工學報;1994年05期
6 方強,陳德釗,俞歡軍,吳曉華;基于優(yōu)進策略的差分進化算法及其化工應用[J];化工學報;2004年04期
7 劉波,王凌,金以慧,黃德先;微粒群優(yōu)化算法研究進展[J];化工自動化及儀表;2005年03期
8 鄒權(quán);郭茂祖;劉揚;王峻;;類別不平衡的分類方法及在生物信息學中的應用[J];計算機研究與發(fā)展;2010年08期
9 周荃;王崇駿;王王君;陳世福;;PC4.5:用于不均衡數(shù)據(jù)集的C4.5改進算法[J];計算機輔助工程;2006年03期
10 肖健華;吳今培;;樣本數(shù)目不對稱時的SVM模型[J];計算機科學;2003年02期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王勝祥;現(xiàn)實、實踐與理論——兼談圖書館高位理論[J];黑龍江圖書館;1990年02期
2 王健庭;火信號的采集與相關修正[J];數(shù)據(jù)采集與處理;1987年02期
3 陳國階;我國東西部發(fā)展不平衡與西部開發(fā)[J];科技導報;1995年07期
4 王萌;施艷艷;王海明;沈明輝;;不平衡電網(wǎng)電壓下雙饋風力發(fā)電系統(tǒng)強勵控制[J];測控技術(shù);2014年07期
5 漫征;;克服地區(qū)落后論的錯誤思想[J];新聞戰(zhàn)線;1960年11期
6 ;來稿選題建議[J];青年研究;1999年01期
7 沈睿;;區(qū)域發(fā)展不平衡——不同地域中小企業(yè)信息化建設差距較大[J];每周電腦報;2004年08期
8 張昕竹;用電信普遍服務政策改善經(jīng)濟發(fā)展不平衡[J];通信世界;2001年16期
9 周耘;;試論我國年鑒發(fā)展的不平衡性[J];圖書館學研究;1987年04期
10 劉葉婷;;智慧城市應依“標”而建[J];信息化建設;2013年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張雨石;唐麗敏;王庸凱;陳文科;;關于中日航線集裝箱運量不平衡原因的分析[A];中國航海學會——2004年度學術(shù)交流會優(yōu)秀論文集[C];2004年
2 廖芳宇;;基于LabVIEW的三相不平衡的測量[A];2011年云南電力技術(shù)論壇論文集(入選部分)[C];2011年
3 沙鵬程;;關于西部民營企業(yè)可持續(xù)發(fā)展的思考[A];第十四次全國回族學研討會論文匯編[C];2003年
4 張敦偉;丁博;;配電網(wǎng)三相不平衡補償?shù)奶接慬A];2007中國電機工程學會電力系統(tǒng)自動化專委會供用電管理自動化學科組(分專委會)二屆三次會議論文集[C];2007年
5 王仲生;王翔;;轉(zhuǎn)子不平衡自愈監(jiān)控系統(tǒng)設計[A];第七屆全國信息獲取與處理學術(shù)會議論文集[C];2009年
6 王中卿;李壽山;朱巧明;李培峰;周國棟;;基于不平衡數(shù)據(jù)的中文情感分類[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
7 冉亮;胡海輝;;論變電站電能不平衡的有效檢查方法[A];華東六省一市電機(電力)工程學會輸配電技術(shù)研討會2005年年會論文集[C];2005年
8 暴慶民;胡偉;何輒;李海龍;趙永強;趙東樓;揣宇;;火電廠原煤斗棚煤自動疏通分析以及對策[A];《電站信息》2013年第07期[C];2013年
9 于寶山;龔鎮(zhèn)雄;王翠萍;李東暉;李吶;;音樂對經(jīng)絡不平衡指數(shù)的影響[A];中國音樂治療學會第三屆學術(shù)交流會論文集[C];1993年
10 陳秀華;宋艷華;丁曉欽;;社會主義初級階段的剝削及其主要形式[A];上海市社會科學界第五屆學術(shù)年會文集(2007年度)(馬克思主義研究學科卷)[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 海北支隊 高軍;[N];人民武警;2008年
2 本報記者 李香才;[N];中國證券報;2013年
3 記者 王傳真 葉前;[N];新華每日電訊;2010年
4 東航國際金融香港公司 金緯;[N];證券時報;2012年
5 記者 田俊榮;[N];人民日報;2006年
6 ;[N];21世紀經(jīng)濟報道;2011年
7 本報記者 朱宇;[N];中國證券報;2009年
8 記者 梁敏 編輯 朱賢佳;[N];上海證券報;2009年
9 市委講師團;[N];德州日報;2010年
10 記者 嚴婷;[N];第一財經(jīng)日報;2011年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 楊澤平;基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法研究[D];華東理工大學;2015年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉芷滔;嚴格成對不平衡可分組設計[D];北京交通大學;2014年
2 朱曉冬;量刑不平衡問題研究[D];蘇州大學;2006年
3 楊鴻駿;針對不平衡文本的分類方法研究[D];北京郵電大學;2014年
4 王代弟;配電網(wǎng)三相不平衡問題的分析與研究[D];沈陽工業(yè)大學;2007年
5 張玉;信貸作為金融不平衡的先行指示器的有效性分析[D];廣東財經(jīng)大學;2014年
6 李昆;相干光OFDM系統(tǒng)IQ不平衡補償算法研究[D];天津理工大學;2014年
7 袁小慶;不平衡數(shù)據(jù)問題的統(tǒng)計分析[D];東北師范大學;2006年
8 孫瑞;不平衡電網(wǎng)電壓下雙饋風電機組的輸出特性分析和控制[D];燕山大學;2014年
9 孫永亮;訂單流不平衡和股票價格行為研究[D];天津大學;2007年
10 茹一帆;TDD MIMO-OFDM系統(tǒng)中I/Q不平衡的估計與補償[D];西安電子科技大學;2014年
本文關鍵詞:基于神經(jīng)網(wǎng)絡的不平衡數(shù)據(jù)分類方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:174121
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xxkjbs/174121.html