決策樹及增強(qiáng)算法在實(shí)際問題中的應(yīng)用
發(fā)布時(shí)間:2020-12-22 22:31
決策樹是機(jī)器學(xué)習(xí)中較為常用的一種算法,是一種強(qiáng)大的分類器。決策樹的基本原理是利用樹形結(jié)構(gòu)對(duì)特征屬性以及潛在結(jié)果之間的關(guān)系建立起的模型。與神經(jīng)網(wǎng)絡(luò),支持向量機(jī)不同,利用決策樹進(jìn)行建模后,預(yù)測模型容易理解,預(yù)測結(jié)果容易解釋,并且對(duì)缺失值及變量的分布不敏感,因此幾乎能夠在任何類型的數(shù)據(jù)集上進(jìn)行建模,被廣泛的應(yīng)用于個(gè)人信用評(píng)估、醫(yī)學(xué)診斷、自然語言處理等各個(gè)領(lǐng)域。在實(shí)際問題中擬合模型時(shí),要考慮犯不同類型錯(cuò)誤時(shí)的代價(jià),并且尋找方法對(duì)模型進(jìn)行優(yōu)化。在本文中采用決策樹擬合模型,主要采用的基本算法為C5.0算法及CART算法,并對(duì)每種算法分別加入Boosting增強(qiáng)算法提高模型性能。在傳統(tǒng)的比較模型性能時(shí),往往采用的方法為比較模型的準(zhǔn)確率或者錯(cuò)誤率。但是在實(shí)際問題中,比較不同模型的性能時(shí),不能單純比較模型在測試集上準(zhǔn)確率,測試集的選取有一定偶然性,并且只比較模型的準(zhǔn)確性對(duì)于有犯錯(cuò)代價(jià)的問題時(shí),不足以說明模型性能的好壞。因此本文采用模型的靈敏度作為樣本,并通過假設(shè)檢驗(yàn)方法來進(jìn)行模型的比較。由于各組樣本之間不獨(dú)立,因此在比較多組模型的靈敏度時(shí),采用Friedman非參數(shù)假設(shè)檢驗(yàn)方法來比較模型的性能,檢驗(yàn)結(jié)果...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
引言
1理論
1.1 決策樹
1.1.1 決策樹劃分選擇
1.1.2 剪枝
1.1.3 缺失值處理
1.2 Boosting算法
1.3 主成分分析
1.4 評(píng)價(jià)模型的指標(biāo)
1.4.1 單個(gè)模型的性能度量
1.4.2 不同模型之間的比較檢驗(yàn)
2實(shí)證分析
2.1 數(shù)據(jù)簡介
2.2 數(shù)據(jù)前期預(yù)處理
2.2.1 識(shí)別缺失值
2.2.2 探索數(shù)據(jù)
2.2.3 驗(yàn)證變量之間的相關(guān)關(guān)系
2.2.4 對(duì)連續(xù)變量進(jìn)行多重共線性檢驗(yàn)
2.3 模型擬合
2.3.1 C5.0模型擬合
2.3.2 增強(qiáng)算法
2.3.3 CART算法模型
2.3.4 CART算法中加入增強(qiáng)算法
2.4 比較模型
結(jié)論
參考文獻(xiàn)
附錄A 程序
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于決策樹的改進(jìn)AdaBoost算法在車輛檢測中的應(yīng)用[J]. 李斌,王凱,徐英杰,劉賞. 軟件導(dǎo)刊. 2017(05)
[2]基于改進(jìn)決策樹分類的Android惡意軟件檢測[J]. 鮑美英. 軟件. 2017(02)
[3]面向大數(shù)據(jù)分析的決策樹算法[J]. 張棪,曹健. 計(jì)算機(jī)科學(xué). 2016(S1)
[4]基于決策樹算法的競爭對(duì)手識(shí)別模型研究[J]. 王知津,周鵬,韓正彪. 情報(bào)理論與實(shí)踐. 2013(03)
[5]基于多分類器組合的個(gè)人信用評(píng)估模型[J]. 向暉,楊勝剛. 湖南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2011(03)
[6]數(shù)據(jù)挖掘中的決策樹算法比較研究[J]. 林向陽. 中國科技信息. 2010(02)
[7]精煉決策樹模型在個(gè)人信用評(píng)估中的應(yīng)用[J]. 朱毅峰,孫亞南. 統(tǒng)計(jì)教育. 2008(01)
[8]基于決策樹的個(gè)人住房貸款信用風(fēng)險(xiǎn)評(píng)估模型[J]. 劉軍麗,陳翔. 計(jì)算機(jī)工程. 2006(13)
[9]數(shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J]. 韓慧,毛鋒,王文淵. 計(jì)算機(jī)應(yīng)用研究. 2004(12)
[10]數(shù)據(jù)挖掘中決策樹算法的探討[J]. 唐華松,姚耀文. 計(jì)算機(jī)應(yīng)用研究. 2001(08)
本文編號(hào):2932550
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
引言
1理論
1.1 決策樹
1.1.1 決策樹劃分選擇
1.1.2 剪枝
1.1.3 缺失值處理
1.2 Boosting算法
1.3 主成分分析
1.4 評(píng)價(jià)模型的指標(biāo)
1.4.1 單個(gè)模型的性能度量
1.4.2 不同模型之間的比較檢驗(yàn)
2實(shí)證分析
2.1 數(shù)據(jù)簡介
2.2 數(shù)據(jù)前期預(yù)處理
2.2.1 識(shí)別缺失值
2.2.2 探索數(shù)據(jù)
2.2.3 驗(yàn)證變量之間的相關(guān)關(guān)系
2.2.4 對(duì)連續(xù)變量進(jìn)行多重共線性檢驗(yàn)
2.3 模型擬合
2.3.1 C5.0模型擬合
2.3.2 增強(qiáng)算法
2.3.3 CART算法模型
2.3.4 CART算法中加入增強(qiáng)算法
2.4 比較模型
結(jié)論
參考文獻(xiàn)
附錄A 程序
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于決策樹的改進(jìn)AdaBoost算法在車輛檢測中的應(yīng)用[J]. 李斌,王凱,徐英杰,劉賞. 軟件導(dǎo)刊. 2017(05)
[2]基于改進(jìn)決策樹分類的Android惡意軟件檢測[J]. 鮑美英. 軟件. 2017(02)
[3]面向大數(shù)據(jù)分析的決策樹算法[J]. 張棪,曹健. 計(jì)算機(jī)科學(xué). 2016(S1)
[4]基于決策樹算法的競爭對(duì)手識(shí)別模型研究[J]. 王知津,周鵬,韓正彪. 情報(bào)理論與實(shí)踐. 2013(03)
[5]基于多分類器組合的個(gè)人信用評(píng)估模型[J]. 向暉,楊勝剛. 湖南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2011(03)
[6]數(shù)據(jù)挖掘中的決策樹算法比較研究[J]. 林向陽. 中國科技信息. 2010(02)
[7]精煉決策樹模型在個(gè)人信用評(píng)估中的應(yīng)用[J]. 朱毅峰,孫亞南. 統(tǒng)計(jì)教育. 2008(01)
[8]基于決策樹的個(gè)人住房貸款信用風(fēng)險(xiǎn)評(píng)估模型[J]. 劉軍麗,陳翔. 計(jì)算機(jī)工程. 2006(13)
[9]數(shù)據(jù)挖掘中決策樹算法的最新進(jìn)展[J]. 韓慧,毛鋒,王文淵. 計(jì)算機(jī)應(yīng)用研究. 2004(12)
[10]數(shù)據(jù)挖掘中決策樹算法的探討[J]. 唐華松,姚耀文. 計(jì)算機(jī)應(yīng)用研究. 2001(08)
本文編號(hào):2932550
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/lindaojc/2932550.html
最近更新
教材專著