混合型不平衡數(shù)據(jù)分類方法及應(yīng)用研究
發(fā)布時(shí)間:2024-04-17 18:33
類別不平衡分類問題廣泛存在于金融、生物醫(yī)學(xué)、信息安全等諸多領(lǐng)域,在信用風(fēng)險(xiǎn)評(píng)估、疾病檢測(cè)等實(shí)際應(yīng)用中,類別不平衡數(shù)據(jù)通常是分類型和數(shù)值型數(shù)據(jù)并存,將分類型數(shù)據(jù)數(shù)值化,會(huì)引入不合理的序信息,且假定不同分類型屬性值間距離相等。不平衡數(shù)據(jù)本身的特性,如類別不平衡、類重疊、少數(shù)類樣本過少等,是影響其分類困難的主要原因,也是影響數(shù)據(jù)復(fù)雜程度的重要原因。因此,對(duì)于包含分類型和數(shù)值型數(shù)據(jù)的混合型不平衡數(shù)據(jù),在理解數(shù)據(jù)的復(fù)雜性的前提下,設(shè)計(jì)合理的數(shù)據(jù)組合映射方法,降低數(shù)據(jù)的復(fù)雜性,對(duì)于提升混合型不平衡數(shù)據(jù)的分類性能具有重要意義。本文針對(duì)混合型不平衡數(shù)據(jù)開展研究,其主要研究工作包括以下三個(gè)方面:(1)數(shù)據(jù)本身的復(fù)雜程度是影響分類性能的關(guān)鍵因素,針對(duì)分類型數(shù)據(jù)難以直接度量其復(fù)雜性的問題,本文考慮屬性與類標(biāo)簽的特點(diǎn),利用HVDM(Heterogeneous Value Difference Metric)距離度量方法,分別從三個(gè)角度提出了適用于混合型不平衡數(shù)據(jù)的復(fù)雜性度量方法,有效解決了具有分類型和數(shù)值型數(shù)據(jù)的混合型不平衡數(shù)據(jù)難以直接度量復(fù)雜性的問題。然后通過實(shí)驗(yàn)驗(yàn)證了所提方法的有效性,并最終得出結(jié)論:不平...
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3956757
【文章頁數(shù)】:83 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖5.3異常值檢測(cè)箱線圖
山西財(cái)經(jīng)大學(xué)碩士學(xué)位論文57群,在樣本分布上,距離其同類族群較遠(yuǎn),因此,也稱為離群點(diǎn)或者噪音。異常值的存在是影響分類結(jié)果的另一因素之一,因此,有效檢測(cè)異常值并采用合適的方法進(jìn)行處理對(duì)提高數(shù)據(jù)質(zhì)量具有一定的重要作用,F(xiàn)階段的異常值檢測(cè)方法主要有統(tǒng)計(jì)學(xué)方法、基于距離的方法、基于分類的....
本文編號(hào):3956757
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/3956757.html
最近更新
教材專著