不平衡數(shù)據(jù)聚類在建筑能耗異常檢測中的應(yīng)用
發(fā)布時間:2020-12-10 03:11
不平衡數(shù)據(jù),指數(shù)據(jù)集不同類別所含樣本在數(shù)量上存在很大差異或不同類別樣本數(shù)量相同但分布不均勻。在建筑能耗異常檢測中,正常能耗數(shù)據(jù)和異常能耗數(shù)據(jù)在數(shù)量和分布上都存在很大差異,從本質(zhì)看能耗異常檢測屬于數(shù)據(jù)不平衡問題。針對不平衡數(shù)據(jù),傳統(tǒng)聚類方法往往會均衡化各類別的樣本數(shù)量,導(dǎo)致較高的誤分率,為避免這種“均勻效應(yīng)”,本文對不平衡數(shù)據(jù)聚類問題展開研究,并將創(chuàng)新成果應(yīng)用于建筑能耗異常檢測中。具體研究內(nèi)容如下:(1)針對數(shù)據(jù)集中存在的數(shù)據(jù)重疊問題,提出一種D-S證據(jù)理論框架下的廣義模糊c均值(Generalized fuzzy c-means,GFCM)聚類算法,通過設(shè)置復(fù)合類閾值,將傳統(tǒng)FCM算法中的隸屬度矩陣U進行擴展,并根據(jù)得到的廣義隸屬度矩陣將難以劃分到某個特定類別的樣本劃分給復(fù)合類,算法對重疊(不確定)樣本進行了合理表征,降低了樣本誤劃分的風(fēng)險。(2)針對傳統(tǒng)聚類算法對不平衡數(shù)據(jù)聚類所產(chǎn)生的樣本“均勻效應(yīng)”問題,提出一種基于D-S證據(jù)理論的不平衡數(shù)據(jù)多劃分(Multi-partition,MP)聚類算法,通過數(shù)據(jù)集多劃分、真實類別尋找、子數(shù)據(jù)集合并和剩余樣本劃分四個子步驟對不平衡數(shù)據(jù)進行聚...
【文章來源】:西安建筑科技大學(xué)陜西省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【部分圖文】:
文章組織架構(gòu)圖
西安建筑科技大學(xué)碩士學(xué)位論文253.3.1人工合成數(shù)據(jù)集考慮一個3類呈圓形分布的數(shù)據(jù)集123=,,,每個類別包含484個數(shù)據(jù)樣本,數(shù)據(jù)分布的圓心坐標分別為1c:(3,11)、2c:(6.5,7.5)和3c:(10,4),半徑為r3,其原始數(shù)據(jù)分布如圖3.2所示。本實驗將GFCM算法與K-means、FCM和CCM三種聚類算法進行比較來展示GFCM算法的聚類效果。圖3.3(a)-(h)分別展示了四種算法的聚類效果,在每幅子圖標題處給出了每種算法對應(yīng)的聚類結(jié)果(錯誤率eR和不精確率iR)。圖3.2原始人工合成數(shù)據(jù)集(3類)(a).K-means算法聚類結(jié)果(5.85eR)(b).FCM算法聚類結(jié)果(5.79eR)
西安建筑科技大學(xué)碩士學(xué)位論文40(g).=0.2時ICCM算法的運行結(jié)果(h).KMS算法的運行結(jié)果(K=560)(i).DMR合并結(jié)果(j).=0.2時MP算法的聚類結(jié)果(eR0.08,20.21iR)圖4.2四種算法對第一組2類不平衡數(shù)據(jù)集的聚類效果比較
【參考文獻】:
期刊論文
[1]新的基于代價敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類方法NIBoost[J]. 王莉,陳紅梅,王生武. 計算機應(yīng)用. 2019(03)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計算機工程與應(yīng)用. 2019(04)
[3]大型商場類建筑用電能耗分析與節(jié)能研究[J]. 萬少博. 建筑節(jié)能. 2016(12)
[4]iLOF*:一種改進的局部異常檢測算法[J]. 王飛. 計算機系統(tǒng)應(yīng)用. 2015(12)
[5]一種基于密度差異的離群點檢測算法[J]. 辛麗玲,何威,于劍,賈彩燕. 山東大學(xué)學(xué)報(工學(xué)版). 2015(03)
[6]NLOF:一種新的基于密度的局部離群點檢測算法[J]. 王敬華,趙新想,張國燕,劉建銀. 計算機科學(xué). 2013(08)
[7]一種面向不平衡數(shù)據(jù)的結(jié)構(gòu)化SVM集成分類器[J]. 袁興梅,楊明,楊楊. 模式識別與人工智能. 2013(03)
[8]空間聚類方法的分類[J]. 曾紹琴,李光強,廖志強. 測繪科學(xué). 2012(05)
[9]能耗實時監(jiān)測的數(shù)據(jù)挖掘方法[J]. 卿曉霞,肖丹,王波. 重慶大學(xué)學(xué)報. 2012(07)
[10]數(shù)據(jù)挖掘中聚類算法研究進展[J]. 周濤,陸惠玲. 計算機工程與應(yīng)用. 2012(12)
博士論文
[1]復(fù)雜數(shù)據(jù)類型的離群檢測方法研究[D]. 劉靖.華南理工大學(xué) 2014
碩士論文
[1]基于聚類融合的不平衡數(shù)據(jù)分類研究及其應(yīng)用[D]. 丁鋒.浙江工業(yè)大學(xué) 2018
[2]基于數(shù)據(jù)挖掘的公共建筑能耗預(yù)測與能效管理[D]. 崔沖.山東建筑大學(xué) 2017
本文編號:2907983
【文章來源】:西安建筑科技大學(xué)陜西省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【部分圖文】:
文章組織架構(gòu)圖
西安建筑科技大學(xué)碩士學(xué)位論文253.3.1人工合成數(shù)據(jù)集考慮一個3類呈圓形分布的數(shù)據(jù)集123=,,,每個類別包含484個數(shù)據(jù)樣本,數(shù)據(jù)分布的圓心坐標分別為1c:(3,11)、2c:(6.5,7.5)和3c:(10,4),半徑為r3,其原始數(shù)據(jù)分布如圖3.2所示。本實驗將GFCM算法與K-means、FCM和CCM三種聚類算法進行比較來展示GFCM算法的聚類效果。圖3.3(a)-(h)分別展示了四種算法的聚類效果,在每幅子圖標題處給出了每種算法對應(yīng)的聚類結(jié)果(錯誤率eR和不精確率iR)。圖3.2原始人工合成數(shù)據(jù)集(3類)(a).K-means算法聚類結(jié)果(5.85eR)(b).FCM算法聚類結(jié)果(5.79eR)
西安建筑科技大學(xué)碩士學(xué)位論文40(g).=0.2時ICCM算法的運行結(jié)果(h).KMS算法的運行結(jié)果(K=560)(i).DMR合并結(jié)果(j).=0.2時MP算法的聚類結(jié)果(eR0.08,20.21iR)圖4.2四種算法對第一組2類不平衡數(shù)據(jù)集的聚類效果比較
【參考文獻】:
期刊論文
[1]新的基于代價敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類方法NIBoost[J]. 王莉,陳紅梅,王生武. 計算機應(yīng)用. 2019(03)
[2]不平衡數(shù)據(jù)挖掘方法綜述[J]. 向鴻鑫,楊云. 計算機工程與應(yīng)用. 2019(04)
[3]大型商場類建筑用電能耗分析與節(jié)能研究[J]. 萬少博. 建筑節(jié)能. 2016(12)
[4]iLOF*:一種改進的局部異常檢測算法[J]. 王飛. 計算機系統(tǒng)應(yīng)用. 2015(12)
[5]一種基于密度差異的離群點檢測算法[J]. 辛麗玲,何威,于劍,賈彩燕. 山東大學(xué)學(xué)報(工學(xué)版). 2015(03)
[6]NLOF:一種新的基于密度的局部離群點檢測算法[J]. 王敬華,趙新想,張國燕,劉建銀. 計算機科學(xué). 2013(08)
[7]一種面向不平衡數(shù)據(jù)的結(jié)構(gòu)化SVM集成分類器[J]. 袁興梅,楊明,楊楊. 模式識別與人工智能. 2013(03)
[8]空間聚類方法的分類[J]. 曾紹琴,李光強,廖志強. 測繪科學(xué). 2012(05)
[9]能耗實時監(jiān)測的數(shù)據(jù)挖掘方法[J]. 卿曉霞,肖丹,王波. 重慶大學(xué)學(xué)報. 2012(07)
[10]數(shù)據(jù)挖掘中聚類算法研究進展[J]. 周濤,陸惠玲. 計算機工程與應(yīng)用. 2012(12)
博士論文
[1]復(fù)雜數(shù)據(jù)類型的離群檢測方法研究[D]. 劉靖.華南理工大學(xué) 2014
碩士論文
[1]基于聚類融合的不平衡數(shù)據(jù)分類研究及其應(yīng)用[D]. 丁鋒.浙江工業(yè)大學(xué) 2018
[2]基于數(shù)據(jù)挖掘的公共建筑能耗預(yù)測與能效管理[D]. 崔沖.山東建筑大學(xué) 2017
本文編號:2907983
本文鏈接:http://www.wukwdryxk.cn/jianzhugongchenglunwen/2907983.html
最近更新
教材專著