基于DPC算法混合屬性數(shù)據(jù)流聚類研究
發(fā)布時間:2020-12-21 01:04
聚類分析是數(shù)據(jù)挖掘領(lǐng)域一項重要的研究課題。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)流在很多領(lǐng)域得到應(yīng)用,數(shù)據(jù)流聚類也成為一項意義深遠而且具有挑戰(zhàn)性的技術(shù)。與傳統(tǒng)的靜態(tài)數(shù)據(jù)相比,數(shù)據(jù)流是高速的、動態(tài)的、變化的。數(shù)據(jù)流的這些特性,給數(shù)據(jù)流聚類帶來了困難。此外數(shù)據(jù)流的高維性、混合屬性和海量性等特征對數(shù)據(jù)流聚類提出了更高的要求。本文將針對以上問題展開研究,提出適應(yīng)數(shù)據(jù)流特性且有效處理數(shù)據(jù)流高維性、混合屬性和海量性等問題的數(shù)據(jù)流聚類算法。本文包括以下四個方面內(nèi)容:第一,討論數(shù)據(jù)流聚類相關(guān)問題,概述數(shù)據(jù)流的特點和數(shù)據(jù)流處理模型,比較分析數(shù)據(jù)流聚類方法;第二,研究混合屬性數(shù)據(jù)處理過程,針對數(shù)據(jù)流的特點進行數(shù)值型數(shù)據(jù)標準化、高維數(shù)據(jù)降維和混合屬性數(shù)據(jù)度量方法的討論;第三,針對DPC算法無法處理混合屬性數(shù)據(jù)、截斷距離的選取影響密度的計算和無法處理大規(guī)模數(shù)據(jù)三個方面的不足,分別提出基于信息熵的混合屬性數(shù)據(jù)處理方法改進DPC算法的距離值計算、采用KNN非參數(shù)核密度估計方法改進DPC算法的密度值計算和將滑動窗口技術(shù)和DPC算法相結(jié)合,實現(xiàn)混合屬性數(shù)據(jù)流聚類;第四,采用DPC改進算法對KDDCup99網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集進行聚...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究技術(shù)路線圖
第三章 混合屬性數(shù)據(jù)流處理過程第三章 混合屬性數(shù)據(jù)流處理過程區(qū)別于單一數(shù)據(jù)類型的數(shù)據(jù)流,混合屬性數(shù)據(jù)流包含數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),因此混合屬性數(shù)據(jù)流的處理過程也與單一數(shù)據(jù)類型的數(shù)據(jù)流的處理過程不相同。首先數(shù)據(jù)流中數(shù)據(jù)型數(shù)據(jù)的量綱不一致,導(dǎo)致數(shù)據(jù)之間不具備可比性,因此需要對數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進行標準化處理,消除數(shù)值屬性的量綱和變異大小因素的影響。然后數(shù)據(jù)流具有高維性,高維數(shù)據(jù)包含大量的冗余信息,增加了計算和空間的開銷,因此為了避免維數(shù)災(zāi)難,需要對數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進行降維處理,去除冗余信息,提高計算效率。最后數(shù)據(jù)流中具有混合屬性數(shù)據(jù),單一數(shù)據(jù)類型的處理方法已經(jīng)不再適用,因此需要對混合屬性數(shù)據(jù)進行有效的距離度量。混合屬性數(shù)據(jù)流的處理過程如圖 3-1 所示。
距離 可定義為: (4中局部密度最大點 ,可定義其距離為: 近點 表示 S 中所有局部密度(排序意義下)比 大的數(shù)據(jù)點中與 距離最的編號,具體定義為: { (于 S 中每個數(shù)據(jù)點 ,可計算得( , ), 。根據(jù)局部密度值 與距離類中心。對于聚類中心的選擇,需滿足兩個條件:(1)聚類中心點的密度近鄰數(shù)據(jù)點;(2)與任意密度較高的數(shù)據(jù)點距離較遠。
【參考文獻】:
期刊論文
[1]基于滑動窗口的進化數(shù)據(jù)流聚類[J]. 常建龍,曹鋒,周傲英+. 軟件學(xué)報. 2007(04)
博士論文
[1]數(shù)據(jù)流聚類分析算法[D]. 曹鋒.復(fù)旦大學(xué) 2006
碩士論文
[1]基于快速搜索密度的數(shù)據(jù)流聚類算法[D]. 李艷文.蘭州大學(xué) 2016
[2]基于信息熵的高維數(shù)據(jù)流聚類及其應(yīng)用研究[D]. 楊庭庭.重慶交通大學(xué) 2015
[3]一種適應(yīng)高速數(shù)據(jù)流的聚類算法研究[D]. 高賀慶.湖南大學(xué) 2013
本文編號:2928894
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
研究技術(shù)路線圖
第三章 混合屬性數(shù)據(jù)流處理過程第三章 混合屬性數(shù)據(jù)流處理過程區(qū)別于單一數(shù)據(jù)類型的數(shù)據(jù)流,混合屬性數(shù)據(jù)流包含數(shù)值型數(shù)據(jù)和分類型數(shù)據(jù),因此混合屬性數(shù)據(jù)流的處理過程也與單一數(shù)據(jù)類型的數(shù)據(jù)流的處理過程不相同。首先數(shù)據(jù)流中數(shù)據(jù)型數(shù)據(jù)的量綱不一致,導(dǎo)致數(shù)據(jù)之間不具備可比性,因此需要對數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進行標準化處理,消除數(shù)值屬性的量綱和變異大小因素的影響。然后數(shù)據(jù)流具有高維性,高維數(shù)據(jù)包含大量的冗余信息,增加了計算和空間的開銷,因此為了避免維數(shù)災(zāi)難,需要對數(shù)據(jù)流中數(shù)據(jù)值型數(shù)據(jù)進行降維處理,去除冗余信息,提高計算效率。最后數(shù)據(jù)流中具有混合屬性數(shù)據(jù),單一數(shù)據(jù)類型的處理方法已經(jīng)不再適用,因此需要對混合屬性數(shù)據(jù)進行有效的距離度量。混合屬性數(shù)據(jù)流的處理過程如圖 3-1 所示。
距離 可定義為: (4中局部密度最大點 ,可定義其距離為: 近點 表示 S 中所有局部密度(排序意義下)比 大的數(shù)據(jù)點中與 距離最的編號,具體定義為: { (于 S 中每個數(shù)據(jù)點 ,可計算得( , ), 。根據(jù)局部密度值 與距離類中心。對于聚類中心的選擇,需滿足兩個條件:(1)聚類中心點的密度近鄰數(shù)據(jù)點;(2)與任意密度較高的數(shù)據(jù)點距離較遠。
【參考文獻】:
期刊論文
[1]基于滑動窗口的進化數(shù)據(jù)流聚類[J]. 常建龍,曹鋒,周傲英+. 軟件學(xué)報. 2007(04)
博士論文
[1]數(shù)據(jù)流聚類分析算法[D]. 曹鋒.復(fù)旦大學(xué) 2006
碩士論文
[1]基于快速搜索密度的數(shù)據(jù)流聚類算法[D]. 李艷文.蘭州大學(xué) 2016
[2]基于信息熵的高維數(shù)據(jù)流聚類及其應(yīng)用研究[D]. 楊庭庭.重慶交通大學(xué) 2015
[3]一種適應(yīng)高速數(shù)據(jù)流的聚類算法研究[D]. 高賀慶.湖南大學(xué) 2013
本文編號:2928894
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2928894.html
最近更新
教材專著