【摘要】: 數(shù)據(jù)歸約是數(shù)據(jù)挖掘過程的關(guān)鍵環(huán)節(jié),因此對數(shù)據(jù)歸約技術(shù)的研究具有重要的意義。當(dāng)前已有的數(shù)據(jù)歸約方法多偏重于有監(jiān)督學(xué)習(xí),而無監(jiān)督情形下歸約方法的研究還相對不夠豐富。鑒于這種情況,本論文的重點(diǎn)內(nèi)容是嘗試對無監(jiān)督數(shù)據(jù)歸約的統(tǒng)計(jì)方法及其應(yīng)用進(jìn)行研究。 在本論文第一章中,首先闡述了選題的研究背景和研究意義。之后,在概述相關(guān)背景知識和總結(jié)國內(nèi)外數(shù)據(jù)歸約研究方法現(xiàn)狀的基礎(chǔ)上,明確了本論文的研究內(nèi)容及創(chuàng)新之處。 數(shù)據(jù)歸約兩項(xiàng)重要的基礎(chǔ)工作--缺失值填補(bǔ)和異常值探測是第二章探討的內(nèi)容。在本章,根據(jù)對統(tǒng)計(jì)學(xué)中常用的各種缺失值填補(bǔ)和異常值探測方法的分析,總結(jié)出了一些適合數(shù)據(jù)挖掘使用的方法。此外,通過將幾種異常值探測方法應(yīng)用在某地區(qū)移動(dòng)通訊用戶繳費(fèi)數(shù)據(jù)庫上,對手機(jī)用戶的消費(fèi)行為進(jìn)行了實(shí)證分析。 數(shù)據(jù)歸約包括元組的歸約和屬性的歸約。本文在第三章探討了元組歸約的兩種主要方法--連續(xù)屬性離散化和概念分層。在對當(dāng)前的離散化方法和概念分層中面向?qū)傩詺w納方法綜述的基礎(chǔ)上,提出了兩種從獨(dú)立性角度考慮的連續(xù)屬性離散化方法,分別是基于可辨識矩陣的離散化方法和基于似然比假設(shè)檢驗(yàn)的離散化方法。并通過在Iris樣本集上對這兩種方法進(jìn)行模擬,驗(yàn)證了它們的有效性。 屬性重要性排序以及屬性的提取和屬性子集的選擇是屬性歸約的兩類方法。本文在第四章探討了屬性重要性的排序問題。數(shù)據(jù)挖掘中目前常見的排序問題是有監(jiān)督屬性的排序,本章首先對它們作了介紹和比較。然后在無監(jiān)督屬性重要性的排序方面,提出了單向有序列聯(lián)資料的屬性排序方法-改進(jìn)秩和法和基于因子分析的無監(jiān)督屬性排序方法,這兩種方法分別在一份調(diào)查問卷的列聯(lián)資料和全國居民人均消費(fèi)支出樣本集的模擬中,取得了較為滿意的結(jié)果。 第五章探討的是屬性的提取和屬性子集的選擇問題。首先對目前在數(shù)據(jù)挖掘中用于屬性線性提取的幾種統(tǒng)計(jì)學(xué)和其他學(xué)科的方法作了介紹和評價(jià)。然后是本章的重點(diǎn)內(nèi)容-屬性子集的選擇,在對屬性子集選擇的基本知識及目前已有的研究成果詳細(xì)闡述和分析之后,提出了逐步向前的無監(jiān)督屬性選擇方法,并通過實(shí)例驗(yàn)證了該方法的有效性。 第六章對全文的主要工作進(jìn)行了總結(jié),并指出了有待進(jìn)一步改進(jìn)和完善的地方。 本文的創(chuàng)新之處主要有以下四個(gè)方面: (1)提出了分別基于可辨識矩陣和基于似然比假設(shè)檢驗(yàn)的兩種連續(xù)屬性離散化方法。 (2)提出了單向有序列聯(lián)資料屬性排序的方法--改進(jìn)秩和法。 (3)提出了基于因子分析的無監(jiān)督屬性重要性的排序方法。 (4)提出了逐步向前的無監(jiān)督屬性選擇方法。
【學(xué)位授予單位】:廈門大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2007
【分類號】:C811
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 林珠;李海威;邢建萍;陳樹敏;;數(shù)據(jù)挖掘中基于信息熵的自適應(yīng)聚類時(shí)間維度歸約[J];廣東科技;2012年15期
相關(guān)碩士學(xué)位論文 前10條
1 劉榮燁;最大相關(guān)最小冗余的無監(jiān)督特征選擇算法的研究及其應(yīng)用[D];中國海洋大學(xué);2010年
2 文志安;應(yīng)急通信監(jiān)控系統(tǒng)中采集數(shù)據(jù)預(yù)處理技術(shù)研究[D];沈陽理工大學(xué);2010年
3 王娜;一種冗余規(guī)則刪減方法及其應(yīng)用[D];大連理工大學(xué);2011年
4 賀同智;自主學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法研究[D];華中師范大學(xué);2011年
5 陳利;基于行為分析的網(wǎng)絡(luò)通信監(jiān)控技術(shù)研究[D];北京化工大學(xué);2011年
6 頓煜卿;基于BP神經(jīng)網(wǎng)絡(luò)的屬性選擇研究[D];華中師范大學(xué);2009年
7 闞媛;基于智能的入侵檢測系統(tǒng)研究與實(shí)現(xiàn)[D];江南大學(xué);2009年
8 劉玉美;網(wǎng)絡(luò)入侵檢測系統(tǒng)與防御技術(shù)[D];山東大學(xué);2010年
9 馬燕燕;中國科技論文在線文獻(xiàn)的數(shù)據(jù)預(yù)處理研究[D];吉林大學(xué);2010年
10 朱凱;實(shí)時(shí)數(shù)據(jù)流的數(shù)據(jù)預(yù)處理與特征分析[D];武漢科技大學(xué);2010年
本文編號:
2799856
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2799856.html