數(shù)據(jù)挖掘在統(tǒng)計(jì)工作中的應(yīng)用研究
發(fā)布時(shí)間:2020-05-27 23:52
【摘要】: 論文從理論論證和實(shí)例研究?jī)煞矫嬲归_(kāi),試圖通過(guò)對(duì)相關(guān)問(wèn)題的深入研究,探索數(shù)據(jù)挖掘技術(shù)運(yùn)用于政府統(tǒng)計(jì)的主要過(guò)程和一般分析方法。 經(jīng)過(guò)多年的積累,當(dāng)前政府統(tǒng)計(jì)工作面臨“數(shù)據(jù)豐富,但信息貧乏”的問(wèn)題,且忽視了對(duì)歷史數(shù)據(jù)中隱性規(guī)律的挖掘分析,然而將基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘技術(shù)運(yùn)用于政府統(tǒng)計(jì)能夠很好的解決這一問(wèn)題。本文通過(guò)對(duì)統(tǒng)計(jì)數(shù)據(jù)特點(diǎn)的分析,提出了統(tǒng)計(jì)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的原則,并據(jù)此提出了基于數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的統(tǒng)計(jì)分析系統(tǒng)的實(shí)現(xiàn)架構(gòu)、構(gòu)建了便于進(jìn)行分析的統(tǒng)計(jì)多維數(shù)據(jù)模型,并把它們應(yīng)用于實(shí)證分析。在實(shí)證分析階段,將關(guān)聯(lián)及聚類(lèi)算法應(yīng)用于決策樹(shù)算法分析的基礎(chǔ)之上,算法的結(jié)合很好的保證了所分析指標(biāo)的相關(guān)性及有效性。
【圖文】:
圖 4-2 哈爾濱縣(市)農(nóng)村經(jīng)濟(jì)主題的星(座)型邏輯結(jié)構(gòu)二、物理模型的構(gòu)建物理模型設(shè)計(jì)解決的是關(guān)系模型的實(shí)現(xiàn)細(xì)節(jié)問(wèn)題。在得到邏輯模型后,就可以著手進(jìn)行對(duì)應(yīng)的物理模型設(shè)計(jì)了。物理模型設(shè)計(jì)階段,詳細(xì)的定義每一個(gè)字段的類(lèi)型及表之間的關(guān)系。表 4-1 至表 4-5 所示的是根據(jù)以上的邏輯模型所構(gòu)造出的相應(yīng)的物理模型。表 4-1 事實(shí)表:fact 農(nóng)村經(jīng)濟(jì)與收入列名 數(shù)據(jù)類(lèi)型 允許空時(shí)間 ID Nvarchar(255) N地點(diǎn) ID Nvarchar(255) N指標(biāo) ID Nvarchar(255) N農(nóng)民人均純收入(元) Float Y
在模型評(píng)估階段,不僅要利用工具來(lái)評(píng)估模型的精確性,,還必須與統(tǒng)計(jì)業(yè)務(wù)人員討論所發(fā)現(xiàn)模式的意義。有時(shí)模型不包括有用的模式,這可能是由幾個(gè)原因引起的:首先,數(shù)據(jù)是完全隨機(jī)的;其次,模型中一組變量不是最適合的,可能需要反復(fù)地執(zhí)行數(shù)據(jù)清理和轉(zhuǎn)換步驟,以便派生出更有意義的變量。數(shù)據(jù)挖掘是一個(gè)循環(huán)的過(guò)程,通常要經(jīng)過(guò)幾次循環(huán)才能找到適合的模型。圖 4-3 顯示的是以上十個(gè)模型的挖掘準(zhǔn)確性比較:
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類(lèi)號(hào)】:C81
本文編號(hào):2684346
【圖文】:
圖 4-2 哈爾濱縣(市)農(nóng)村經(jīng)濟(jì)主題的星(座)型邏輯結(jié)構(gòu)二、物理模型的構(gòu)建物理模型設(shè)計(jì)解決的是關(guān)系模型的實(shí)現(xiàn)細(xì)節(jié)問(wèn)題。在得到邏輯模型后,就可以著手進(jìn)行對(duì)應(yīng)的物理模型設(shè)計(jì)了。物理模型設(shè)計(jì)階段,詳細(xì)的定義每一個(gè)字段的類(lèi)型及表之間的關(guān)系。表 4-1 至表 4-5 所示的是根據(jù)以上的邏輯模型所構(gòu)造出的相應(yīng)的物理模型。表 4-1 事實(shí)表:fact 農(nóng)村經(jīng)濟(jì)與收入列名 數(shù)據(jù)類(lèi)型 允許空時(shí)間 ID Nvarchar(255) N地點(diǎn) ID Nvarchar(255) N指標(biāo) ID Nvarchar(255) N農(nóng)民人均純收入(元) Float Y
在模型評(píng)估階段,不僅要利用工具來(lái)評(píng)估模型的精確性,,還必須與統(tǒng)計(jì)業(yè)務(wù)人員討論所發(fā)現(xiàn)模式的意義。有時(shí)模型不包括有用的模式,這可能是由幾個(gè)原因引起的:首先,數(shù)據(jù)是完全隨機(jī)的;其次,模型中一組變量不是最適合的,可能需要反復(fù)地執(zhí)行數(shù)據(jù)清理和轉(zhuǎn)換步驟,以便派生出更有意義的變量。數(shù)據(jù)挖掘是一個(gè)循環(huán)的過(guò)程,通常要經(jīng)過(guò)幾次循環(huán)才能找到適合的模型。圖 4-3 顯示的是以上十個(gè)模型的挖掘準(zhǔn)確性比較:
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類(lèi)號(hào)】:C81
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前2條
1 石萌;數(shù)據(jù)挖掘在醫(yī)療保險(xiǎn)參保人員老齡化問(wèn)題中的應(yīng)用研究[D];貴州財(cái)經(jīng)學(xué)院;2010年
2 何瑋;杭州市經(jīng)濟(jì)普查數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工業(yè)大學(xué);2012年
本文編號(hào):2684346
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2684346.html
最近更新
教材專(zhuān)著