改進(jìn)的C4.5算法及其在地質(zhì)調(diào)查項(xiàng)目管理中的應(yīng)用研究
本文選題:C4.5算法 切入點(diǎn):決策樹 出處:《蘭州交通大學(xué)》2015年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著各行業(yè)信息化的日益普及,所產(chǎn)生的數(shù)據(jù)量激增,但是卻出現(xiàn)了“數(shù)據(jù)海量,知識(shí)貧乏”的局面。數(shù)據(jù)挖掘?yàn)榻鉀Q這個(gè)問題提供了新的契機(jī)。數(shù)據(jù)挖掘是從大量的、復(fù)雜的、隨機(jī)的數(shù)據(jù)之中提取有價(jià)值信息和知識(shí)的過程。在這個(gè)過程之中,對數(shù)據(jù)進(jìn)行分類是數(shù)據(jù)挖掘研究領(lǐng)域比較重要的課題。目前用于分類的方法有很多種,比較經(jīng)典的有決策樹算法、遺傳算法、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、粗糙集方法等。決策樹算法因其分類準(zhǔn)確率高、容易理解等優(yōu)點(diǎn)被人們廣泛應(yīng)用。而C4.5算法是決策樹算法中最為典型的算法之一,它不僅繼承了CLS、ID3等算法的優(yōu)點(diǎn),而且對其部分缺陷進(jìn)行了優(yōu)化,使其在數(shù)據(jù)挖掘研究領(lǐng)域被眾多研究者所廣知。但是C4.5算法也存在某些缺陷。比如在決策樹構(gòu)造的過程中,需要對數(shù)據(jù)集進(jìn)行多次的排序和順序掃描,因而導(dǎo)致算法的低效以及過度分支等問題。鑒于此,本文針對C4.5算法存在的缺陷進(jìn)行了優(yōu)化,并以地質(zhì)調(diào)查項(xiàng)目信息管理系統(tǒng)中已有的項(xiàng)目數(shù)據(jù)為基礎(chǔ),利用改進(jìn)的C4.5決策樹,挖掘出項(xiàng)目投入和項(xiàng)目最終成果之間的關(guān)系,為決策者提供了決策依據(jù)。本文的主要研究內(nèi)容包括:(1)CLS算法、ID3算法和C4.5算法的性能分析和比較。通過比較經(jīng)典算法的特點(diǎn)和優(yōu)勢,為改進(jìn)C4.5算法提供理論基礎(chǔ);(2)C4.5算法的改進(jìn)。針對C4.5算法的缺點(diǎn),提出一種高效的改進(jìn)C4.5算法;(3)利用改進(jìn)C4.5算法,在地質(zhì)調(diào)查項(xiàng)目管理可視化系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘應(yīng)用。本文的主要?jiǎng)?chuàng)新點(diǎn)有:(1)提出了一種基于SQL的高效C4.5決策樹算法的實(shí)現(xiàn)方案,并引入容錯(cuò)率的概念進(jìn)一步提高了算法的執(zhí)行效率;(2)利用優(yōu)化后的C4.5算法對地質(zhì)調(diào)查項(xiàng)目數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,并將數(shù)據(jù)挖掘的結(jié)果應(yīng)用于地質(zhì)調(diào)查項(xiàng)目管理可視化系統(tǒng)之中。本文的研究成果對于決策樹算法的研究者和使用者有著重要的參考意義,為地質(zhì)調(diào)查項(xiàng)目的管理者和決策者提供了決策的理論依據(jù)。
[Abstract]:With the increasing popularity of information technology in various industries, the amount of data generated has increased sharply, but there has been a situation of "massive data and poor knowledge". Data mining provides a new opportunity to solve this problem. The process of extracting valuable information and knowledge from complex, random data. In this process, data classification is an important topic in the field of data mining. The classical decision tree algorithm, genetic algorithm, association rule, neural network, rough set method and so on. The C4.5 algorithm is one of the most typical algorithms in the decision tree algorithm, which not only inherits the advantages of CLSN ID3 algorithm, but also optimizes some of its defects. It is widely known by many researchers in the field of data mining, but C4.5 algorithm also has some defects. For example, in the process of constructing decision tree, data sets need to be sorted and scanned several times. In view of this, this paper optimizes the C4.5 algorithm and makes use of the improved C4.5 decision tree based on the existing project data in the geological survey project information management system. The relationship between the project input and the final results of the project is excavated, which provides the decision basis for the decision makers. The main research contents of this paper include the performance analysis and comparison of the two algorithms, I. e. In order to provide a theoretical basis for improving C4.5 algorithm, an efficient improved C4.5 algorithm is proposed to improve C4.5 algorithm. Data mining is applied in the visualization system of geological survey project management. The main innovation of this paper is to put forward an implementation scheme of efficient C4.5 decision tree algorithm based on SQL. The concept of fault-tolerant rate is introduced to further improve the efficiency of the algorithm. The optimized C4.5 algorithm is used for data mining of geological survey project data. The results of data mining are applied to the geological survey project management visualization system. The research results in this paper have important reference significance for the researchers and users of decision tree algorithm. It provides a theoretical basis for decision-making for the managers and decision makers of geological survey projects.
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:P622;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄒汪平;;一種基于網(wǎng)絡(luò)安全控制的蜂群算法應(yīng)用研究[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年04期
2 郭毅可;韓銳;;云計(jì)算中的彈性算法:概要和展望[J];上海大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
3 劉江華;戴新喜;白似雪;;基于模式矩陣的P_Matrix算法[J];南昌大學(xué)學(xué)報(bào)(理科版);2007年05期
4 胡俊鵬;;基于雙向選擇的蟻群相遇算法的優(yōu)化[J];湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年01期
5 張麗;;關(guān)聯(lián)規(guī)則挖掘算法的研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年02期
6 吳秋峰;尹海東;孟翔燕;;基于和積和最大積的信念傳播算法的收斂性分析[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2011年09期
7 趙吉東;;蟻群算法的改進(jìn)策略研究[J];中國科技信息;2012年12期
8 胡森森;周賢善;;一種改進(jìn)蟻群算法的研究[J];長江大學(xué)學(xué)報(bào)(自科版);2006年10期
9 王恒娜;趙曉靜;;基于屬性覆蓋的關(guān)聯(lián)規(guī)則挖掘算法[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年03期
10 曹建軍;刁興春;李凱齊;邵衍振;;基于進(jìn)化強(qiáng)度的蟻群算法過程性能評(píng)價(jià)[J];解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
相關(guān)會(huì)議論文 前10條
1 黃紀(jì)武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會(huì)——2004年學(xué)術(shù)年會(huì)論文集[C];2004年
2 黃紀(jì)武;毛澤華;李松濤;張錦雄;;SPMD并行查找算法的MPI實(shí)現(xiàn)[A];廣西計(jì)算機(jī)學(xué)會(huì)2004年學(xué)術(shù)年會(huì)論文集[C];2004年
3 符麗錦;覃華;鄧海;孫欣;;一種改進(jìn)的Apriori算法的研究[A];廣西計(jì)算機(jī)學(xué)會(huì)2012年學(xué)術(shù)年會(huì)論文集[C];2012年
4 王東鋒;王軍民;陳英武;;模糊定性仿真理論研究與算法實(shí)現(xiàn)[A];'2000系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2000年
5 趙唯;;晶粒度評(píng)級(jí)的改進(jìn)算法[A];中國圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國圖象圖形科技大會(huì)論文集[C];1998年
6 劉啟文;;可擴(kuò)展的圖形學(xué)算法演示系統(tǒng)的研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年
7 佘智;蔣泰;朱延生;;基于Type C協(xié)議的防沖突改進(jìn)算法[A];廣西計(jì)算機(jī)學(xué)會(huì)25周年紀(jì)念會(huì)暨2011年學(xué)術(shù)年會(huì)論文集[C];2011年
8 朱紹文;趙培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中國智能自動(dòng)化會(huì)議論文集(下冊)[C];2003年
9 楊霞;;新的基于啟發(fā)式蟻群算法的QoS路由算法[A];廣西計(jì)算機(jī)學(xué)會(huì)2009年年會(huì)論文集[C];2009年
10 陳黎飛;姜青山;董槐林;;基于圖形輪廓的快速聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
相關(guān)博士學(xué)位論文 前10條
1 鐘永騰;基于近場MUSIC算法的復(fù)合材料結(jié)構(gòu)健康監(jiān)測研究[D];南京航空航天大學(xué);2014年
2 劉燕;入侵雜草優(yōu)化算法在陣列天線綜合中的應(yīng)用[D];西安電子科技大學(xué);2015年
3 單美靜;求解非線性實(shí)代數(shù)系統(tǒng)的混合算法研究[D];華東師范大學(xué);2008年
4 邱劍鋒;人工蜂群算法的改進(jìn)方法與收斂性理論的研究[D];安徽大學(xué);2014年
5 潘磊;若干社區(qū)發(fā)現(xiàn)算法研究[D];南京大學(xué);2014年
6 陳俊波;頻繁閉合項(xiàng)集挖掘算法及應(yīng)用研究[D];浙江大學(xué);2009年
7 陸楠;關(guān)聯(lián)規(guī)則的挖掘及其算法的研究[D];吉林大學(xué);2007年
8 范洪博;快速精確字符串匹配算法研究[D];哈爾濱工程大學(xué);2011年
9 寇曉麗;群智能算法及其應(yīng)用研究[D];西安電子科技大學(xué);2009年
10 劉維;生物序列模式挖掘與識(shí)別算法的研究[D];南京航空航天大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 安世勇;命題邏輯中隨機(jī)3-SAT問題算法研究[D];西南交通大學(xué);2015年
2 畢曉慶;油氣探礦權(quán)競爭性出讓系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2015年
3 王明明;鐵路大機(jī)與線路固定設(shè)施間距檢測算法研究[D];西南交通大學(xué);2015年
4 李靜;基于視頻圖像序列的運(yùn)動(dòng)目標(biāo)檢測與跟蹤算法研究[D];寧夏大學(xué);2015年
5 劉貝玲;基于天地圖的租房平臺(tái)開發(fā)及其關(guān)鍵技術(shù)研究[D];西南交通大學(xué);2015年
6 曹海鋒;IDS中串匹配臭算法并行優(yōu)化研究[D];西安建筑科技大學(xué);2015年
7 周攀;基于蟻群算法的山區(qū)高速鐵路隧道火災(zāi)應(yīng)急疏散最優(yōu)路徑研究[D];西南交通大學(xué);2015年
8 張路奇;基于改進(jìn)蟻群算法的WSN路由協(xié)議的研究[D];中國地質(zhì)大學(xué)(北京);2015年
9 王曉晨;入侵雜草優(yōu)化算法的應(yīng)用與改進(jìn)[D];長安大學(xué);2015年
10 信琴琴;手勢控制和識(shí)別算法研究[D];閩南師范大學(xué);2015年
,本文編號(hào):1609225
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/xiangmuguanli/1609225.html