隨著信息技術(shù)的快速發(fā)展,信息海量增長,如何從大量數(shù)據(jù)中獲取有用信息是人們急需解決的問題。信息多數(shù)是以文本的形式出現(xiàn),而中文是世界上使用人數(shù)最多的語言,所以研究中文文本分類具有重要意義。文本分類可以高效的組織和管理信息,實(shí)現(xiàn)快速、準(zhǔn)確的定位信息,有效的緩解了信息混亂無序的現(xiàn)象。文本分類的問題是維數(shù)高、稀疏性大和特征關(guān)聯(lián)度高,而支持向量機(jī)在解決這些問題上具有很大的優(yōu)勢(shì),因此,支持向量機(jī)廣泛應(yīng)用于文本分類中。但是,支持向量機(jī)也有一些缺點(diǎn),例如,樣本數(shù)量增多導(dǎo)致分類速度變慢,參數(shù)對(duì)算法的學(xué)習(xí)性能和泛化能力影響較大。目前傳統(tǒng)的支持向量機(jī)參數(shù)的尋優(yōu)方法存在一些缺陷,比如搜索能力較弱和準(zhǔn)確率不高等問題。本文針對(duì)以上問題,在優(yōu)化支持向量機(jī)參數(shù)方面進(jìn)行了詳細(xì)的研究,以達(dá)到提高文本分類的準(zhǔn)確率和減少分類時(shí)間的效果。本文的主要研究內(nèi)容如下:首先,論文系統(tǒng)的概述了文本分類的研究背景及意義,海內(nèi)外研究和未來的發(fā)展前景,介紹了文本分類的相關(guān)理論和關(guān)鍵技術(shù),對(duì)比了文本分類中常用的算法。通過實(shí)驗(yàn)證明,SVM是分類效果相對(duì)較好的算法。然后,針對(duì)支持向量機(jī)參數(shù)選取困難的現(xiàn)象,本文引入了螢火蟲算法,并對(duì)其進(jìn)行改進(jìn),將改進(jìn)后的算法來優(yōu)化支持向量機(jī)參數(shù)。通過實(shí)驗(yàn)進(jìn)行對(duì)比,驗(yàn)證了改進(jìn)后的螢火蟲算法在早期全局搜索能力增強(qiáng),在后期收斂速度加快,提高了算法的性能。其次,將改進(jìn)后的螢火蟲算法應(yīng)用于SVM參數(shù)優(yōu)化中,并將優(yōu)化后的參數(shù)應(yīng)用于訓(xùn)練SVM模型中。最后,通過實(shí)驗(yàn)對(duì)比標(biāo)準(zhǔn)支持向量機(jī)和改進(jìn)后螢火蟲算法優(yōu)化的支持向量機(jī)在文本分類中的效果。實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的支持向量機(jī)模型應(yīng)用在文本分類時(shí),分類速度加快,分類的精準(zhǔn)率明顯提高,增強(qiáng)了支持向量機(jī)的分類性能,驗(yàn)證了改進(jìn)算法的有效性。
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP18;TP391.1
文章目錄
摘要
Abstract
第1章 緒論
1.1 選題背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 文本分類概述
1.2.2 SVM概述
1.3 本文工作
1.4 論文的組織安排
第2章 文本分類相關(guān)理論與技術(shù)
2.1 文本分類一般過程
2.2 文本預(yù)處理
2.2.1 處理文本標(biāo)記
2.2.2 中文分詞
2.2.3 過濾停用詞
2.3 文本表示
2.4 特征處理
2.4.1 特征提取
2.4.2 特征加權(quán)
2.5 分類性能評(píng)價(jià)標(biāo)準(zhǔn)
2.6 本章小結(jié)
第3章 文本分類方法對(duì)比研究
3.1 樸素貝葉斯算法
3.2 k近鄰算法
3.3 支持向量機(jī)算法
3.3.1 線性可分支持向量
3.3.2 線性不可分
3.3.3 核函數(shù)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第4章 改進(jìn)的SVM參數(shù)優(yōu)化方法
4.1 SVM參數(shù)
4.2 SVM參數(shù)優(yōu)化方法
4.2.1 交叉驗(yàn)證法
4.2.2 網(wǎng)格搜索法
4.3 螢火蟲算法優(yōu)化SVM參數(shù)
4.3.1 標(biāo)準(zhǔn)螢火蟲算法
4.3.2 算法原理
4.3.3 螢火蟲算法優(yōu)化SVM參數(shù)
4.4 改進(jìn)的螢火蟲算法優(yōu)化SVM參數(shù)
4.4.1 改進(jìn)的螢火蟲算法
4.4.2 SVM參數(shù)優(yōu)化
4.4.3 實(shí)驗(yàn)對(duì)比與分析
4.5 本章小結(jié)
第5章 文本分類實(shí)驗(yàn)及結(jié)果分析
5.1 實(shí)驗(yàn)說明
5.2 文本分類測(cè)試語料
5.3 文本分類實(shí)驗(yàn)過程
5.4 實(shí)驗(yàn)結(jié)果與分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 本文總結(jié)
6.2 研究展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王振武;孫佳駿;尹成峰;;改進(jìn)粒子群算法優(yōu)化的支持向量機(jī)及其應(yīng)用[J];哈爾濱工程大學(xué)學(xué)報(bào);2016年12期
2 趙宇;陳銳;劉蔚;;集成特征選擇的最優(yōu)化支持向量機(jī)分類器模型研究[J];計(jì)算機(jī)科學(xué);2016年08期
3 馮曉琳;寧芊;雷印杰;陳思羽;;基于改進(jìn)型人工魚群算法的支持向量機(jī)參數(shù)優(yōu)化[J];計(jì)算機(jī)測(cè)量與控制;2016年05期
4 張進(jìn);丁勝;李波;;改進(jìn)的基于粒子群優(yōu)化的支持向量機(jī)特征選擇和參數(shù)聯(lián)合優(yōu)化算法[J];計(jì)算機(jī)應(yīng)用;2016年05期
5 陳健飛;蔣剛;楊劍鋒;;改進(jìn)ABC-SVM的參數(shù)優(yōu)化及應(yīng)用[J];機(jī)械設(shè)計(jì)與制造;2016年01期
6 詹增榮;曾青松;;基于徑向基函數(shù)插值與SVM的協(xié)同過濾算法[J];計(jì)算機(jī)與現(xiàn)代化;2015年08期
7 楊海;丁毅;沈海斌;;基于改進(jìn)螢火蟲算法的SVM核參數(shù)選取[J];計(jì)算機(jī)應(yīng)用與軟件;2015年06期
8 李瓊;陳利;;一種改進(jìn)的支持向量機(jī)文本分類方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年05期
9 朱書偉;周治平;張道文;;基于改進(jìn)多目標(biāo)螢火蟲算法的模糊聚類[J];計(jì)算機(jī)應(yīng)用;2015年03期
10 王超學(xué);張濤;馬春森;;改進(jìn)SVM-KNN的不平衡數(shù)據(jù)分類[J];計(jì)算機(jī)工程與應(yīng)用;2016年04期
相關(guān)碩士學(xué)位論文 前10條
1 任倚天;基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D];北京理工大學(xué);2016年
2 王蕾;一種人工螢火蟲群優(yōu)化算法改進(jìn)的研究[D];青島理工大學(xué);2015年
3 李瑞青;改進(jìn)的螢火蟲算法及應(yīng)用[D];吉林大學(xué);2015年
4 薛松;基于機(jī)器學(xué)習(xí)的文本處理技術(shù)研究與應(yīng)用[D];北京郵電大學(xué);2015年
5 徐曉明;SVM參數(shù)尋優(yōu)及其在分類中的應(yīng)用[D];大連海事大學(xué);2014年
6 杜芳華;基于半監(jiān)督學(xué)習(xí)的文本分類算法研究[D];北京工業(yè)大學(xué);2014年
7 王影;基于最近鄰子空間搜索的文本分類算法[D];北京工業(yè)大學(xué);2014年
8 李學(xué)學(xué);基于數(shù)據(jù)預(yù)處理和回歸分析技術(shù)的數(shù)據(jù)挖掘算法及其應(yīng)用研究[D];蘭州交通大學(xué);2014年
9 辛竹;文本分類中的特征提取算法研究與改進(jìn)[D];北京郵電大學(xué);2014年
10 楊海;SVM核參數(shù)優(yōu)化研究與應(yīng)用[D];浙江大學(xué);2014年
本文編號(hào):
2023746
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/zidonghuakongzhilunwen/2023746.html