基于統(tǒng)計(jì)方法的中文文本分類
發(fā)布時間:2020-08-04 21:29
【摘要】:文本分類就得利用待分類文本的模型特征來進(jìn)行匹配。其過程有:文本的表達(dá)、建立分類器、評價預(yù)測結(jié)果等。目前,有一些比較成熟的分類算法,比如樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等,用到英文文本分類時效果較好,但在中文文本分類上,有時效果并不理想,原因在于英文單詞與中文詞語的區(qū)別。在英文文檔里,單詞之間都是有空格間隔開的,這樣在進(jìn)行分詞處理時很容易就能完成;而中文文檔里,字與字之間沒有間隔,而且字之間不同的組合,其意思也會有很大的差別,F(xiàn)在,基于理解的分詞、基于字符串匹配的分詞和基于統(tǒng)計(jì)的分詞是解決中文分詞常用的方法。本文對中文文本的分類進(jìn)行了研究,嘗試了一些提高分類準(zhǔn)確度的設(shè)想,并做了相應(yīng)的實(shí)驗(yàn)。本文從搜狗實(shí)驗(yàn)室(http://www.sogou.com/labs/)下載了 480個中文文本文檔,其中400個文檔的類別已知,分別為財(cái)經(jīng)類、健康類、教育類和軍事類;另外80個文本的類別需要通過計(jì)算機(jī)來自動分類。本文首先系統(tǒng)闡述了幾種分類算法的原理以及特點(diǎn),接著對中文文本文檔進(jìn)行基于統(tǒng)計(jì)方法的分詞處理,在去除停止詞之后,基于TF-IDF提取了特征項(xiàng),根據(jù)特征項(xiàng)進(jìn)行分類,并比較各種分類方法的好壞。本文運(yùn)用了 KNN分類算法、SVM分類算法和組合學(xué)習(xí)方法來進(jìn)行文本分類,并比較了各種分類算法的好壞。各種算法模型的分類準(zhǔn)確率均能達(dá)到80%以上,以組合學(xué)習(xí)方法里的隨機(jī)森林模型的分類準(zhǔn)確率最高,達(dá)到了 92.5%。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:C81
【圖文】:
…l逡逑圖1邋KNN算法逡逑圖1中的方形與三角形表示已知類別的樣本點(diǎn),圓點(diǎn)是待分類點(diǎn),F(xiàn)在若。茫剑常村义先Τ雠c待分類樣本點(diǎn)最相近的3個樣本點(diǎn),然后查看它們的類別。如圖中的實(shí)線圓中,逡逑此時與圓點(diǎn)最相近的三個點(diǎn)分別是一個方形點(diǎn)和兩個三角形點(diǎn),這樣,就將待分類的樣逡逑本點(diǎn)歸為三角形點(diǎn)類別;若取K=5,即圈出與待分類樣本點(diǎn)最相近的5個樣本點(diǎn),然后逡逑查看它們的類別。如圖中的虛線圓中,此時與圓點(diǎn)最相近的五個點(diǎn)分別是三個方形點(diǎn)和逡逑兩個三角形點(diǎn),這樣,就將待分類的樣本點(diǎn)歸為方形點(diǎn)類別。逡逑數(shù)學(xué)描述如下,對每一個測試樣例2邋=(允,;/),計(jì)算它和所有訓(xùn)練樣例(尤>0ez)之間逡逑的距離,以確定其最近鄰列表02。然后,利用多數(shù)表決來進(jìn)行分類:逡逑多數(shù)表決:J邋=argmax邋^邋/(v邋=邋y
怎樣找到這種最大邊緣超平面;最后,將此方法推廣到非線性可分的數(shù)據(jù)上。逡逑2.2.2最大邊緣超平面逡逑圖2里是有兩個類別的樣本點(diǎn)的數(shù)據(jù)集,分別用空心圓點(diǎn)和實(shí)心方格來表示。這個數(shù)逡逑據(jù)集是線性可分的,因?yàn)榭梢哉业饺绱艘粋超平面,把這兩類樣本點(diǎn)完全分開。然而,逡逑如圖2所示,這樣的超平面可能有無窮個。這些超平面都沒有訓(xùn)練誤差,但是在未知的逡逑實(shí)例上能不能都有好的效果呢?答案是否定的。逡逑5逡逑
~柊噸袘。湛煎義賢跡插濉魷咝鑰煞質(zhì)菁系目贍芫霾弒囈玨義喜慰紀(jì)跡忱錚停κ橇礁鼉霾弒囈紓扛齔矯娑加邢嚶Φ木霾弒囈纈脛雜Γ義戲直鷂,和、。其中,将一个平行诱a霾弒囈緄某矯嫫揭頻階罱氖敵姆礁竦玫街誨義俠嗨頻,将另一个平行诱a霾弒囈緄某矯嫫揭頻階罱目招腦駁愕玫劍;2。窋S嗥韉謀咤義顯稻褪欽飭礁齔矯嫻木嗬。蟿蚧,巧抵\咴迪災(zāi)笥冢Φ謀咴怠M跡持,桩岓边渣h義掀矯婢褪竊。辶x襄危蓿玻卞澹蓿玻插邋五五義稀鰣巍鰣澹觶觶懼澹赍
本文編號:2781103
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:C81
【圖文】:
…l逡逑圖1邋KNN算法逡逑圖1中的方形與三角形表示已知類別的樣本點(diǎn),圓點(diǎn)是待分類點(diǎn),F(xiàn)在若。茫剑常村义先Τ雠c待分類樣本點(diǎn)最相近的3個樣本點(diǎn),然后查看它們的類別。如圖中的實(shí)線圓中,逡逑此時與圓點(diǎn)最相近的三個點(diǎn)分別是一個方形點(diǎn)和兩個三角形點(diǎn),這樣,就將待分類的樣逡逑本點(diǎn)歸為三角形點(diǎn)類別;若取K=5,即圈出與待分類樣本點(diǎn)最相近的5個樣本點(diǎn),然后逡逑查看它們的類別。如圖中的虛線圓中,此時與圓點(diǎn)最相近的五個點(diǎn)分別是三個方形點(diǎn)和逡逑兩個三角形點(diǎn),這樣,就將待分類的樣本點(diǎn)歸為方形點(diǎn)類別。逡逑數(shù)學(xué)描述如下,對每一個測試樣例2邋=(允,;/),計(jì)算它和所有訓(xùn)練樣例(尤>0ez)之間逡逑的距離,以確定其最近鄰列表02。然后,利用多數(shù)表決來進(jìn)行分類:逡逑多數(shù)表決:J邋=argmax邋^邋/(v邋=邋y
怎樣找到這種最大邊緣超平面;最后,將此方法推廣到非線性可分的數(shù)據(jù)上。逡逑2.2.2最大邊緣超平面逡逑圖2里是有兩個類別的樣本點(diǎn)的數(shù)據(jù)集,分別用空心圓點(diǎn)和實(shí)心方格來表示。這個數(shù)逡逑據(jù)集是線性可分的,因?yàn)榭梢哉业饺绱艘粋超平面,把這兩類樣本點(diǎn)完全分開。然而,逡逑如圖2所示,這樣的超平面可能有無窮個。這些超平面都沒有訓(xùn)練誤差,但是在未知的逡逑實(shí)例上能不能都有好的效果呢?答案是否定的。逡逑5逡逑
~柊噸袘。湛煎義賢跡插濉魷咝鑰煞質(zhì)菁系目贍芫霾弒囈玨義喜慰紀(jì)跡忱錚停κ橇礁鼉霾弒囈紓扛齔矯娑加邢嚶Φ木霾弒囈纈脛雜Γ義戲直鷂,和、。其中,将一个平行诱a霾弒囈緄某矯嫫揭頻階罱氖敵姆礁竦玫街誨義俠嗨頻,将另一个平行诱a霾弒囈緄某矯嫫揭頻階罱目招腦駁愕玫劍;2。窋S嗥韉謀咤義顯稻褪欽飭礁齔矯嫻木嗬。蟿蚧,巧抵\咴迪災(zāi)笥冢Φ謀咴怠M跡持,桩岓边渣h義掀矯婢褪竊。辶x襄危蓿玻卞澹蓿玻插邋五五義稀鰣巍鰣澹觶觶懼澹赍
本文編號:2781103
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2781103.html
最近更新
教材專著