a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于統(tǒng)計(jì)方法的中文文本分類

發(fā)布時間:2020-08-04 21:29
【摘要】:文本分類就得利用待分類文本的模型特征來進(jìn)行匹配。其過程有:文本的表達(dá)、建立分類器、評價預(yù)測結(jié)果等。目前,有一些比較成熟的分類算法,比如樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等,用到英文文本分類時效果較好,但在中文文本分類上,有時效果并不理想,原因在于英文單詞與中文詞語的區(qū)別。在英文文檔里,單詞之間都是有空格間隔開的,這樣在進(jìn)行分詞處理時很容易就能完成;而中文文檔里,字與字之間沒有間隔,而且字之間不同的組合,其意思也會有很大的差別,F(xiàn)在,基于理解的分詞、基于字符串匹配的分詞和基于統(tǒng)計(jì)的分詞是解決中文分詞常用的方法。本文對中文文本的分類進(jìn)行了研究,嘗試了一些提高分類準(zhǔn)確度的設(shè)想,并做了相應(yīng)的實(shí)驗(yàn)。本文從搜狗實(shí)驗(yàn)室(http://www.sogou.com/labs/)下載了 480個中文文本文檔,其中400個文檔的類別已知,分別為財(cái)經(jīng)類、健康類、教育類和軍事類;另外80個文本的類別需要通過計(jì)算機(jī)來自動分類。本文首先系統(tǒng)闡述了幾種分類算法的原理以及特點(diǎn),接著對中文文本文檔進(jìn)行基于統(tǒng)計(jì)方法的分詞處理,在去除停止詞之后,基于TF-IDF提取了特征項(xiàng),根據(jù)特征項(xiàng)進(jìn)行分類,并比較各種分類方法的好壞。本文運(yùn)用了 KNN分類算法、SVM分類算法和組合學(xué)習(xí)方法來進(jìn)行文本分類,并比較了各種分類算法的好壞。各種算法模型的分類準(zhǔn)確率均能達(dá)到80%以上,以組合學(xué)習(xí)方法里的隨機(jī)森林模型的分類準(zhǔn)確率最高,達(dá)到了 92.5%。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:C81
【圖文】:

算法,樣本點(diǎn),類別,多數(shù)表決


…l逡逑圖1邋KNN算法逡逑圖1中的方形與三角形表示已知類別的樣本點(diǎn),圓點(diǎn)是待分類點(diǎn),F(xiàn)在若。茫剑常村义先Τ雠c待分類樣本點(diǎn)最相近的3個樣本點(diǎn),然后查看它們的類別。如圖中的實(shí)線圓中,逡逑此時與圓點(diǎn)最相近的三個點(diǎn)分別是一個方形點(diǎn)和兩個三角形點(diǎn),這樣,就將待分類的樣逡逑本點(diǎn)歸為三角形點(diǎn)類別;若取K=5,即圈出與待分類樣本點(diǎn)最相近的5個樣本點(diǎn),然后逡逑查看它們的類別。如圖中的虛線圓中,此時與圓點(diǎn)最相近的五個點(diǎn)分別是三個方形點(diǎn)和逡逑兩個三角形點(diǎn),這樣,就將待分類的樣本點(diǎn)歸為方形點(diǎn)類別。逡逑數(shù)學(xué)描述如下,對每一個測試樣例2邋=(允,;/),計(jì)算它和所有訓(xùn)練樣例(尤>0ez)之間逡逑的距離,以確定其最近鄰列表02。然后,利用多數(shù)表決來進(jìn)行分類:逡逑多數(shù)表決:J邋=argmax邋^邋/(v邋=邋y

線性可分,數(shù)據(jù)集,超平面,邊界


怎樣找到這種最大邊緣超平面;最后,將此方法推廣到非線性可分的數(shù)據(jù)上。逡逑2.2.2最大邊緣超平面逡逑圖2里是有兩個類別的樣本點(diǎn)的數(shù)據(jù)集,分別用空心圓點(diǎn)和實(shí)心方格來表示。這個數(shù)逡逑據(jù)集是線性可分的,因?yàn)榭梢哉业饺绱艘粋超平面,把這兩類樣本點(diǎn)完全分開。然而,逡逑如圖2所示,這樣的超平面可能有無窮個。這些超平面都沒有訓(xùn)練誤差,但是在未知的逡逑實(shí)例上能不能都有好的效果呢?答案是否定的。逡逑5逡逑

參考圖,最大邊緣,超平面


~柊噸袘。湛煎義賢跡插濉魷咝鑰煞質(zhì)菁系目贍芫霾弒囈玨義喜慰紀(jì)跡忱錚停κ橇礁鼉霾弒囈紓扛齔矯娑加邢嚶Φ木霾弒囈纈脛雜Γ義戲直鷂,和、。其中,将一个平行诱a霾弒囈緄某矯嫫揭頻階罱氖敵姆礁竦玫街誨義俠嗨頻,将另一个平行诱a霾弒囈緄某矯嫫揭頻階罱目招腦駁愕玫劍;2。窋S嗥韉謀咤義顯稻褪欽飭礁齔矯嫻木嗬。蟿蚧,巧抵\咴迪災(zāi)笥冢Φ謀咴怠M跡持,桩岓边渣h義掀矯婢褪竊。辶x襄危蓿玻卞澹蓿玻插邋五五義稀鰣巍鰣澹觶觶懼澹赍

本文編號:2781103

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2781103.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fd3cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
免费A级毛片无码免费视频| 午夜天堂av久久久噜噜噜 | 亚洲春色综合另类网| 久久久久久AV无码免费看大片| jk白丝极品被cao到流水呻吟| 国产性猛交xxxx免费看久久| 国内自拍网| 亚洲精品欧美精品日韩精品| 国产69精品久久久久9999apgf| 四虎影视app最新免费版| 精品欧美在线| 亚洲精品一区三区三区在线观看| 国产另类久久久精品| 999久久久免费精品播放| 亚洲精品国偷自产在线99人热 | 变态另类视频一区二区三区| 无码人妻AⅤ一区二区三区蜜桃| 四虎国产精品成人| 国内精品视频一区二区三区| 大色欧美| 午夜精品久久久| 狠狠操网| 国产又黄又大又粗的视频 | 国产成人无码一区二区在线播放| 久久只有这里才是精品| 亚洲成人天堂| 欧美v| 亚洲一区色| 精品国产自在精品国产精野外直播| 最近最新日本中文字幕| 熟妇激情内射com| 中文字幕无码中文字幕有码| 国内精品久久久久久无码| 爆乳护士一区二区三区在线播放| 在线观看国产三级视频| 亚洲精品suv精品一区二区| 加勒比一区二区| 久久久中文久久久无码| 国产成人无码精品久久久小说| 亚洲av综合色区| 日本XXXX色视频在线观看免费|