a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

基于python的中文文本分類研究

發(fā)布時(shí)間:2020-08-09 21:35
【摘要】:伴隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)包含了越來越多的各種格式的數(shù)據(jù)和信息,而這些信息中的大部分都是以text或者h(yuǎn)ypertext的格式出現(xiàn)的,那么如何有效的組織和管理這些大規(guī)模的文本數(shù)據(jù)和信息,并且能夠精準(zhǔn)地從中挖掘出有用的信息正是我們目前所面臨的困難,所以基于機(jī)器學(xué)習(xí)的中文文本分類技術(shù)已經(jīng)成為一項(xiàng)非常有意義的研究課題。本文選取網(wǎng)頁新聞作為語料庫,針對中文文本分類問題進(jìn)行了深切的探討和研究。本文首先介紹了文本分類領(lǐng)域的研究現(xiàn)狀;接著對文本分類的相關(guān)技術(shù)進(jìn)行了探索和研究,包括信息檢索模型、文本的向量表示和中文文本分詞的相關(guān)技術(shù)。在傳統(tǒng)的TFIDF算法基礎(chǔ)上,本文創(chuàng)新性地采用詞頻放大法弱化文本長度對特征項(xiàng)權(quán)重的影響;在處理文本高維稀疏性向量矩陣時(shí)引入哈希技巧,提高了整個(gè)分類過程的空間和時(shí)間效率。在此基礎(chǔ)上,本文進(jìn)一步介紹了各種分類算法,包括樸素Bayes算法、K近鄰算法、隨機(jī)森林算法以及支持向量機(jī)算法。最后本文通過Python軟件編程完整實(shí)現(xiàn)了中文文本分類系統(tǒng),將數(shù)據(jù)集其中的80%作為訓(xùn)練集,20%作為測試集,進(jìn)行交叉驗(yàn)證,建立準(zhǔn)確率、召回率和!"值一系列指標(biāo)對各種分類算法性能進(jìn)行評價(jià),得出支持向量機(jī)算法的分類效果最好,其精確率、召回率和!"值都高達(dá)92%;K近鄰分類算法分類效果最差,雖然平均精確率為75%,但是回召率和!"值分別只有19%和12%的結(jié)論,并且深入分析了導(dǎo)致分類效果的原因和相關(guān)的改進(jìn)方法,同時(shí)對下一步文本研究工作提出了展望。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:C81

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 許曉昕;李安貴;;一種基于TFIDF的網(wǎng)絡(luò)聊天關(guān)鍵詞提取算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年03期

2 朱靖波,陳文亮;基于領(lǐng)域知識(shí)的文本分類[J];東北大學(xué)學(xué)報(bào);2005年08期

3 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計(jì)算機(jī)研究與發(fā)展;2005年01期

4 劉斌,黃鐵軍,程軍,高文;一種新的基于統(tǒng)計(jì)的自動(dòng)文本分類方法[J];中文信息學(xué)報(bào);2002年06期

5 周水庚,關(guān)佶紅,胡運(yùn)發(fā);隱含語義索引及其在中文文本處理中的應(yīng)用研究[J];小型微型計(jì)算機(jī)系統(tǒng);2001年02期

6 黃萱菁,吳立德,石崎洋之,徐國偉;獨(dú)立于語種的文本分類方法[J];中文信息學(xué)報(bào);2000年06期

7 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2000年09期

8 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期

9 刁倩,王永成,張惠惠;中文信息自動(dòng)分類系統(tǒng)及其神經(jīng)網(wǎng)絡(luò)優(yōu)化算法[J];信息與控制;1999年03期

10 張?jiān)陆?姚天順;基于特征相關(guān)性的漢語文本自動(dòng)分類模型的研究[J];小型微型計(jì)算機(jī)系統(tǒng);1998年08期

相關(guān)博士學(xué)位論文 前1條

1 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年



本文編號(hào):2787586

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2787586.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7b2ba***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
69久久| xxx18| 欧美色欧美亚洲高清在线视频| 亚洲精品乱码久久久久久V| 国产熟女丰满老熟女熟妇| 欧美粗大| 欧美日韩国产在线高清视频 | 亚洲日韩亚洲另类| 公交车大龟廷进我身体里在线观看| 国产av在线www污污污十八禁| 无码AⅤ免费中文字幕久久| XXXXX做受大片在线观看免费| 中文字幕日韩三级片| 一本一道久久综合狠狠老| 精品人体无码一区二区三区| 国产精品久久香蕉免费播放| 狠狠操av| 国产自拍| 日韩一级av片| 天天干影院| 久久亚洲国产女同av| 久久亚洲国产中文香蕉视频| 久久久久无码精品午夜| 毛片在线播放a| 久久久久亚洲av成人网| 粗大的内捧猛烈进出视频嘿嘿视频 | 亚洲午夜福利av一区二区无码| 毛片免费观看| 久久久18| 欧美日韩亚洲精品瑜伽裤| 欧美全黄| 亚洲一线产区二线产区的区别| 97香蕉超级碰碰碰久久兔费| 亚洲欧美日韩成人高清在线一区| 亚洲婷婷五月综合狠狠爱| 真实国产普通话对白乱子子伦视频 | 欧美精品久久天天躁| 亚洲丁香婷婷久久一区二区| 人妻少妇精品无码专区二区| 国产精品天干天干| 美女黄网站视频免费视频|