a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 管理論文 > 統(tǒng)計學(xué)論文 >

中文文本分類方法的研究與實(shí)現(xiàn)

發(fā)布時間:2020-12-13 00:21
  互聯(lián)網(wǎng)應(yīng)用的大規(guī)模普及衍生出大量的非結(jié)構(gòu)化文本數(shù)據(jù),基于文本數(shù)據(jù)的自動分類系統(tǒng)在多個領(lǐng)域呈現(xiàn)出巨大的應(yīng)用價值,如搜索引擎、數(shù)字圖書館、郵件分類等;贙近鄰的分類算法簡單直觀,易于理解,基于貝葉斯理論的樸素貝葉斯分類算法劃分類別準(zhǔn)確率較好,在文本劃分類別中得到了較為廣泛的使用。本文首先簡要介紹了文本分類的關(guān)鍵技術(shù)——文本分詞,文本分詞是將非結(jié)構(gòu)化文本轉(zhuǎn)化為可定量分析數(shù)據(jù),包括機(jī)械分詞、統(tǒng)計分詞、語義分詞等方法。其次,將分詞結(jié)果運(yùn)用向量空間模型進(jìn)行轉(zhuǎn)化,每個特征詞語的權(quán)重如何表示有多種形式,包括布爾權(quán)重、詞頻權(quán)重、詞頻反文檔頻權(quán)重等。鑒于文本挖掘中常見的高維稀疏性問題,深入研究了CHI統(tǒng)計和隨機(jī)森林Boruta算法特征選擇方法,實(shí)現(xiàn)對高維文本特征的降維;CHI統(tǒng)計方法針對單個特征對分類結(jié)果的影響進(jìn)行卡方檢驗(yàn),檢測出與分類存在相關(guān)的特征;隨機(jī)森林Boruta算法特征選擇方法組合若干決策樹對分類結(jié)果進(jìn)行投票,對于單個特征重要性評價采取OOB估計,OOB估計是平均預(yù)測精度下降程度的無偏估計,并針對隨機(jī)森林評價特征重要性中存在的問題引入影子特征對特征重要性進(jìn)行顯著性檢驗(yàn),得出真正對分類存在重要意... 

【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要工作
    1.4 本文的組織結(jié)構(gòu)
2 文本分類技術(shù)
    2.1 文本分詞
    2.2 向量空間模型
    2.3 文本分類特征選擇
    2.4 文本分類實(shí)現(xiàn)方法
    2.5 分類評估
    2.6 本章小結(jié)
3 基于隨機(jī)森林的特征選擇方法
    3.1 隨機(jī)森林法原理
    3.2 隨機(jī)森林用于特征選擇
    3.3 本章小結(jié)
4 分類算法介紹
    4.1 基于臨近點(diǎn)的分類方法
    4.2 貝葉斯分類
    4.3 本章小結(jié)
5 實(shí)證分析
    5.1 文本預(yù)處理
    5.2 CHI統(tǒng)計與隨機(jī)森林Boruta算法特征選擇
    5.3 K近鄰法文本分類實(shí)證分析
    5.4 樸素貝葉斯文本分類實(shí)證分析
    5.5 基于TF-IDF-VSM的分類模型對比評估
    5.6 本章小結(jié)
6 總結(jié)與展望
致謝
參考文獻(xiàn)
附錄


【參考文獻(xiàn)】:
期刊論文
[1]一種k-NN分類器k值自動選取方法[J]. 杜磊,杜星,宋擒豹.  控制與決策. 2013(07)
[2]文本分類技術(shù)探究[J]. 吳波,朱昌杰,任逸卿.  宿州學(xué)院學(xué)報. 2012(05)
[3]中文文本分類中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報. 2004(01)

博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
[2]基于類別結(jié)構(gòu)的文本層次分類方法研究[D]. 祝翠玲.山東大學(xué) 2011
[3]WWW科技信息資源自動標(biāo)引的理論與實(shí)踐研究[D]. 肖明.中國科學(xué)院文獻(xiàn)情報中心 2001

碩士論文
[1]中文文本分類中的特征選擇和權(quán)重計算方法研究[D]. 宋惟然.北京工業(yè)大學(xué) 2013
[2]基于不均衡數(shù)據(jù)集的文本分類算法研究[D]. 謝娜娜.重慶大學(xué) 2013
[3]基于K近鄰算法的中文文本分類研究[D]. 徐曉艷.安徽大學(xué) 2012
[4]基于隨機(jī)森林算法的企業(yè)信用風(fēng)險評價研究[D]. 李麗.西南財經(jīng)大學(xué) 2012
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學(xué) 2011
[6]隨機(jī)森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學(xué) 2008
[7]基于決策樹的數(shù)據(jù)挖掘算法研究與應(yīng)用[D]. 盧東標(biāo).武漢理工大學(xué) 2008
[8]基于Bayes方法的文本分類器的研究與實(shí)現(xiàn)[D]. 陳劍敏.重慶大學(xué) 2007
[9]SVM在文本分類中的應(yīng)用[D]. 葉志剛.哈爾濱工程大學(xué) 2006
[10]自動文本分類算法研究[D]. 朱望斌.湖南大學(xué) 2005



本文編號:2913528

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2913528.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bca7c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
超碰在线观看97| 色屁屁WWW免费看欧美激情| 色偷偷伊人大杳蕉综合网| 国产午夜福利在线观看视龊| 久久久久久人妻一区二区三区| 无码国产精品一区二区VR老人| 亚洲天堂av| zozozo女人极品另类| 簧片| 乱人伦精品视频在线观看| 国产成人综合久久亚洲精品| 亚洲欧美日韩v在线观看不卡| 久久久久久久精品免费A片| 嫩草| 98国产精品| 国产一区欧美| 伦理在线播放| MM131美女大尺度私密照尤果| 97se亚洲综合在线| 国产特级毛片AAAAAA高潮流水| 婷婷色香合缴缴情AV第三区| 欧美人妻体内射射| 狠狠干狠狠插| 午夜久久久久久禁播电影| 欧美大香蕉视频| 成 人 A V免费视频在线观看| 国产99视频精品免视看9| 99国产精品无码| 成人国产精品免费视频| 国内精品视频一区二区三区| 日本精品高清一区二区| 久久久777天天躁狠狠躁av| 一区二区日本| 亚洲黄色一级| 亚洲精品一区二区三区老狼| 亚洲欧美熟妇综合久久久久 | 香港三日本三级少妇三级视频| 黄网站色视频免费国产| 国产后入| 91麻豆精品一二三区在线| a∨色狠狠一区二区三区|