中國大學生英語作文相似度檢測系統(tǒng)的研究與設計
本文關鍵詞: 作文評分 相似度檢測 停用詞 語義信息 聚類 出處:《中國科學技術大學》2017年碩士論文 論文類型:學位論文
【摘要】:隨著自然語言技術的發(fā)展,越來越多高校在英語作文的教學過程中使用科技化的手段提高教學效率,英語作文的自動評分技術應運而生。國內現(xiàn)階段有句酷、冰果等作文自動評分系統(tǒng),但是這些系統(tǒng)中關于作文相似度檢測的算法缺乏深度和針對性。而國外的相似度檢測研究主要集中在對論文和代碼這一類長文本的檢測。因此,本文的主要研究內容通過改進和提出更具有針對性的相似度檢測算法,最終開發(fā)出一款符合當代大學生英語寫作特點的英語作文相似度檢測系統(tǒng)。為了實現(xiàn)該目標,本文首先調研了中國大學生英語寫作的特點,根據特點對英語作文進行分類,再針對不同類別的作文進行研究。針對單詞量在60及以上的長作文,作者通過改進TCUSS聚類算法,設計了一種基于WordNet語義聚類的作文相似度算法。對于單詞量在60以下的短作文,本文在驗證了英語停用詞的穩(wěn)定性后,設計了一種全新的基于停用詞的作文相似度檢測算法。之后,本文基于新算法,設計并實現(xiàn)了計算機輔助批閱系統(tǒng)中的英語作文相似度檢測系統(tǒng)。最后,本文收集了一定量的語料樣本,分別對上述兩種算法以及整體的英語作文相似度檢測系統(tǒng)的效果進行了驗證,并與K-means算法實驗結果進行對比,驗證了系統(tǒng)的優(yōu)越性。本文提出的英語作文相似度檢測算法,對大學英語寫作教學和練習有很強的針對性。驗證后發(fā)現(xiàn),算法整體的正確率、召回率和F1測度都優(yōu)于目前常用的相似度檢測算法。最后相似度檢測系統(tǒng)的設計采取了異步調用的方式,可滿足計算機輔助批閱系統(tǒng)的大規(guī)模運用需求。
[Abstract]:With the development of natural language technology, more and more colleges and universities use scientific and technological means to improve teaching efficiency in the process of English composition teaching. Ice fruit and other composition automatic scoring system. But the similarity detection algorithms in these systems are lack of depth and pertinence, and the research of similarity detection abroad mainly focuses on the detection of long texts such as papers and codes. The main research content of this paper is to improve and propose a more targeted similarity detection algorithm. In order to achieve this goal, this paper first investigates the characteristics of Chinese college students' English writing. This paper classifies English compositions according to their characteristics, and then studies different types of compositions. For long compositions with a single word size of 60 or more, the author improves the TCUSS clustering algorithm. This paper designs a composition similarity algorithm based on WordNet semantic clustering. For short compositions with less than 60 words, this paper verifies the stability of English stop words. This paper designs a new similarity detection algorithm based on stop word. Then, based on the new algorithm, this paper designs and implements the English composition similarity detection system in the computer-aided marking system. Finally. In this paper, we collect a certain number of corpus samples, and verify the effectiveness of the two algorithms and the overall English composition similarity detection system, and compare the results with the K-means algorithm. The similarity detection algorithm proposed in this paper has strong pertinence for college English writing teaching and practice. After verification, it is found that the algorithm is correct as a whole. The recall rate and F1 measure are superior to the commonly used similarity detection algorithms. Finally, the similarity detection system is designed by asynchronous call, which can meet the needs of large-scale application of computer-aided marking system.
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:H319.3
【參考文獻】
相關期刊論文 前9條
1 吳思竹;錢慶;胡鐵軍;李丹亞;李軍蓮;洪娜;;詞形還原方法及實現(xiàn)工具比較分析[J];現(xiàn)代圖書情報技術;2012年03期
2 吳啟明;易云飛;;文本聚類綜述[J];河池學院學報;2008年02期
3 葛詩利;陳瀟瀟;;國外自動作文評分技術研究[J];外語電化教學;2007年05期
4 梁茂成;文秋芳;;國外作文自動評分系統(tǒng)評述及啟示[J];外語電化教學;2007年05期
5 鄭文;;大學英語寫作中的篇章雷同現(xiàn)象分析[J];成都大學學報(教育科學版);2007年08期
6 文秋芳;;“作文內容”的構念效度研究——運用結構方程模型軟件AMOS 5的嘗試[J];外語研究;2007年03期
7 孫爽;章勇;;一種基于語義相似度的文本聚類算法[J];南京航空航天大學學報;2006年06期
8 李繼鋒,劉群;基于N-Gram模型的高速漢字編碼識別系統(tǒng)[J];計算機工程與應用;2004年03期
9 濮建忠;中國學生英語動詞語法和詞匯型式使用特點初探[J];現(xiàn)代外語;2000年01期
相關博士學位論文 前1條
1 葛詩利;面向大學英語教學的通用計算機作文評分和反饋方法研究[D];北京語言大學;2008年
相關碩士學位論文 前3條
1 張思琪;基于WordNet的語義相似度計算方法的研究與應用[D];北京交通大學;2016年
2 劉令強;短文本相似度的關鍵技術研究[D];廣西師范大學;2016年
3 華秀麗;文本抄襲檢測方法研究[D];蘇州大學;2012年
,本文編號:1446443
本文鏈接:http://www.wukwdryxk.cn/waiyulunwen/yingyulunwen/1446443.html