一種融合多元問題特征的專利聚類方法研究
發(fā)布時間:2023-03-25 06:30
專利信息由發(fā)明名稱、摘要、背景技術等信息構(gòu)成,其中的背景技術文本著重描述了專利解決了什么問題,對什么技術進行改進,十分契合發(fā)明創(chuàng)造就是為了解決問題的本質(zhì)。對專利背景技術進行挖掘能夠更加快速、準確的幫助技術人員定位當前技術的核心問題,所以對專利的背景技術進行分析有著重要的研究意義。而目前針對專利內(nèi)容的分析大部分都是基于標題和摘要信息,對背景技術相關的研究較為匱乏,并且研究內(nèi)容缺乏針對性,無法羅列專利多元化的信息。本文開創(chuàng)性的從專利背景技術中分析出專利問題信息,并完成了包含專利問題信息的問題句定位、自定義問題三元組抽取工作,并在此基礎上提出了一種融合專利多元問題特征的聚類方法,本研究將專利分析內(nèi)容的粒度進行細化,進一步擴展了專利研究領域,本文主要貢獻如下:(1)針對專利背景技術句子,本文分別定義了問題句與非問題句,對當前常規(guī)分類模型特征表示能力弱、對復雜句式分類不準確的現(xiàn)象,提出了融合注意力機制的ATT-C-L問題句定位模型。將文本特征拆分為卷積特征、將來和過去的上下文特征三類,并針對不同特征在實際的文本分類中,并不是平均的對文本分類起到作用的現(xiàn)象,引入了注意力機制捕捉對問題句定位最有效信...
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 信息抽取研究現(xiàn)狀
1.2.3 專利聚類研究現(xiàn)狀
1.3 課題研究內(nèi)容
1.4 論文主要組織結(jié)構(gòu)
第二章 相關技術理論概述
2.1 本文術語定義
2.1.1 專利背景技術中問題句定義
2.1.2 專利背景技術中問題單元定義
2.2 文本分類相關技術
2.3 信息抽取相關技術
2.4 專利文本聚類研究
2.4.1 文本向量化表示方法
2.4.2 相似性度量方法
2.4.3 專利聚類方法
2.5 本章小結(jié)
第三章 融合注意力機制的專利問題句定位模型
3.1 注意力機制
3.2 基于ATT-C-L模型的專利問題句定位模型
3.2.1 文本預處理
3.2.2 卷積神經(jīng)網(wǎng)絡特征提取
3.2.3 循環(huán)神經(jīng)網(wǎng)絡特征提取
3.2.4 基于ATT機制的特征權值計算
3.3 實驗結(jié)果與分析
3.4 本章小結(jié)
第四章 專利問題單元提取方法研究
4.1 基于專利文本特征的復雜句式過濾
4.2 基于Word2vec的問題詞詞庫構(gòu)建
4.3 針對問題句的句法詞法分析
4.3.1 依存句法分析工作
4.3.2 語義角色標注工作
4.4 融合相對特征的專利問題單元提取
4.4.1 融入相對語義位置特征的專利問題源提取
4.4.2 融入相對語義語法特征的問題詞和問題對象聯(lián)合抽取
4.4.3 基于改進的ATT規(guī)則進行邊際修正
4.5 實驗結(jié)果與分析
4.6 本章小結(jié)
第五章 融合多元問題特征的專利聚類
5.1 融合多元問題特征的專利聚類算法
5.1.1 數(shù)據(jù)準備與語料預處理
5.1.2 專利問題表達元組抽取
5.1.3 專利多元問題特征表示與融合
5.1.4 基于譜聚類的專利聚類
5.2 實驗結(jié)果與分析
5.3 本章小結(jié)
結(jié)論
參考文獻
攻讀學位期間所取得的相關科研成果
致謝
本文編號:3770736
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景和意義
1.2 研究現(xiàn)狀
1.2.1 文本分類研究現(xiàn)狀
1.2.2 信息抽取研究現(xiàn)狀
1.2.3 專利聚類研究現(xiàn)狀
1.3 課題研究內(nèi)容
1.4 論文主要組織結(jié)構(gòu)
第二章 相關技術理論概述
2.1 本文術語定義
2.1.1 專利背景技術中問題句定義
2.1.2 專利背景技術中問題單元定義
2.2 文本分類相關技術
2.3 信息抽取相關技術
2.4 專利文本聚類研究
2.4.1 文本向量化表示方法
2.4.2 相似性度量方法
2.4.3 專利聚類方法
2.5 本章小結(jié)
第三章 融合注意力機制的專利問題句定位模型
3.1 注意力機制
3.2 基于ATT-C-L模型的專利問題句定位模型
3.2.1 文本預處理
3.2.2 卷積神經(jīng)網(wǎng)絡特征提取
3.2.3 循環(huán)神經(jīng)網(wǎng)絡特征提取
3.2.4 基于ATT機制的特征權值計算
3.3 實驗結(jié)果與分析
3.4 本章小結(jié)
第四章 專利問題單元提取方法研究
4.1 基于專利文本特征的復雜句式過濾
4.2 基于Word2vec的問題詞詞庫構(gòu)建
4.3 針對問題句的句法詞法分析
4.3.1 依存句法分析工作
4.3.2 語義角色標注工作
4.4 融合相對特征的專利問題單元提取
4.4.1 融入相對語義位置特征的專利問題源提取
4.4.2 融入相對語義語法特征的問題詞和問題對象聯(lián)合抽取
4.4.3 基于改進的ATT規(guī)則進行邊際修正
4.5 實驗結(jié)果與分析
4.6 本章小結(jié)
第五章 融合多元問題特征的專利聚類
5.1 融合多元問題特征的專利聚類算法
5.1.1 數(shù)據(jù)準備與語料預處理
5.1.2 專利問題表達元組抽取
5.1.3 專利多元問題特征表示與融合
5.1.4 基于譜聚類的專利聚類
5.2 實驗結(jié)果與分析
5.3 本章小結(jié)
結(jié)論
參考文獻
攻讀學位期間所取得的相關科研成果
致謝
本文編號:3770736
本文鏈接:http://www.wukwdryxk.cn/tushudanganlunwen/3770736.html