一種基于概率潛在語義分析的專利主題標(biāo)引方法研究
發(fā)布時間:2025-01-07 06:03
為了準確穩(wěn)定地對專利主題進行標(biāo)引,本文提出了一種基于概率潛在語義分析的專利主題標(biāo)引方法。首先建立由共同主題和特定主題所聯(lián)合起來的混合模型;然后通過這兩類主題相關(guān)性推斷出訓(xùn)練集和測試集特定主題的映射關(guān)系;最后選擇相似度最高的主題作為專利的主題完成標(biāo)引。實驗結(jié)果表明,該方法能較為準確、穩(wěn)定地對未標(biāo)記專利進行主題標(biāo)引。本文嘗試將概率潛在語義分析運用到專利文本的標(biāo)引中,既是對專利標(biāo)引自動化的一種積極嘗試,也為深層次挖掘?qū)@畔⑶閳蠹夹g(shù)提供了一種新的思路。
【文章頁數(shù)】:10 頁
【部分圖文】:
本文編號:4024605
【文章頁數(shù)】:10 頁
【部分圖文】:
圖1 PLSA示意圖
在本文提出的方法中,假設(shè)專利的主題是由共同主題和特定主題共同表示的,特定主題包含訓(xùn)練集中的特定主題和測試集中的特定主題,一般來說,共同主題和特定主題的個數(shù)是根據(jù)數(shù)據(jù)集的情況而定義。如何計算訓(xùn)練集和測試集中主題之間相關(guān)性的計算方法是本文的一個關(guān)鍵問題。本文將共同主題作為一個橋梁,以....
圖2 三種標(biāo)引方法在IPC分類號為的D06、E03數(shù)據(jù)集上的ROC曲線
本文也對各個方法在各個數(shù)據(jù)集上的標(biāo)引結(jié)果進行了分析,具體分析的方法是通過繪制不同方法在同一個數(shù)據(jù)集上的ROC曲線來評價的,ROC曲線下方的面積用AUC值來表示,一般來說,AUC的值越大,表明該方法在這個數(shù)據(jù)集上的分類效果越好。圖2顯示了三種分類方法在本文實驗過程中的ROC曲線圖。....
本文編號:4024605
本文鏈接:http://www.wukwdryxk.cn/tushudanganlunwen/4024605.html
教材專著