基于主題的數(shù)據(jù)API檢索平臺(tái)關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)
本文選題:互聯(lián)網(wǎng)文檔數(shù)據(jù) 切入點(diǎn):數(shù)據(jù)API 出處:《浙江大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:在當(dāng)前的互聯(lián)網(wǎng)時(shí)代,存在著數(shù)據(jù)增長(zhǎng)迅速,然而信息龐雜,用戶想要從海量數(shù)據(jù)中搜索有用的信息費(fèi)時(shí)費(fèi)力的問題。用戶需要的是更詳細(xì)、細(xì)分的信息,針對(duì)這種情況,本文提出了一種基于主題的數(shù)據(jù)API檢索平臺(tái)。本文設(shè)計(jì)的分布式、可擴(kuò)展的基于主題的數(shù)據(jù)API檢索平臺(tái),首先將海量的互聯(lián)網(wǎng)信息采集到子系統(tǒng)中,然后對(duì)數(shù)據(jù)進(jìn)行分類,對(duì)每一類的數(shù)據(jù)通過檢索的方式提供給用戶,用戶通過選取自己感興趣的信息來消費(fèi)平臺(tái)中的數(shù)據(jù)。為了提供這樣一個(gè)數(shù)據(jù)API檢索平臺(tái),首先是能夠?qū)⒋罅康木W(wǎng)頁抓取下來,并且需要此功能支持水平擴(kuò)展和穩(wěn)定性。此外為了減少人工成本,又能有效的提取網(wǎng)頁中的信息,本文提出了半自動(dòng)化的基于模板的網(wǎng)頁信息提取方法。面對(duì)海量的互聯(lián)網(wǎng)文檔數(shù)據(jù),需要提供一種合理的方式對(duì)數(shù)據(jù)進(jìn)行分類,以便用戶有針對(duì)性的選擇對(duì)自己有用的數(shù)據(jù)。為此,本文設(shè)計(jì)了基于主題的數(shù)據(jù)分類和檢索系統(tǒng)。通過基于LDA主題模型來推斷文檔中的主題分布,然后根據(jù)主題分布建立相應(yīng)的API主題和相應(yīng)的API-Key?紤]到API主題及對(duì)應(yīng)的API-Key數(shù)據(jù)量很大,所以需要對(duì)這些API主題提供檢索方式,通過基于相似度的方式來對(duì)檢索出來的API主題進(jìn)行排序,最后將API主題及其對(duì)應(yīng)的結(jié)果數(shù)據(jù)集返回給用戶。本平臺(tái)提供多方面的數(shù)據(jù),通過簡(jiǎn)單的API接口提供給用戶,不論是科研還是商業(yè)用戶,都可以消費(fèi)該平臺(tái)中的數(shù)據(jù)。最后通過實(shí)驗(yàn)分析,證明本平臺(tái)具有一定的科研和商業(yè)價(jià)值。
[Abstract]:In the current era of the Internet, there is a rapid growth of data, but the quantity of information, the user wants to search data from the mass of useful information and time-consuming problem. Users need more detailed information, segmentation, in view of this situation, this paper proposes a retrieval platform theme data based on API. This paper designed the distributed, scalable data retrieval platform based on the API theme, the massive Internet information collection subsystem, and then classify the data provided to the user for each type of data through the retrieval, user consumption platform using the data in the selected information of interest to them. In order to provide such a API data retrieval platform, the first is to a large number of web crawling down, and this supports horizontal expansion and stability. In order to reduce labor costs, but also can effectively. Take the information in the web page, proposed web information extraction method based on template semi automation. The face of the Internet document data, the need to provide a reasonable way to classify the data, so that users targeted selection of useful data on their own. Therefore, this paper designs the data classification and retrieval based on based on the LDA system. Through the topic model to infer the topic distribution of the document, and then establish the corresponding distribution according to the theme of API themes and corresponding API-Key. considering the amount of data and the corresponding API-Key API theme is very big, so need to provide the retrieval of these API theme, through the similarity based method to sort the retrieved API theme finally, the API theme and the corresponding results are returned to the user. The data set provides many data of the platform, available to the user through a simple API interface, Whether it is scientific or business users, the platform can consume data. Finally, through experimental analysis, it proved that this platform has a certain scientific and commercial value.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計(jì)算機(jī)應(yīng)用;2008年01期
2 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
3 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
4 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
5 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
6 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
7 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
8 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
9 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
相關(guān)會(huì)議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前5條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
5 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D];浙江大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
,本文編號(hào):1625603
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/1625603.html