基于LSTM和遷移學(xué)習(xí)的網(wǎng)頁主題分類方法研究與實(shí)現(xiàn)
【圖文】:
新疆大學(xué)碩士學(xué)位論文crapy Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(m Pipeline)、下載中間件(Downloader Middlewares)、Spide架的核心,它負(fù)責(zé)爬蟲、管道、下載器、調(diào)度器之間的通訊、負(fù)責(zé)接收引擎發(fā)過來的請(qǐng)求,,并按照一定的方式進(jìn)行整理排列要時(shí)交還給引擎。下載器負(fù)責(zé)下載引擎發(fā)送的所有請(qǐng)求,并將se 交換給引擎,由引擎交給爬蟲來處理。爬蟲負(fù)責(zé)處理所有 R提取數(shù)據(jù),獲取 Item 字段需要的數(shù)據(jù),并將需要跟進(jìn)的 URL入調(diào)度器。管道負(fù)責(zé)處理爬蟲中獲取到的 Item,并進(jìn)行后期的過濾、存儲(chǔ)等)。下載中間件是一個(gè)可以自定義擴(kuò)展下載功能件是一個(gè)可以自定義擴(kuò)展和操作引擎與爬蟲之間通信的功能
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP393.092;TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉景云;;追尋網(wǎng)頁上“閃動(dòng)”的音樂[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2017年12期
2 老萬;;加快網(wǎng)頁文件的加載速度[J];電腦愛好者;2015年12期
3 吳陽陽;封化民;胡雪;楊發(fā)智;;網(wǎng)頁文件信息隱藏技術(shù)安全性研究[J];北京電子科技學(xué)院學(xué)報(bào);2014年04期
4 啟動(dòng);;淺談網(wǎng)頁文件引用[J];網(wǎng)絡(luò)與信息;2006年05期
5 張啟宇;朱玲;車忠志;;網(wǎng)頁文件元數(shù)據(jù)的自動(dòng)提取[J];電腦與電信;2008年04期
6 柳林;輕松保存網(wǎng)頁文件五法[J];電腦愛好者;2003年17期
7 陸莉;;隱蔽網(wǎng)頁資源的挖掘利用探究[J];福建圖書館理論與實(shí)踐;2008年03期
8 ;Script精簡專家——ScriptCleaner[J];網(wǎng)絡(luò)與信息;2003年03期
9 黃小花;;淺析網(wǎng)頁的頭部內(nèi)容[J];電腦與電信;2019年05期
10 孫小英;;試論網(wǎng)頁設(shè)計(jì)的基本規(guī)范和常用技巧[J];數(shù)碼世界;2017年11期
相關(guān)會(huì)議論文 前4條
1 莊昭程;;高職《網(wǎng)頁美工》課程教學(xué)的幾點(diǎn)建議[A];中國職協(xié)2017年度優(yōu)秀科研成果獲獎(jiǎng)?wù)撐募ㄒ欢泉?jiǎng))[C];2018年
2 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁入侵檢測技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
3 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
4 劉世杰;唐世渭;楊冬青;王騰蛟;李立宇;;基于XML技術(shù)的Web信息提取和集成[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
相關(guān)重要報(bào)紙文章 前10條
1 ;網(wǎng)頁防篡改的回顧與展望[N];中國計(jì)算機(jī)報(bào);2019年
2 馬坤;用VB判斷網(wǎng)頁文件是否在IE緩存中[N];電腦報(bào);2004年
3 何詠明 尹有仁;用VFP管理網(wǎng)頁文件[N];中國計(jì)算機(jī)報(bào);2001年
4 福建省工商行政管理局 王粟洋;網(wǎng)頁證據(jù)的“三維取證法”[N];中國醫(yī)藥報(bào);2018年
5 湖北 馮曉玲;快速調(diào)用記事本編輯網(wǎng)頁文件[N];電腦報(bào);2003年
6 王兆和;到秘密花園里“摘”煙花[N];中國電腦教育報(bào);2004年
7 江蘇 韶亞軍;WPS 2000妙用五則[N];電腦報(bào);2001年
8 ;網(wǎng)上購物安全手冊[N];人民政協(xié)報(bào);2000年
9 山東 劉紅軍;自己的事自己處理[N];中國電腦教育報(bào);2002年
10 浙江 楓葉子;多彩鏈接靚起來[N];電腦報(bào);2003年
相關(guān)博士學(xué)位論文 前1條
1 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 庫爾班·麥麥提;基于LSTM和遷移學(xué)習(xí)的網(wǎng)頁主題分類方法研究與實(shí)現(xiàn)[D];新疆大學(xué);2019年
2 周文文;基于文本語義圖的網(wǎng)頁分類算法研究[D];江蘇科技大學(xué);2019年
3 鞠亮;基于關(guān)鍵詞自學(xué)習(xí)的中文網(wǎng)頁分類技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2017年
4 姜康;基于響應(yīng)式的移動(dòng)端網(wǎng)頁界面設(shè)計(jì)與實(shí)現(xiàn)[D];中南民族大學(xué);2016年
5 程元X;基于URL+文本的網(wǎng)頁主題分類模型研究[D];武漢郵電科學(xué)研究院;2018年
6 曹亞男;WEB代理系統(tǒng)網(wǎng)頁噪音信息識(shí)別與過濾技術(shù)研究[D];哈爾濱工程大學(xué);2015年
7 李維旺;基于網(wǎng)頁重構(gòu)的網(wǎng)絡(luò)用戶體驗(yàn)優(yōu)化研究與實(shí)現(xiàn)[D];電子科技大學(xué);2018年
8 章俊;深網(wǎng)數(shù)據(jù)爬取關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2018年
9 劉江;網(wǎng)頁篡改監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年
10 李宗峰;網(wǎng)頁隱秘通信及其檢測與防護(hù)干擾方法[D];中國科學(xué)技術(shù)大學(xué);2017年
本文編號(hào):2614627
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/zidonghuakongzhilunwen/2614627.html