基于區(qū)域塊密度的網(wǎng)頁信息抽取技術(shù)在移動網(wǎng)站開發(fā)中的研究與實現(xiàn)
【學(xué)位單位】:中國海洋大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2014
【中圖分類】:TP393.092
【文章目錄】:
摘要
Abstract
緒論
1.1 課題研究背景和意義
1.2 國內(nèi)外發(fā)展現(xiàn)狀
1.3 研究思路及內(nèi)容
1.4 論文組織結(jié)構(gòu)
2. 網(wǎng)頁信息抽取概念及相關(guān)技術(shù)介紹
2.1 網(wǎng)頁信息抽取概念
2.2 網(wǎng)頁信息抽取技術(shù)關(guān)鍵步驟
2.3 網(wǎng)頁信息抽取相關(guān)技術(shù)介紹
2.3.1 基于網(wǎng)頁視覺特征的網(wǎng)頁信息抽取技術(shù)
2.3.2 基于 DOM 樹的網(wǎng)頁信息抽取技術(shù)
2.3.3 基于包裝器的網(wǎng)頁信息抽取技術(shù)
2.3.4 基于 XSLT 模板的網(wǎng)頁信息抽取技術(shù)
2.4 網(wǎng)頁信息抽取評價標(biāo)準(zhǔn)
2.5 本章小結(jié)
3. 網(wǎng)頁信息抽取流程建模
3.1 網(wǎng)頁類型分類
3.2 URL 相似度匹配
3.3 網(wǎng)頁類型判斷
3.4 網(wǎng)頁抽取流程
3.5 本章小結(jié)
4. 基于區(qū)域塊密度的網(wǎng)頁正文抽取算法
4.1 算法的原理及流程
4.1.1 網(wǎng)頁預(yù)處理
4.1.2 區(qū)域塊密度函數(shù)
4.2 閾值學(xué)習(xí)
4.3 實驗結(jié)果及分析
4.3.1 實驗方法
4.3.2 結(jié)果分析
4.4 本章小結(jié)
5. 移動網(wǎng)站開發(fā)平臺的設(shè)計與實現(xiàn)
5.1 平臺簡介
5.2 平臺目標(biāo)
5.3 平臺系統(tǒng)架構(gòu)
5.4 平臺關(guān)鍵模塊
5.4.1 網(wǎng)頁源碼獲取與預(yù)處理模塊
5.4.2 網(wǎng)頁類型判別模塊
5.4.3 網(wǎng)頁抽取模塊
5.4.4 網(wǎng)頁緩存模塊
5.4.5 網(wǎng)頁渲染模塊
5.5 運行測試
5.6 運行效果演示
5.7 本章小結(jié)
6. 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 未來研究展望
參考文獻(xiàn)
致謝
個人簡歷
研究成果
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 王茹,宋瀚濤,陸玉昌;Research of Extracting Data from HTML Web Pages Automatically[J];Journal of Beijing Institute of Technology(English Edition);2003年S1期
2 何章鴻;董守斌;;基于XPath的廣告數(shù)據(jù)提取研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2008年02期
3 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2011年01期
4 ;A Method of Eliminating Noises in Web Pages by Style Tree Model and Its Applications[J];Wuhan University Journal of Natural Sciences;2004年05期
5 ;A Survey of Web Information Systems and Applications[J];Wuhan University Journal of Natural Sciences;2006年05期
6 高嶺;趙朋朋;崔志明;;Deep Web查詢接口的自動判定[J];計算機(jī)技術(shù)與發(fā)展;2007年05期
7 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計與實現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2009年02期
本文編號:2887517
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/2887517.html