支持動態(tài)頁面的快速URL提取方法研究
發(fā)布時間:2024-11-02 02:42
Web2.0技術(shù)在互聯(lián)網(wǎng)上的出現(xiàn)以及社交平臺的興起,極大的促進了動態(tài)網(wǎng)頁的使用和普及。動態(tài)網(wǎng)頁中的Ajax技術(shù),實現(xiàn)了客戶端和服務端之間數(shù)據(jù)的異步操作,不僅滿足了新時代的技術(shù)需要,同時也提高了用戶體驗,更是促進了互聯(lián)網(wǎng)的發(fā)展。但是,傳統(tǒng)網(wǎng)絡爬蟲并不能應對動態(tài)網(wǎng)頁帶來的新特征,所以支持動態(tài)頁面的網(wǎng)絡爬蟲的研究就具有了一定實踐意義。對于主題網(wǎng)絡爬蟲而言,噪聲鏈接不僅沒有價值,而且還會占用大量的資源,尤其是網(wǎng)絡爬蟲對噪聲鏈接對應網(wǎng)頁的采集和分析,極大地降低了網(wǎng)絡爬蟲爬取的效率。 針對上述問題,本文的主要研究內(nèi)容如下: 首先,針對動態(tài)網(wǎng)頁中關(guān)鍵技術(shù)Ajax異步操作的原理,解決了如何令網(wǎng)絡爬蟲支持動態(tài)網(wǎng)頁爬取的問題。本文通過HTTP請求獲取到網(wǎng)頁,然后將網(wǎng)頁在本地進行DOM樹的構(gòu)建,進行對腳本的解析和URL的提取,并通過對HtmlUnit的源碼修改來解析需要進行點擊觸發(fā)的腳本,從而解決傳統(tǒng)網(wǎng)絡爬蟲對動態(tài)網(wǎng)頁中動態(tài)生成的URL難以獲取的問題; 其次,由于噪聲鏈接極大地降低了網(wǎng)絡爬蟲的效率,所以本文對網(wǎng)頁噪聲的去除算法進行了研究。傳統(tǒng)的網(wǎng)頁去噪算法針對網(wǎng)頁整體結(jié)構(gòu)進行處理,去噪效率低下。本...
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景和意義
1.2 國內(nèi)外研究發(fā)展以及現(xiàn)狀
1.2.1 動態(tài)頁面解析的研究現(xiàn)狀
1.2.2 網(wǎng)頁去噪技術(shù)的研究現(xiàn)狀
1.3 本文研究的主要內(nèi)容
1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)概念介紹
2.1 Web2.0 技術(shù)簡介
2.2 網(wǎng)頁頁面相關(guān)概念
2.2.1 靜態(tài)頁面簡介
2.2.2 動態(tài)頁面簡介
2.3 動態(tài)網(wǎng)頁頁面涉及的關(guān)鍵技術(shù)介紹
2.3.1 Ajax 技術(shù)基本原理
2.3.2 Ajax 技術(shù)引發(fā)的問題
2.4 性能評價指標
2.5 本章小結(jié)
第3章 支持動態(tài)頁面的網(wǎng)絡爬蟲系統(tǒng)設計
3.1 網(wǎng)絡爬蟲簡介
3.1.1 網(wǎng)絡爬蟲體系結(jié)構(gòu)
3.1.2 網(wǎng)絡爬蟲工作原理
3.1.3 網(wǎng)絡爬蟲搜索策略
3.2 支持動態(tài)頁面網(wǎng)絡爬蟲系統(tǒng)設計
3.2.1 系統(tǒng)架構(gòu)設計
3.2.2 系統(tǒng)技術(shù)難點
3.3 支持動態(tài)頁面涉及的關(guān)鍵技術(shù)
3.3.1 腳本的解析
3.3.2 瀏覽器對象
3.4 本章小結(jié)
第4章 頁面超鏈接快速提取算法
4.1 噪聲鏈接分析
4.1.1 噪聲鏈接簡介
4.1.2 URL 提取效率分析
4.2 直接去噪聲鏈接算法
4.2.1 頁面 DOM 樹結(jié)構(gòu)特征
4.2.2 基于 DOM 樹的方法
4.3 基于聚類的噪聲鏈接去除方法
4.3.1 噪聲鏈接簇的識別
4.3.2 K-means 聚類算法
4.3.3 Single-Pass 算法
4.3.4 基于改進 Single-Pass 算法的噪聲鏈接去除算法
4.4 實驗結(jié)果與分析
4.5 本章小結(jié)
第5章 支持動態(tài)頁面快速 URL 提取系統(tǒng)的實現(xiàn)
5.1 頁面采集模塊
5.1.1 HTTP 協(xié)議簡介
5.1.2 頁面的采集
5.2 頁面解析模塊
5.2.1 腳本嵌入的方式
5.2.2 URL 的提取
5.3 頁面 DOM 支持模塊
5.3.1 Jsoup 簡介
5.3.2 DOM 樹構(gòu)建與操作
5.4 事件觸發(fā)模擬模塊
5.4.1 HtmlUnit 簡介
5.4.2 腳本事件觸發(fā)的處理
5.5 頁面生成模塊
5.6 實驗結(jié)果分析
5.7 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:4008895
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的背景和意義
1.2 國內(nèi)外研究發(fā)展以及現(xiàn)狀
1.2.1 動態(tài)頁面解析的研究現(xiàn)狀
1.2.2 網(wǎng)頁去噪技術(shù)的研究現(xiàn)狀
1.3 本文研究的主要內(nèi)容
1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)概念介紹
2.1 Web2.0 技術(shù)簡介
2.2 網(wǎng)頁頁面相關(guān)概念
2.2.1 靜態(tài)頁面簡介
2.2.2 動態(tài)頁面簡介
2.3 動態(tài)網(wǎng)頁頁面涉及的關(guān)鍵技術(shù)介紹
2.3.1 Ajax 技術(shù)基本原理
2.3.2 Ajax 技術(shù)引發(fā)的問題
2.4 性能評價指標
2.5 本章小結(jié)
第3章 支持動態(tài)頁面的網(wǎng)絡爬蟲系統(tǒng)設計
3.1 網(wǎng)絡爬蟲簡介
3.1.1 網(wǎng)絡爬蟲體系結(jié)構(gòu)
3.1.2 網(wǎng)絡爬蟲工作原理
3.1.3 網(wǎng)絡爬蟲搜索策略
3.2 支持動態(tài)頁面網(wǎng)絡爬蟲系統(tǒng)設計
3.2.1 系統(tǒng)架構(gòu)設計
3.2.2 系統(tǒng)技術(shù)難點
3.3 支持動態(tài)頁面涉及的關(guān)鍵技術(shù)
3.3.1 腳本的解析
3.3.2 瀏覽器對象
3.4 本章小結(jié)
第4章 頁面超鏈接快速提取算法
4.1 噪聲鏈接分析
4.1.1 噪聲鏈接簡介
4.1.2 URL 提取效率分析
4.2 直接去噪聲鏈接算法
4.2.1 頁面 DOM 樹結(jié)構(gòu)特征
4.2.2 基于 DOM 樹的方法
4.3 基于聚類的噪聲鏈接去除方法
4.3.1 噪聲鏈接簇的識別
4.3.2 K-means 聚類算法
4.3.3 Single-Pass 算法
4.3.4 基于改進 Single-Pass 算法的噪聲鏈接去除算法
4.4 實驗結(jié)果與分析
4.5 本章小結(jié)
第5章 支持動態(tài)頁面快速 URL 提取系統(tǒng)的實現(xiàn)
5.1 頁面采集模塊
5.1.1 HTTP 協(xié)議簡介
5.1.2 頁面的采集
5.2 頁面解析模塊
5.2.1 腳本嵌入的方式
5.2.2 URL 的提取
5.3 頁面 DOM 支持模塊
5.3.1 Jsoup 簡介
5.3.2 DOM 樹構(gòu)建與操作
5.4 事件觸發(fā)模擬模塊
5.4.1 HtmlUnit 簡介
5.4.2 腳本事件觸發(fā)的處理
5.5 頁面生成模塊
5.6 實驗結(jié)果分析
5.7 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:4008895
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/4008895.html
最近更新
教材專著