a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

支持動態(tài)頁面的快速URL提取方法研究

發(fā)布時間:2024-11-02 02:42
  Web2.0技術(shù)在互聯(lián)網(wǎng)上的出現(xiàn)以及社交平臺的興起,極大的促進了動態(tài)網(wǎng)頁的使用和普及。動態(tài)網(wǎng)頁中的Ajax技術(shù),實現(xiàn)了客戶端和服務端之間數(shù)據(jù)的異步操作,不僅滿足了新時代的技術(shù)需要,同時也提高了用戶體驗,更是促進了互聯(lián)網(wǎng)的發(fā)展。但是,傳統(tǒng)網(wǎng)絡爬蟲并不能應對動態(tài)網(wǎng)頁帶來的新特征,所以支持動態(tài)頁面的網(wǎng)絡爬蟲的研究就具有了一定實踐意義。對于主題網(wǎng)絡爬蟲而言,噪聲鏈接不僅沒有價值,而且還會占用大量的資源,尤其是網(wǎng)絡爬蟲對噪聲鏈接對應網(wǎng)頁的采集和分析,極大地降低了網(wǎng)絡爬蟲爬取的效率。 針對上述問題,本文的主要研究內(nèi)容如下: 首先,針對動態(tài)網(wǎng)頁中關(guān)鍵技術(shù)Ajax異步操作的原理,解決了如何令網(wǎng)絡爬蟲支持動態(tài)網(wǎng)頁爬取的問題。本文通過HTTP請求獲取到網(wǎng)頁,然后將網(wǎng)頁在本地進行DOM樹的構(gòu)建,進行對腳本的解析和URL的提取,并通過對HtmlUnit的源碼修改來解析需要進行點擊觸發(fā)的腳本,從而解決傳統(tǒng)網(wǎng)絡爬蟲對動態(tài)網(wǎng)頁中動態(tài)生成的URL難以獲取的問題; 其次,由于噪聲鏈接極大地降低了網(wǎng)絡爬蟲的效率,所以本文對網(wǎng)頁噪聲的去除算法進行了研究。傳統(tǒng)的網(wǎng)頁去噪算法針對網(wǎng)頁整體結(jié)構(gòu)進行處理,去噪效率低下。本...

【文章頁數(shù)】:62 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究的背景和意義
    1.2 國內(nèi)外研究發(fā)展以及現(xiàn)狀
        1.2.1 動態(tài)頁面解析的研究現(xiàn)狀
        1.2.2 網(wǎng)頁去噪技術(shù)的研究現(xiàn)狀
    1.3 本文研究的主要內(nèi)容
    1.4 論文結(jié)構(gòu)安排
第2章 相關(guān)概念介紹
    2.1 Web2.0 技術(shù)簡介
    2.2 網(wǎng)頁頁面相關(guān)概念
        2.2.1 靜態(tài)頁面簡介
        2.2.2 動態(tài)頁面簡介
    2.3 動態(tài)網(wǎng)頁頁面涉及的關(guān)鍵技術(shù)介紹
        2.3.1 Ajax 技術(shù)基本原理
        2.3.2 Ajax 技術(shù)引發(fā)的問題
    2.4 性能評價指標
    2.5 本章小結(jié)
第3章 支持動態(tài)頁面的網(wǎng)絡爬蟲系統(tǒng)設計
    3.1 網(wǎng)絡爬蟲簡介
        3.1.1 網(wǎng)絡爬蟲體系結(jié)構(gòu)
        3.1.2 網(wǎng)絡爬蟲工作原理
        3.1.3 網(wǎng)絡爬蟲搜索策略
    3.2 支持動態(tài)頁面網(wǎng)絡爬蟲系統(tǒng)設計
        3.2.1 系統(tǒng)架構(gòu)設計
        3.2.2 系統(tǒng)技術(shù)難點
    3.3 支持動態(tài)頁面涉及的關(guān)鍵技術(shù)
        3.3.1 腳本的解析
        3.3.2 瀏覽器對象
    3.4 本章小結(jié)
第4章 頁面超鏈接快速提取算法
    4.1 噪聲鏈接分析
        4.1.1 噪聲鏈接簡介
        4.1.2 URL 提取效率分析
    4.2 直接去噪聲鏈接算法
        4.2.1 頁面 DOM 樹結(jié)構(gòu)特征
        4.2.2 基于 DOM 樹的方法
    4.3 基于聚類的噪聲鏈接去除方法
        4.3.1 噪聲鏈接簇的識別
        4.3.2 K-means 聚類算法
        4.3.3 Single-Pass 算法
        4.3.4 基于改進 Single-Pass 算法的噪聲鏈接去除算法
    4.4 實驗結(jié)果與分析
    4.5 本章小結(jié)
第5章 支持動態(tài)頁面快速 URL 提取系統(tǒng)的實現(xiàn)
    5.1 頁面采集模塊
        5.1.1 HTTP 協(xié)議簡介
        5.1.2 頁面的采集
    5.2 頁面解析模塊
        5.2.1 腳本嵌入的方式
        5.2.2 URL 的提取
    5.3 頁面 DOM 支持模塊
        5.3.1 Jsoup 簡介
        5.3.2 DOM 樹構(gòu)建與操作
    5.4 事件觸發(fā)模擬模塊
        5.4.1 HtmlUnit 簡介
        5.4.2 腳本事件觸發(fā)的處理
    5.5 頁面生成模塊
    5.6 實驗結(jié)果分析
    5.7 本章小結(jié)
結(jié)論
參考文獻
致謝



本文編號:4008895

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/ydhl/4008895.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2241***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
人人妻人人澡人人爽人人精品电影| 丰满熟女人妻一区二区三| 男女啪啪高潮激烈免费版| 尤物在线精品视频| 国内精品国产成人国产三级| 在线电影av| 无码天堂亚洲国产av麻豆| 日本丰满妇人成熟免费中文字幕 | 国产精品乱码一区二区三| 隆化县| 天堂久久| 日韩2区| 久久69精品久久久久久HB| 免费无码Av片在线观看网站| 在教室伦流澡到高潮H强圩电影 | 无码精品A∨在线观看无广告| 99香蕉国产精品偷在线观看| 麻花豆传媒剧国产MV免费版特色| 欧美日韩人妻精品一区二区三区 | 小少妇BBBBBBBBBBBB| 夜夜爽夜夜叫夜夜高潮| 亚洲精品无码中文久久字幕| 无码人妻精品中文字幕免费| 国语对白嫖老妇胖老太| 天天爽夜夜爽夜夜爽精品视频| 国产日韩精品在线观看| A级毛片在线观看| 国产精品vA在线观看无码不卡| 日本高清在线一区欧美| 免费高清a级毛片在线播放| 精品人妻av无码一区二区三区| 伊人久久大香线蕉AV不卡| 宁南县| 美日韩av| 精品丰满人妻无套内射| 日本pron| 最新偷拍| avtt天堂网| 国产精品成人观看视频| 波多野42部无码喷潮| 天堂√在线中文最新版8|