基于網(wǎng)絡(luò)媒體的食品安全數(shù)據(jù)采集與處理研究
發(fā)布時間:2024-06-04 22:20
食品安全作為關(guān)乎國計民生的重要社會問題,始終是業(yè)界的研究熱點(diǎn)。隨著信息技術(shù)的不斷發(fā)展,研究怎樣將相關(guān)技術(shù)手段應(yīng)用于食品安全領(lǐng)域成為了一種新的研究思路。網(wǎng)絡(luò)媒體作為一種公共數(shù)據(jù)源,其本身蘊(yùn)含有豐富的各類信息。如果能利用技術(shù)手段從網(wǎng)絡(luò)媒體中采集食品安全相關(guān)數(shù)據(jù),并對其進(jìn)行信息處理以發(fā)掘其內(nèi)在價值,必將有利于解決食品安全問題,促進(jìn)社會的穩(wěn)定發(fā)展。本文以網(wǎng)絡(luò)媒體中存在的食品安全文本數(shù)據(jù)作為研究對象,針對其數(shù)據(jù)采集與信息處理方法展開研究工作。首先分析了網(wǎng)絡(luò)媒體中存在的食品安全數(shù)據(jù)的內(nèi)容特點(diǎn),然后制定評價標(biāo)準(zhǔn)對各種不同類型的食品安全數(shù)據(jù)進(jìn)行評判,并以此為依據(jù)選定具體研究對象與數(shù)據(jù)采集來源;其次提出一種基于Scrapy的數(shù)據(jù)采集方案,詳細(xì)闡述了其構(gòu)建與實現(xiàn)方法,并利用該方案從選定網(wǎng)站中采集包括食品安全新聞報道、食品檢測通告、食品安全刑事裁判文書在內(nèi)的三種食品安全文本數(shù)據(jù)作為具體研究對象;然后介紹了針對食品安全數(shù)據(jù)的信息處理方法,主要內(nèi)容包括數(shù)據(jù)預(yù)處理方法、基于BERT關(guān)鍵詞嵌入的文本篩選方法、基于BiLSTMCRF的命名實體提取方法、基于正則表達(dá)式的信息提取方法以及基于Text Rank的文本摘要提...
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)
1.2.2 信息處理技術(shù)
1.2.3 相關(guān)技術(shù)在食品安全領(lǐng)域的應(yīng)用
1.3 本文主要研究內(nèi)容與工作安排
第二章 食品安全數(shù)據(jù)采集方法研究
2.1 采集對象及來源確定
2.1.1 網(wǎng)絡(luò)媒體中的食品安全數(shù)據(jù)類型分析
2.1.2 具體研究對象選擇
2.1.3 數(shù)據(jù)采集來源選擇
2.2 基于Scrapy的數(shù)據(jù)采集方案
2.2.1 Scrapy的結(jié)構(gòu)與原理
2.2.2 基于Beautifulsoup4 的頁面分析方法
2.2.3 爬蟲整體設(shè)計
2.2.4 爬蟲實現(xiàn)方法
2.3 采集成果展示
2.4 本章小結(jié)
第三章 食品安全信息處理方法研究
3.1 數(shù)據(jù)預(yù)處理方法
3.2 基于BERT關(guān)鍵詞嵌入的文本篩選方法
3.2.1 基于TF-IDF的關(guān)鍵詞提取方法
3.2.2 BERT詞嵌入模型
3.2.3 文檔向量計算方法
3.2.4 SVM分類器
3.2.5 實驗及結(jié)果分析
3.3 基于BILSTM-CRF的命名實體提取方法
3.3.1 LSTM與 BiLSTM的結(jié)構(gòu)與原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名實體提取模型
3.3.4 實驗及結(jié)果分析
3.4 基于正則表達(dá)式的信息提取方法
3.4.1 正則表達(dá)式基本原理
3.4.2 正則表達(dá)式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理與使用步驟
3.5.2 提取效果及分析
3.6 本章小結(jié)
第四章 食品安全數(shù)據(jù)結(jié)構(gòu)化處理及可視化方法研究
4.1 食品安全數(shù)據(jù)結(jié)構(gòu)化處理方法
4.1.1 結(jié)構(gòu)化模板設(shè)計
4.1.2 結(jié)構(gòu)化處理流程
4.1.3 數(shù)據(jù)結(jié)構(gòu)化效果
4.2 基于ECharts的可視化方案
4.2.1 ECharts基本特性與使用方法
4.2.2 食品安全新聞報道詞云圖構(gòu)建方法
4.2.3 食品-非法添加劑關(guān)系圖構(gòu)建方法
4.2.4 食品安全違法事件地圖構(gòu)建方法
4.3 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
附錄 A
附錄 B
在學(xué)期間的研究成果
致謝
本文編號:3989250
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)
1.2.2 信息處理技術(shù)
1.2.3 相關(guān)技術(shù)在食品安全領(lǐng)域的應(yīng)用
1.3 本文主要研究內(nèi)容與工作安排
第二章 食品安全數(shù)據(jù)采集方法研究
2.1 采集對象及來源確定
2.1.1 網(wǎng)絡(luò)媒體中的食品安全數(shù)據(jù)類型分析
2.1.2 具體研究對象選擇
2.1.3 數(shù)據(jù)采集來源選擇
2.2 基于Scrapy的數(shù)據(jù)采集方案
2.2.1 Scrapy的結(jié)構(gòu)與原理
2.2.2 基于Beautifulsoup4 的頁面分析方法
2.2.3 爬蟲整體設(shè)計
2.2.4 爬蟲實現(xiàn)方法
2.3 采集成果展示
2.4 本章小結(jié)
第三章 食品安全信息處理方法研究
3.1 數(shù)據(jù)預(yù)處理方法
3.2 基于BERT關(guān)鍵詞嵌入的文本篩選方法
3.2.1 基于TF-IDF的關(guān)鍵詞提取方法
3.2.2 BERT詞嵌入模型
3.2.3 文檔向量計算方法
3.2.4 SVM分類器
3.2.5 實驗及結(jié)果分析
3.3 基于BILSTM-CRF的命名實體提取方法
3.3.1 LSTM與 BiLSTM的結(jié)構(gòu)與原理
3.3.2 CRF原理
3.3.3 BiLSTM-CRF命名實體提取模型
3.3.4 實驗及結(jié)果分析
3.4 基于正則表達(dá)式的信息提取方法
3.4.1 正則表達(dá)式基本原理
3.4.2 正則表達(dá)式使用方法
3.4.3 提取效果及分析
3.5 基于Text Rank的文本摘要提取方法
3.5.1 Text Rank算法原理與使用步驟
3.5.2 提取效果及分析
3.6 本章小結(jié)
第四章 食品安全數(shù)據(jù)結(jié)構(gòu)化處理及可視化方法研究
4.1 食品安全數(shù)據(jù)結(jié)構(gòu)化處理方法
4.1.1 結(jié)構(gòu)化模板設(shè)計
4.1.2 結(jié)構(gòu)化處理流程
4.1.3 數(shù)據(jù)結(jié)構(gòu)化效果
4.2 基于ECharts的可視化方案
4.2.1 ECharts基本特性與使用方法
4.2.2 食品安全新聞報道詞云圖構(gòu)建方法
4.2.3 食品-非法添加劑關(guān)系圖構(gòu)建方法
4.2.4 食品安全違法事件地圖構(gòu)建方法
4.3 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 研究展望
參考文獻(xiàn)
附錄 A
附錄 B
在學(xué)期間的研究成果
致謝
本文編號:3989250
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/xiangmuguanli/3989250.html
最近更新
教材專著