地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)與文本信息分析
【學(xué)位單位】:中國(guó)地質(zhì)大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:P628
【部分圖文】:
法和技術(shù)條件有不同的需求,因此需要制定一個(gè)個(gè)性化的大數(shù)據(jù)分析與處理系統(tǒng)從而可以為社會(huì)公眾提供更好的需求服務(wù)。本文著力解決大數(shù)據(jù)文本數(shù)據(jù)的語(yǔ)種障礙,在公共域互聯(lián)網(wǎng)獲取不同語(yǔ)種的專題信息,便于不同國(guó)籍公眾間的數(shù)據(jù)共享服務(wù),因此本章通過對(duì)大數(shù)據(jù)概念與特點(diǎn),以及地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)的介紹,提出文本地質(zhì)大數(shù)據(jù)發(fā)現(xiàn)的理論模型。2.1 大數(shù)據(jù)概念及特點(diǎn)李國(guó)杰等(2011)在進(jìn)行的相關(guān)研究中對(duì)大數(shù)據(jù)的定義是,在一定的時(shí)間范圍內(nèi)無法采用傳統(tǒng)的技術(shù)方法來對(duì)數(shù)據(jù)信息進(jìn)行感知和有效處理的一組數(shù)據(jù)集合。這也充分說明了大數(shù)據(jù)是一個(gè)體量非常大的數(shù)據(jù)信息集合,在大數(shù)據(jù)中數(shù)據(jù)的種類是非常龐雜的,對(duì)這些海量的數(shù)據(jù)無法采用傳統(tǒng)的數(shù)據(jù)庫(kù)工具以及數(shù)據(jù)處理方法來進(jìn)行內(nèi)容的抓取與管理。自 2011 年以來不同的學(xué)者、機(jī)構(gòu)一直在總結(jié)這大數(shù)據(jù)的特點(diǎn),簡(jiǎn)單來說,大數(shù)據(jù)具有 5V 的特點(diǎn),如圖 2-1 所示。
圖 2-2 文本大數(shù)據(jù)發(fā)現(xiàn)模式流程圖各環(huán)節(jié)之間環(huán)環(huán)相扣,詳細(xì)闡述如下:(1)數(shù)據(jù)發(fā)現(xiàn):主要是通過互聯(lián)網(wǎng)技術(shù)來對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行快速查詢檢索。在地質(zhì)大數(shù)據(jù)進(jìn)行研究過程中首要解決的問題就是如何實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速尋找與發(fā)現(xiàn),通過設(shè)計(jì)數(shù)據(jù)發(fā)現(xiàn)模塊可以優(yōu)化了傳統(tǒng)的使用搜索引擎進(jìn)行數(shù)據(jù)查詢以及數(shù)據(jù)獲取的方式。該模塊描述了互聯(lián)網(wǎng)地質(zhì)數(shù)據(jù)獲取原理,依托需求結(jié)構(gòu)樹,構(gòu)建關(guān)鍵詞結(jié)構(gòu)樹與網(wǎng)址結(jié)構(gòu)樹,在此基礎(chǔ)上雙向檢索數(shù)據(jù),并利用大數(shù)據(jù)采集技術(shù)的方法獲取與提取數(shù)據(jù),提出了其中存在的相關(guān)問題,最終生成專題信息數(shù)據(jù),為數(shù)據(jù)清洗與數(shù)據(jù)分析工作奠定了基礎(chǔ)。(2)數(shù)據(jù)清洗:這個(gè)過程主要是對(duì)已經(jīng)發(fā)現(xiàn)并檢索到的數(shù)據(jù)進(jìn)一步的整理,從而可以為接下來的大數(shù)據(jù)分析提供更好地服務(wù)。在該模塊中主要是根據(jù)數(shù)據(jù)分析的需求對(duì)數(shù)據(jù)的格式以及數(shù)據(jù)種類進(jìn)行整理,把一些不滿足需求的數(shù)據(jù)進(jìn)行剔
圖 3-1 專題信息數(shù)據(jù)發(fā)現(xiàn)的主要流程3.1.2. 關(guān)鍵詞結(jié)構(gòu)樹與網(wǎng)址結(jié)構(gòu)樹在公共域互聯(lián)網(wǎng)上發(fā)現(xiàn)數(shù)據(jù),目前大部分用戶選擇通過搜索引擎進(jìn)行查詢(如百度、搜狗等)。而這樣查詢出來的數(shù)據(jù)過于依賴輸入的關(guān)鍵詞,并且不能保證數(shù)據(jù)的全面性,同時(shí),搜索得出的數(shù)據(jù)結(jié)果包括許多其他類型的數(shù)據(jù),如Word 文檔、圖片、聲像等非相關(guān)性數(shù)據(jù),根據(jù)查詢結(jié)果發(fā)現(xiàn)不能滿足研究需要,如圖 3-2 所示。假設(shè)數(shù)據(jù)目標(biāo)是地質(zhì)信息產(chǎn)品,通過百度搜索引擎搜索數(shù)據(jù)的結(jié)果如下,并不能得到有意義的數(shù)據(jù)。
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 譚永杰;屈紅剛;文敏;;論地質(zhì)調(diào)查工作大數(shù)據(jù)[J];地理信息世界;2018年02期
2 王強(qiáng);;大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢(shì)[J];電子技術(shù)與軟件工程;2018年05期
3 劉思驛;;大數(shù)據(jù)時(shí)代信息分析的關(guān)鍵問題、挑戰(zhàn)和對(duì)策[J];數(shù)字通信世界;2018年03期
4 孫晶濤;張秋余;;不均衡大數(shù)據(jù)集下的文本特征基因提取方法[J];電子科技大學(xué)學(xué)報(bào);2018年01期
5 孫海雪;陳建平;吳永亮;王恩瑞;;基于大數(shù)據(jù)發(fā)現(xiàn)技術(shù)的國(guó)外地質(zhì)信息服務(wù)跟蹤[J];地質(zhì)學(xué)刊;2017年03期
6 孫海雪;陳建平;鄭嘯;;世界主要發(fā)達(dá)國(guó)家地質(zhì)信息服務(wù)體系的現(xiàn)狀與特點(diǎn)[J];地質(zhì)學(xué)刊;2017年03期
7 王珂;;大數(shù)據(jù)與計(jì)算機(jī)輔助翻譯[J];北方文學(xué);2017年21期
8 文軍;吳曉凱;;找回失去的傳統(tǒng):“大數(shù)據(jù)”研究范式的反思與重構(gòu)[J];新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2018年01期
9 劉海濤;林燕妮;;大數(shù)據(jù)時(shí)代語(yǔ)言研究的方法和趨向[J];新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2018年01期
10 甘瓊;;大數(shù)據(jù)下的云會(huì)計(jì)特征及應(yīng)用[J];中國(guó)集體經(jīng)濟(jì);2017年16期
相關(guān)碩士學(xué)位論文 前10條
1 陳健;我國(guó)大數(shù)據(jù)技術(shù)發(fā)展的政策體系研究[D];云南師范大學(xué);2017年
2 王敏;分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];東南大學(xué);2017年
3 趙悅含;匹茲堡大學(xué)網(wǎng)站翻譯實(shí)踐報(bào)告[D];哈爾濱師范大學(xué);2016年
4 程佳;工業(yè)化、信息化、城鎮(zhèn)化和農(nóng)業(yè)現(xiàn)代化協(xié)調(diào)發(fā)展研究[D];浙江工業(yè)大學(xué);2015年
5 岳雨儉;基于Hadoop分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究[D];安徽理工大學(xué);2015年
6 鄭秋輝;基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)[D];首都師范大學(xué);2014年
7 王亮;地質(zhì)調(diào)查信息化中大數(shù)據(jù)平臺(tái)研究[D];長(zhǎng)江大學(xué);2014年
8 李亞坤;基于網(wǎng)絡(luò)的數(shù)據(jù)清洗技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
9 夏琰;基于數(shù)據(jù)挖掘技術(shù)的稅務(wù)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用平臺(tái)建設(shè)[D];浙江工業(yè)大學(xué);2012年
10 張志軒;互聯(lián)網(wǎng)熱點(diǎn)話題的數(shù)據(jù)采集及數(shù)據(jù)集建立[D];北京郵電大學(xué);2011年
本文編號(hào):2881595
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/diqiudizhi/2881595.html