基于Hadoop平臺(tái)的數(shù)據(jù)遷移系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1數(shù)據(jù)遷移系統(tǒng)流程圖(Teradata到Hadoop)??
?山東大學(xué)碩士學(xué)位論文???主要功能和流程如圖2-1。??r ̄^?r ̄^????????????????>????Tijaia?-?數(shù)據(jù)抽取+數(shù)據(jù)溝洗—數(shù)賺數(shù)雛驗(yàn)?數(shù)據(jù)臓—?Hado叩??數(shù)據(jù)庫(kù)?|丨?[__?1丨?平臺(tái)???數(shù)鮰傳???圖2-1數(shù)據(jù)遷移系統(tǒng)流程圖(Teradat....
圖2-2系統(tǒng)業(yè)務(wù)架構(gòu)圖??本系統(tǒng)研究的重點(diǎn)是把Teradata中的部分?jǐn)?shù)據(jù)遷移至Hadoop,需要特別注??意的是系統(tǒng)連接和文件讀取
?山東大學(xué)碩士學(xué)位論文???2.4系統(tǒng)業(yè)務(wù)流程分析??結(jié)合企業(yè)現(xiàn)有系統(tǒng)的實(shí)際情況,本系統(tǒng)的處理流程分為三個(gè)域:源數(shù)據(jù)域、??數(shù)據(jù)處理域、目標(biāo)數(shù)據(jù)域,具體架構(gòu)如圖2-2所示。源數(shù)據(jù)域是指待遷移數(shù)據(jù)??所在的業(yè)務(wù)系統(tǒng),在本文中具體是指Teradata數(shù)據(jù)庫(kù)中的接口詳單表、中間匯??總....
圖3-2?MapReduce數(shù)據(jù)處理流程圖??(1)?Ma階段運(yùn)行開(kāi)始前,計(jì)算文件數(shù)量并進(jìn)行分片,每個(gè)分片對(duì)應(yīng)于一??
源。??3丄2?MapReduce數(shù)據(jù)處理流程??MapReduce是一種編程范式,使應(yīng)用程序不需要進(jìn)行復(fù)雜的分布式編程便??可以在分布式系統(tǒng)上執(zhí)行?梢詫ⅲ停幔穑遥澹洌酰悖謇斫鉃楦鶕(jù)某些特征對(duì)無(wú)序數(shù)據(jù)??進(jìn)行歸納匯總,然后按需求進(jìn)行處理以獲得最終結(jié)果。Map階段的任務(wù)主要是??....
圖3-3?Hive數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)圖??用戶(hù)接口:最常見(jiàn)的用戶(hù)接口是Cli,它通過(guò)命令行方式訪問(wèn)Hive,啟動(dòng)時(shí)會(huì)??在Hive中生成一個(gè)副本
?山東大學(xué)碩士學(xué)位論文???用戶(hù)接口??(、Shell/CLI?j?I^IDBC客戶(hù)端?j?l〇DB客戶(hù)端^?(?WEI接口?^??\?'Zff?乂」??Thrift?服務(wù)器?Z??\?(?解析器?)?、/????(?編譯器?)?、??(?^元數(shù)據(jù)庫(kù)??(執(zhí)行器)?^??w??J....
本文編號(hào):3991981
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xixikjs/3991981.html