基于大數(shù)據(jù)平臺(tái)的K12在線教育數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2024-06-08 00:24
近年來,隨著互聯(lián)網(wǎng)的發(fā)展人們產(chǎn)生的數(shù)據(jù)越來越多,為了處理并挖掘這些數(shù)據(jù)的價(jià)值,大數(shù)據(jù)技術(shù)得到了飛速的發(fā)展與應(yīng)用。Hive作為構(gòu)建與大數(shù)據(jù)基礎(chǔ)平臺(tái)之上的開源數(shù)據(jù)應(yīng)用,具有高擴(kuò)展性、高容錯(cuò)性、模式自由的特性,能很好地滿足企業(yè)級(jí)數(shù)據(jù)倉庫地需求。因此,各個(gè)行業(yè)已經(jīng)開始大力建設(shè)基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉庫,通過其對(duì)數(shù)據(jù)進(jìn)行采集、處理挖掘出其潛在的價(jià)值。本論文以K12在線教育的業(yè)務(wù)需求為背景,在充分研究企業(yè)業(yè)務(wù)需求的基礎(chǔ)上,對(duì)基于大數(shù)據(jù)平臺(tái)的K12在線教育數(shù)據(jù)倉庫進(jìn)行了總體的系統(tǒng)架構(gòu)設(shè)計(jì),針對(duì)數(shù)據(jù)處理過程進(jìn)行了數(shù)據(jù)流向框架設(shè)計(jì)及技術(shù)選型。通過大數(shù)據(jù)生態(tài)開源組件搭建并部署Hadoop集群,編寫Flume、Kafka等程序采集課堂埋點(diǎn)日志,使用Java編程語言在日志Etl清洗、轉(zhuǎn)換、脫敏后接入Hive。將已有地Mysql業(yè)務(wù)庫數(shù)據(jù)通過Sqoop導(dǎo)入Hive,采用Shell編程語言開發(fā)數(shù)據(jù)一致性校驗(yàn)?zāi)_本,對(duì)進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行正確性校驗(yàn)。結(jié)合K12在線教育企業(yè)具體的業(yè)務(wù)需求采用維度建模,選取星型模式進(jìn)行數(shù)據(jù)倉庫分層設(shè)計(jì)與開發(fā),最終完成了數(shù)據(jù)倉庫的設(shè)計(jì)與實(shí)現(xiàn),并對(duì)數(shù)據(jù)倉庫實(shí)現(xiàn)的功能進(jìn)行展示與分析。本論文完成...
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 本論文的研究進(jìn)展
1.2.1 數(shù)據(jù)倉庫發(fā)展現(xiàn)狀
1.2.2 K12 在線教育行業(yè)發(fā)展現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文的論文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 大數(shù)據(jù)開源生態(tài)
2.2 大數(shù)據(jù)獲取技術(shù)
2.3 大數(shù)據(jù)平臺(tái)資源管理技術(shù)
2.4 大數(shù)據(jù)處理技術(shù)
2.5 企業(yè)級(jí)數(shù)據(jù)倉庫
2.6 本章小結(jié)
第3章 需求分析與方案設(shè)計(jì)
3.1 需求整理
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)體系設(shè)計(jì)
3.2.1 總體架構(gòu)設(shè)計(jì)
3.2.2 系統(tǒng)功能架構(gòu)
3.2.3 系統(tǒng)技術(shù)選型
3.3 本章小結(jié)
第4章 數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)
4.1 基于虛擬化的大數(shù)據(jù)平臺(tái)搭建
4.1.1 Ambari集群部署
4.1.2 數(shù)據(jù)庫環(huán)境配置
4.2 數(shù)據(jù)接入與處理實(shí)現(xiàn)
4.2.1 數(shù)據(jù)源分析與定義
4.2.2 日志采集與接入HDFS
4.2.3 業(yè)務(wù)庫數(shù)據(jù)導(dǎo)入與導(dǎo)出
4.2.4 實(shí)時(shí)自動(dòng)同步業(yè)務(wù)庫信息至數(shù)據(jù)倉庫
4.2.5 數(shù)據(jù)的一致性校驗(yàn)
4.3 K12 在線教育數(shù)據(jù)倉庫模型設(shè)計(jì)
4.3.1 業(yè)務(wù)主題的劃分
4.3.2 數(shù)據(jù)倉庫模型建模
4.3.3 數(shù)據(jù)倉庫分層設(shè)計(jì)
4.3.4 寬表的設(shè)計(jì)與開發(fā)
4.4 本章小結(jié)
第5章 數(shù)據(jù)倉庫在K12 在線教育領(lǐng)域的驗(yàn)證與實(shí)現(xiàn)
5.1 Hive數(shù)據(jù)倉庫數(shù)據(jù)導(dǎo)入導(dǎo)出驗(yàn)證
5.2 K12 在線教育數(shù)據(jù)倉庫性能分析
5.3 看板與報(bào)表的展示與分析
5.4 課次分析報(bào)告實(shí)時(shí)生成與推送
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3991180
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 本論文的研究進(jìn)展
1.2.1 數(shù)據(jù)倉庫發(fā)展現(xiàn)狀
1.2.2 K12 在線教育行業(yè)發(fā)展現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文的論文的組織結(jié)構(gòu)
第2章 相關(guān)技術(shù)基礎(chǔ)
2.1 大數(shù)據(jù)開源生態(tài)
2.2 大數(shù)據(jù)獲取技術(shù)
2.3 大數(shù)據(jù)平臺(tái)資源管理技術(shù)
2.4 大數(shù)據(jù)處理技術(shù)
2.5 企業(yè)級(jí)數(shù)據(jù)倉庫
2.6 本章小結(jié)
第3章 需求分析與方案設(shè)計(jì)
3.1 需求整理
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)體系設(shè)計(jì)
3.2.1 總體架構(gòu)設(shè)計(jì)
3.2.2 系統(tǒng)功能架構(gòu)
3.2.3 系統(tǒng)技術(shù)選型
3.3 本章小結(jié)
第4章 數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)
4.1 基于虛擬化的大數(shù)據(jù)平臺(tái)搭建
4.1.1 Ambari集群部署
4.1.2 數(shù)據(jù)庫環(huán)境配置
4.2 數(shù)據(jù)接入與處理實(shí)現(xiàn)
4.2.1 數(shù)據(jù)源分析與定義
4.2.2 日志采集與接入HDFS
4.2.3 業(yè)務(wù)庫數(shù)據(jù)導(dǎo)入與導(dǎo)出
4.2.4 實(shí)時(shí)自動(dòng)同步業(yè)務(wù)庫信息至數(shù)據(jù)倉庫
4.2.5 數(shù)據(jù)的一致性校驗(yàn)
4.3 K12 在線教育數(shù)據(jù)倉庫模型設(shè)計(jì)
4.3.1 業(yè)務(wù)主題的劃分
4.3.2 數(shù)據(jù)倉庫模型建模
4.3.3 數(shù)據(jù)倉庫分層設(shè)計(jì)
4.3.4 寬表的設(shè)計(jì)與開發(fā)
4.4 本章小結(jié)
第5章 數(shù)據(jù)倉庫在K12 在線教育領(lǐng)域的驗(yàn)證與實(shí)現(xiàn)
5.1 Hive數(shù)據(jù)倉庫數(shù)據(jù)導(dǎo)入導(dǎo)出驗(yàn)證
5.2 K12 在線教育數(shù)據(jù)倉庫性能分析
5.3 看板與報(bào)表的展示與分析
5.4 課次分析報(bào)告實(shí)時(shí)生成與推送
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3991180
本文鏈接:http://www.wukwdryxk.cn/jiaoyulunwen/ktjx/3991180.html
最近更新
教材專著