HDFS高可用性方案的優(yōu)化與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-12-09 04:47
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,越來越多的數(shù)據(jù)在后臺(tái)服務(wù)器中產(chǎn)生。如何科學(xué)地存儲(chǔ)這些海量數(shù)據(jù)成了當(dāng)前行業(yè)面臨的挑戰(zhàn)之一。近些年,隨著大數(shù)據(jù)技術(shù)的迭代與發(fā)展,分布式文件存儲(chǔ)系統(tǒng)HDFS(Hadoop Distributed File System)得到了業(yè)界廣泛的認(rèn)可與應(yīng)用。但當(dāng)前版本的HDFS為了保證系統(tǒng)的高可用性所采用的主-從架構(gòu)的多副本機(jī)制只能剛剛滿足了基本功能需求,在應(yīng)對(duì)單點(diǎn)故障和數(shù)據(jù)存儲(chǔ)利用率這兩個(gè)方面還存在著不少優(yōu)化空間。針對(duì)上述兩個(gè)問題,本文做了以下工作:(1)提出了一種基于局部校驗(yàn)糾刪碼算法的HDFS數(shù)據(jù)存儲(chǔ)策略。通過對(duì)HDFS當(dāng)前版本的研究與分析,系統(tǒng)采用的是對(duì)原始數(shù)據(jù)創(chuàng)建副本的方式來避免因某些節(jié)點(diǎn)失效而導(dǎo)致的數(shù)據(jù)丟失問題。不難看出,在今天這個(gè)信息量俱增的互聯(lián)網(wǎng)時(shí)代,副本策略需要消耗大量的底層硬件存儲(chǔ)設(shè)備。所以本文提出一種基于局部校驗(yàn)糾刪碼算法的HDFS數(shù)據(jù)存儲(chǔ)策略。該算法相較于副本策略能夠顯著降低磁盤的存儲(chǔ)開銷,而在對(duì)失效數(shù)據(jù)的重構(gòu)過程又不像RS編碼一樣需要從各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)中拉取所有剩余數(shù)據(jù),與EVENODD編碼與X編碼這一類陣列碼相比,改進(jìn)算法在數(shù)據(jù)節(jié)點(diǎn)的個(gè)數(shù)上設(shè)置更加靈活。(...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
編碼時(shí)間在圖3.6中,圖的橫坐標(biāo)為文件大小,縱坐標(biāo)為編碼時(shí)間
圖 3.7 單個(gè)數(shù)據(jù)塊丟失文件重構(gòu)時(shí)間 3.7 所示,范德蒙德 RS 編碼在單個(gè)數(shù)據(jù)塊丟失后重構(gòu)原數(shù)據(jù)所耗費(fèi)的時(shí)間碼相較于范德蒙德 RS 編碼,有一定的優(yōu)化。而得益于分組校驗(yàn)思想的 H在重構(gòu)原數(shù)據(jù)時(shí)不需要從各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上拉取所有剩余文件分塊,從而獲小結(jié)先介紹了兩種當(dāng)前最常用的保障數(shù)據(jù)可靠性的冗余策略,分別是備份策略解釋了為什么云計(jì)算、大數(shù)據(jù)領(lǐng)域在底層數(shù)據(jù)存儲(chǔ)方面更適合采用基于糾略。接著介紹了一種在分布式存儲(chǔ)領(lǐng)域中常用的糾刪碼算法——RS 糾刪碼不同,它又分為范德蒙德 RS 編碼和柯西 RS 編碼,并陳述了其各自的優(yōu)缺礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了一種 HDFS-LRC 局部校驗(yàn)算法。該算法可以在分組中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保證最終贏得選舉的 NameNode 服務(wù)器擁有比大多數(shù)投票者更完整的日志記錄。經(jīng)過上面步驟選舉出領(lǐng)導(dǎo)者 NameNode 后,新的領(lǐng)導(dǎo)者 NameNode 會(huì)不斷地向跟隨ameNode 發(fā)送包含自己日志信息的心跳消息。跟隨者 NameNode 根據(jù)接收到的心跳消息除所有跟領(lǐng)導(dǎo)者 NameNode 不同的日志記錄,并將所有丟失的日志記錄依照領(lǐng)導(dǎo)者的日行補(bǔ)足。.4主備節(jié)點(diǎn)切換測(cè)試在同一臺(tái)服務(wù)器上,分別對(duì) Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 個(gè)不同數(shù)量級(jí)的文件上進(jìn)行了多備節(jié)點(diǎn)切換測(cè)試,切換時(shí)間對(duì)比情況如圖 4.7 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的云計(jì)算平臺(tái)研究與實(shí)現(xiàn)[J]. 范素娟,田軍鋒. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(07)
[2]云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)研究[J]. 張樂. 電子技術(shù)與軟件工程. 2015(23)
[3]基于內(nèi)存云架構(gòu)的帶寬負(fù)載均衡算法[J]. 劉建礦,于炯,英昌甜,魯亮. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(11)
[4]基于范德蒙碼的HDFS優(yōu)化存儲(chǔ)策略研究[J]. 宋寶燕,王俊陸,王妍. 計(jì)算機(jī)學(xué)報(bào). 2015(09)
[5]利用Zookeeper對(duì)HDFS中Namenode單點(diǎn)失敗的改進(jìn)方法[J]. 魯陽,鄭巖. 軟件. 2012(12)
[6]Namenode單點(diǎn)故障解決方案研究[J]. 鄧鵬,李枚毅,何誠. 計(jì)算機(jī)工程. 2012(21)
[7]分布式文件系統(tǒng)中元數(shù)據(jù)管理機(jī)制的研究[J]. 蒙安泰. 電腦知識(shí)與技術(shù). 2011(35)
碩士論文
[1]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學(xué) 2013
[2]基于HDFS的分布式Namenode節(jié)點(diǎn)模型的研究[D]. 李寬.華南理工大學(xué) 2011
本文編號(hào):2906299
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
編碼時(shí)間在圖3.6中,圖的橫坐標(biāo)為文件大小,縱坐標(biāo)為編碼時(shí)間
圖 3.7 單個(gè)數(shù)據(jù)塊丟失文件重構(gòu)時(shí)間 3.7 所示,范德蒙德 RS 編碼在單個(gè)數(shù)據(jù)塊丟失后重構(gòu)原數(shù)據(jù)所耗費(fèi)的時(shí)間碼相較于范德蒙德 RS 編碼,有一定的優(yōu)化。而得益于分組校驗(yàn)思想的 H在重構(gòu)原數(shù)據(jù)時(shí)不需要從各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)上拉取所有剩余文件分塊,從而獲小結(jié)先介紹了兩種當(dāng)前最常用的保障數(shù)據(jù)可靠性的冗余策略,分別是備份策略解釋了為什么云計(jì)算、大數(shù)據(jù)領(lǐng)域在底層數(shù)據(jù)存儲(chǔ)方面更適合采用基于糾略。接著介紹了一種在分布式存儲(chǔ)領(lǐng)域中常用的糾刪碼算法——RS 糾刪碼不同,它又分為范德蒙德 RS 編碼和柯西 RS 編碼,并陳述了其各自的優(yōu)缺礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了一種 HDFS-LRC 局部校驗(yàn)算法。該算法可以在分組中的某
(lastTermfollower>lastTermcandidate)||((lastTermfollower==lastTermcandidate)&&(lastIndexfollower>lastTermcandidate))可以保證最終贏得選舉的 NameNode 服務(wù)器擁有比大多數(shù)投票者更完整的日志記錄。經(jīng)過上面步驟選舉出領(lǐng)導(dǎo)者 NameNode 后,新的領(lǐng)導(dǎo)者 NameNode 會(huì)不斷地向跟隨ameNode 發(fā)送包含自己日志信息的心跳消息。跟隨者 NameNode 根據(jù)接收到的心跳消息除所有跟領(lǐng)導(dǎo)者 NameNode 不同的日志記錄,并將所有丟失的日志記錄依照領(lǐng)導(dǎo)者的日行補(bǔ)足。.4主備節(jié)點(diǎn)切換測(cè)試在同一臺(tái)服務(wù)器上,分別對(duì) Secondary NameNode 方案、Buckup Node 方案、Avatar 方扁平化 NameNode 方案在 1000、5000、10000 和 15000 個(gè)不同數(shù)量級(jí)的文件上進(jìn)行了多備節(jié)點(diǎn)切換測(cè)試,切換時(shí)間對(duì)比情況如圖 4.7 所示。
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的云計(jì)算平臺(tái)研究與實(shí)現(xiàn)[J]. 范素娟,田軍鋒. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(07)
[2]云計(jì)算環(huán)境下的分布存儲(chǔ)關(guān)鍵技術(shù)研究[J]. 張樂. 電子技術(shù)與軟件工程. 2015(23)
[3]基于內(nèi)存云架構(gòu)的帶寬負(fù)載均衡算法[J]. 劉建礦,于炯,英昌甜,魯亮. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(11)
[4]基于范德蒙碼的HDFS優(yōu)化存儲(chǔ)策略研究[J]. 宋寶燕,王俊陸,王妍. 計(jì)算機(jī)學(xué)報(bào). 2015(09)
[5]利用Zookeeper對(duì)HDFS中Namenode單點(diǎn)失敗的改進(jìn)方法[J]. 魯陽,鄭巖. 軟件. 2012(12)
[6]Namenode單點(diǎn)故障解決方案研究[J]. 鄧鵬,李枚毅,何誠. 計(jì)算機(jī)工程. 2012(21)
[7]分布式文件系統(tǒng)中元數(shù)據(jù)管理機(jī)制的研究[J]. 蒙安泰. 電腦知識(shí)與技術(shù). 2011(35)
碩士論文
[1]HDFS高可用性方案的研究與優(yōu)化[D]. 韓佩.西北大學(xué) 2013
[2]基于HDFS的分布式Namenode節(jié)點(diǎn)模型的研究[D]. 李寬.華南理工大學(xué) 2011
本文編號(hào):2906299
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/2906299.html
最近更新
教材專著