數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復(fù)方法研究
發(fā)布時間:2021-01-11 15:15
數(shù)據(jù)中心日志是數(shù)據(jù)中心性能優(yōu)化的主要依據(jù)。隨著數(shù)據(jù)中心規(guī)模的增長,數(shù)據(jù)中心日志的數(shù)據(jù)屬性數(shù)量和記錄數(shù)量也在穩(wěn)定增長。在該背景下,數(shù)據(jù)中心日志的數(shù)據(jù)缺失問題日益嚴(yán)重。既有工作對缺失的數(shù)據(jù)的處理方法無法應(yīng)對日志數(shù)據(jù)缺失問題的兩大新挑戰(zhàn):數(shù)據(jù)稀疏性以及數(shù)據(jù)屬性間復(fù)雜的相關(guān)關(guān)系。針對現(xiàn)有工作的不足,本文提出一種面向數(shù)據(jù)中心數(shù)據(jù)稀疏日志的缺失數(shù)據(jù)恢復(fù)方法STDR,基于張量理論對缺失數(shù)據(jù)進(jìn)行恢復(fù),并使用數(shù)據(jù)屬性選取以及離散化優(yōu)化方法來提高數(shù)據(jù)恢復(fù)的準(zhǔn)確度并降低計算開銷。(1)提出了一個數(shù)據(jù)中心大規(guī)模稀疏日志數(shù)據(jù)恢復(fù)框架。本文分析了具有代表性的阿里巴巴數(shù)據(jù)中心日志的數(shù)據(jù)缺失特征。在該缺失特征的基礎(chǔ)上,提出的方法框架包含兩個主要階段,數(shù)據(jù)屬性選取和離散化階段以及張量構(gòu)建和補(bǔ)全階段。數(shù)據(jù)屬性選取和離散化對日志數(shù)據(jù)進(jìn)行預(yù)處理以降低數(shù)據(jù)恢復(fù)的計算開銷并提高準(zhǔn)確率。張量構(gòu)建和補(bǔ)全階段基于張量理論進(jìn)行數(shù)據(jù)恢復(fù)。(2)提出了一個基于調(diào)整互信息的數(shù)據(jù)屬性選取方法。同時考慮候選數(shù)據(jù)屬性與缺失數(shù)據(jù)屬性之間的相關(guān)性,以及選取數(shù)據(jù)屬性之間的冗余性。提出了一個動態(tài)步長數(shù)據(jù)離散化方法。針對數(shù)據(jù)屬性選取和張量補(bǔ)全兩個過程的不同需...
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
阿里巴巴數(shù)據(jù)中心日志批處理作業(yè)信息缺失情況
第 3 章 問題分析與整體設(shè)計測現(xiàn)象 1:對于大多數(shù)批處理任務(wù),它們的 AMU/MMU 數(shù)據(jù)遵循模式。合并后的數(shù)據(jù)表中有 54.3%的任務(wù)出現(xiàn)了 AMU/MMU 數(shù)據(jù)7.7%的任務(wù)丟失了其全部實例的 AMU/MMU 數(shù)據(jù)。歸屬于同一個由于它們擁有完全一致的資源配置,執(zhí)行完全一致的二進(jìn)制代碼,片的數(shù)據(jù),它們的資源利用特種基本相似,即 AMU/MMU 數(shù)值相巴數(shù)據(jù)中心日志未缺失中,相同任務(wù)中的實例 AMU 數(shù)值的變異系,MMU 數(shù)值的變異系數(shù)平均為 0.11)。該觀測現(xiàn)象表明,我們無兄弟實例,即歸屬于同一個任務(wù)的實例的 AMU 數(shù)值來恢復(fù)缺失必須經(jīng)由分析其他任務(wù)實例的 AMU 數(shù)值變化規(guī)律來進(jìn)行恢復(fù)。
圖 3-3 阿里巴巴數(shù)據(jù)中心日志中不同數(shù)據(jù)屬性之間的相關(guān)關(guān)系Figure 3-3 Correlations among attributes inAlibaba batch job trace之間存在線性相關(guān)關(guān)系及非線性相關(guān)關(guān)系。該觀測現(xiàn)象表明,在對缺失數(shù)據(jù)屬性進(jìn)行建模時,應(yīng)選取與之相關(guān)性較高的數(shù)據(jù)屬性子集而非使用全部數(shù)據(jù)屬性,以降低計算開銷。同時,選取高相關(guān)性屬性子集時,同時要考慮到該子集內(nèi)數(shù)據(jù)屬性間信息的冗余問題。另外,在選擇相關(guān)性評價指標(biāo)時,需選擇能同時衡量線性和非線性相關(guān)關(guān)系的指標(biāo)。3.3 數(shù)據(jù)中心日志恢復(fù)問題分析和方法設(shè)計本文針對的數(shù)據(jù)中心日志大比例數(shù)據(jù)缺失問題詳細(xì)地說,是數(shù)據(jù)中心日志中數(shù)值型(numerical)數(shù)據(jù)屬性中出現(xiàn)的大比例的數(shù)據(jù)缺失問題。本文以阿里巴巴數(shù)據(jù)中心日志為切入點展開研究,原因如下:1)作為繼谷歌于 2011 年公布其數(shù)據(jù)中心日之后唯一一個對公眾開放的大規(guī)模數(shù)據(jù)中心日志,阿里巴巴數(shù)據(jù)中心日志在離線負(fù)載內(nèi)存使用量均值與最大值兩個數(shù)據(jù)屬性出現(xiàn)了高達(dá) 88%的數(shù)據(jù)缺
【參考文獻(xiàn)】:
期刊論文
[1]云計算數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計綜述[J]. 王斌鋒,蘇金樹,陳琳. 計算機(jī)研究與發(fā)展. 2016(09)
[2]云計算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢[J]. 鄧維,劉方明,金海,李丹. 計算機(jī)學(xué)報. 2013(03)
[3]面向Internet數(shù)據(jù)中心的資源管理[J]. 張偉,宋瑩,阮利,祝明發(fā),肖利民. 軟件學(xué)報. 2012(02)
[4]多元回歸模型在實際應(yīng)用中的幾種推廣[J]. 項靜恬,郭世琪. 數(shù)理統(tǒng)計與管理. 1994(04)
本文編號:2971010
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
阿里巴巴數(shù)據(jù)中心日志批處理作業(yè)信息缺失情況
第 3 章 問題分析與整體設(shè)計測現(xiàn)象 1:對于大多數(shù)批處理任務(wù),它們的 AMU/MMU 數(shù)據(jù)遵循模式。合并后的數(shù)據(jù)表中有 54.3%的任務(wù)出現(xiàn)了 AMU/MMU 數(shù)據(jù)7.7%的任務(wù)丟失了其全部實例的 AMU/MMU 數(shù)據(jù)。歸屬于同一個由于它們擁有完全一致的資源配置,執(zhí)行完全一致的二進(jìn)制代碼,片的數(shù)據(jù),它們的資源利用特種基本相似,即 AMU/MMU 數(shù)值相巴數(shù)據(jù)中心日志未缺失中,相同任務(wù)中的實例 AMU 數(shù)值的變異系,MMU 數(shù)值的變異系數(shù)平均為 0.11)。該觀測現(xiàn)象表明,我們無兄弟實例,即歸屬于同一個任務(wù)的實例的 AMU 數(shù)值來恢復(fù)缺失必須經(jīng)由分析其他任務(wù)實例的 AMU 數(shù)值變化規(guī)律來進(jìn)行恢復(fù)。
圖 3-3 阿里巴巴數(shù)據(jù)中心日志中不同數(shù)據(jù)屬性之間的相關(guān)關(guān)系Figure 3-3 Correlations among attributes inAlibaba batch job trace之間存在線性相關(guān)關(guān)系及非線性相關(guān)關(guān)系。該觀測現(xiàn)象表明,在對缺失數(shù)據(jù)屬性進(jìn)行建模時,應(yīng)選取與之相關(guān)性較高的數(shù)據(jù)屬性子集而非使用全部數(shù)據(jù)屬性,以降低計算開銷。同時,選取高相關(guān)性屬性子集時,同時要考慮到該子集內(nèi)數(shù)據(jù)屬性間信息的冗余問題。另外,在選擇相關(guān)性評價指標(biāo)時,需選擇能同時衡量線性和非線性相關(guān)關(guān)系的指標(biāo)。3.3 數(shù)據(jù)中心日志恢復(fù)問題分析和方法設(shè)計本文針對的數(shù)據(jù)中心日志大比例數(shù)據(jù)缺失問題詳細(xì)地說,是數(shù)據(jù)中心日志中數(shù)值型(numerical)數(shù)據(jù)屬性中出現(xiàn)的大比例的數(shù)據(jù)缺失問題。本文以阿里巴巴數(shù)據(jù)中心日志為切入點展開研究,原因如下:1)作為繼谷歌于 2011 年公布其數(shù)據(jù)中心日之后唯一一個對公眾開放的大規(guī)模數(shù)據(jù)中心日志,阿里巴巴數(shù)據(jù)中心日志在離線負(fù)載內(nèi)存使用量均值與最大值兩個數(shù)據(jù)屬性出現(xiàn)了高達(dá) 88%的數(shù)據(jù)缺
【參考文獻(xiàn)】:
期刊論文
[1]云計算數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)計綜述[J]. 王斌鋒,蘇金樹,陳琳. 計算機(jī)研究與發(fā)展. 2016(09)
[2]云計算數(shù)據(jù)中心的新能源應(yīng)用:研究現(xiàn)狀與趨勢[J]. 鄧維,劉方明,金海,李丹. 計算機(jī)學(xué)報. 2013(03)
[3]面向Internet數(shù)據(jù)中心的資源管理[J]. 張偉,宋瑩,阮利,祝明發(fā),肖利民. 軟件學(xué)報. 2012(02)
[4]多元回歸模型在實際應(yīng)用中的幾種推廣[J]. 項靜恬,郭世琪. 數(shù)理統(tǒng)計與管理. 1994(04)
本文編號:2971010
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/2971010.html
最近更新
教材專著