并行程序性能故障的檢測與規(guī)避
發(fā)布時間:2024-06-01 11:16
在并行程序已廣泛應(yīng)用于各行各業(yè)的當(dāng)代社會,保障并行程序的高效運行尤為重要。然而,系統(tǒng)軟硬件故障和共享資源爭搶等因素會導(dǎo)致并行程序出現(xiàn)性能故障,造成大量資源浪費,甚至帶來無法估量的損失。因此,如何檢測與規(guī)避并行程序的性能故障已成為亟待解決的重要問題。盡管國內(nèi)外已有相關(guān)研究,但現(xiàn)有工作仍存在諸多不足,集中體現(xiàn)在:檢測性能故障時,引入的性能開銷過大,檢測結(jié)果不易解讀;規(guī)避性能故障時,對程序特征和系統(tǒng)特性的考慮不夠全面。為更好地解決并行程序性能故障的檢測與規(guī)避這一問題,本文研究如何低開銷地在線檢測性能故障并給出直觀易讀的檢測結(jié)果,以及如何根據(jù)程序特征和系統(tǒng)特性進(jìn)行針對性的性能故障規(guī)避。具體而言,本文的主要創(chuàng)新成果包括:(1)提出了利用并行程序源代碼中的負(fù)載不變代碼段進(jìn)行性能故障在線檢測的技術(shù)VSENSOR。VSENSOR通過編譯器技術(shù)自動識別重復(fù)執(zhí)行且各次執(zhí)行時負(fù)載量不變的代碼段,并將其視作并行程序內(nèi)部的性能基準(zhǔn)測試程序,從而利用并行程序的源代碼進(jìn)行性能故障檢測,而不需要依賴外部測試程序。VSENSOR引入的運行時性能開銷低于4%,平均為1.99%。(2)提出了可用于生產(chǎn)環(huán)境的輕量級性能故障在...
【文章頁數(shù)】:131 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
主要符號對照表
第1章 引言
1.1 研究背景與意義
1.2 并行程序性能故障的來源和變化趨勢
1.2.1 系統(tǒng)部件故障導(dǎo)致程序性能故障
1.2.2 共享資源爭搶導(dǎo)致程序性能故障
1.2.3 性能故障問題日益嚴(yán)重
1.3 檢測與規(guī)避并行程序性能故障的主要挑戰(zhàn)
1.4 本文的主要貢獻(xiàn)
1.5 本文的主要內(nèi)容與組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 性能故障的分析與檢測
2.1.1 性能故障來源分析
2.1.2 系統(tǒng)噪聲
2.1.3 利用性能模型檢測程序性能故障
2.1.4 利用程序日志檢測程序性能故障
2.1.5 開發(fā)者引起的程序故障檢測
2.1.6 利用PMU分析程序
2.1.7 程序結(jié)構(gòu)分析
2.2 多個并行程序間的資源共享與性能故障規(guī)避
2.2.1 批處理作業(yè)的資源共享
2.2.2 考慮服務(wù)質(zhì)量(QoS)的資源共享
2.2.3 獲取并行程序的資源需求
2.2.4 并行程序資源需求的差異
2.3 單個程序內(nèi)的線程同步優(yōu)化與性能故障規(guī)避
2.3.1 基于共享內(nèi)存的互斥鎖
2.3.2 臨界區(qū)任務(wù)委托
2.3.3 新型體系結(jié)構(gòu)上的鎖和委托
2.3.4 其他線程同步優(yōu)化機制
第3章 VSENSOR: 基于源代碼分析的性能故障在線檢測技術(shù)
3.1 本章概述
3.2 整體架構(gòu)
3.3 編譯期間識別探針代碼段
3.3.1 探針代碼段的定義
3.3.2 過程內(nèi)分析
3.3.3 過程間分析
3.3.4 多進(jìn)程分析
3.3.5 并行程序的完整分析
3.4 探針代碼段的插樁
3.5 運行時性能故障檢測算法
3.5.1 數(shù)據(jù)平滑
3.5.2 性能歸一化
3.5.3 基于歷史信息的性能比較
3.5.4 多進(jìn)程分析
3.5.5 性能故障報告
3.6 實驗評估
3.6.1 實驗設(shè)計
3.6.2 正確性驗證與性能開銷
3.6.3 探針代碼段的分布
3.6.4 性能故障注入實驗
3.6.5 案例研究
3.7 本章小結(jié)
第4章 VAPRO: 基于運行狀態(tài)分析的性能故障在線檢測技術(shù)
4.1 本章概述
4.2 整體設(shè)計
4.3 程序結(jié)構(gòu)分析
4.4 程序負(fù)載推斷
4.4.1 計算負(fù)載推斷
4.4.2 通信負(fù)載推斷
4.5 性能故障檢測
4.5.1 負(fù)載聚類算法
4.5.2 同類負(fù)載的性能比較
4.5.3 跨進(jìn)程分析與在線分析
4.6 實驗評估
4.6.1 實驗設(shè)計
4.6.2 性能開銷
4.6.3 檢測覆蓋率
4.6.4 案例研究
4.7 本章小結(jié)
第5章 UBERUN: 基于差異化資源調(diào)度規(guī)避進(jìn)程間資源爭搶
5.1 本章概述
5.2 并行程序的資源爭搶與需求差異
5.2.1 分散放置進(jìn)程后的性能變化
5.2.2 內(nèi)存帶寬爭搶
5.2.3 末級緩存容量爭搶
5.2.4 處理器頻率
5.2.5 網(wǎng)絡(luò)通信
5.3 系統(tǒng)概覽
5.3.1 問題定義
5.3.2 相關(guān)術(shù)語
5.3.3 整體方案與系統(tǒng)整體架構(gòu)
5.4 系統(tǒng)設(shè)計
5.4.1 程序性能數(shù)據(jù)采集
5.4.2 單程序進(jìn)程分散
5.4.3 確定分散系數(shù)后的資源需求估計
5.4.4 作業(yè)調(diào)度與資源分配
5.5 系統(tǒng)實現(xiàn)
5.5.1 原型系統(tǒng)實現(xiàn)細(xì)節(jié)
5.5.2 生產(chǎn)環(huán)境實現(xiàn)需求
5.6 實驗評估
5.6.1 實驗設(shè)計
5.6.2 整體性能
5.6.3 宜分散作業(yè)比例的影響
5.6.4 大規(guī)模集群的模擬分析
5.7 本章小結(jié)
第6章 PLOCK: 基于顯式核間通信規(guī)避互斥鎖相關(guān)資源爭搶
6.1 本章概述
6.2 背景介紹
6.2.1 SW26010處理器的顯式核間通信機制
6.2.2 EMP互斥鎖的工作原理
6.3 設(shè)計與優(yōu)化
6.3.1 鎖的鏈?zhǔn)絺鬟f
6.3.2 鎖服務(wù)器分層結(jié)構(gòu)
6.3.3 PLOCK的設(shè)計
6.4 面向SW26010處理器的實現(xiàn)
6.5 實驗評估與討論
6.5.1 實驗設(shè)計
6.5.2 基礎(chǔ)測試
6.5.3 案例研究
6.5.4 改進(jìn)方向
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 本文工作總結(jié)
7.2 進(jìn)一步研究方向
參考文獻(xiàn)
致謝
個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3985809
【文章頁數(shù)】:131 頁
【學(xué)位級別】:博士
【文章目錄】:
摘要
Abstract
主要符號對照表
第1章 引言
1.1 研究背景與意義
1.2 并行程序性能故障的來源和變化趨勢
1.2.1 系統(tǒng)部件故障導(dǎo)致程序性能故障
1.2.2 共享資源爭搶導(dǎo)致程序性能故障
1.2.3 性能故障問題日益嚴(yán)重
1.3 檢測與規(guī)避并行程序性能故障的主要挑戰(zhàn)
1.4 本文的主要貢獻(xiàn)
1.5 本文的主要內(nèi)容與組織結(jié)構(gòu)
第2章 相關(guān)工作
2.1 性能故障的分析與檢測
2.1.1 性能故障來源分析
2.1.2 系統(tǒng)噪聲
2.1.3 利用性能模型檢測程序性能故障
2.1.4 利用程序日志檢測程序性能故障
2.1.5 開發(fā)者引起的程序故障檢測
2.1.6 利用PMU分析程序
2.1.7 程序結(jié)構(gòu)分析
2.2 多個并行程序間的資源共享與性能故障規(guī)避
2.2.1 批處理作業(yè)的資源共享
2.2.2 考慮服務(wù)質(zhì)量(QoS)的資源共享
2.2.3 獲取并行程序的資源需求
2.2.4 并行程序資源需求的差異
2.3 單個程序內(nèi)的線程同步優(yōu)化與性能故障規(guī)避
2.3.1 基于共享內(nèi)存的互斥鎖
2.3.2 臨界區(qū)任務(wù)委托
2.3.3 新型體系結(jié)構(gòu)上的鎖和委托
2.3.4 其他線程同步優(yōu)化機制
第3章 VSENSOR: 基于源代碼分析的性能故障在線檢測技術(shù)
3.1 本章概述
3.2 整體架構(gòu)
3.3 編譯期間識別探針代碼段
3.3.1 探針代碼段的定義
3.3.2 過程內(nèi)分析
3.3.3 過程間分析
3.3.4 多進(jìn)程分析
3.3.5 并行程序的完整分析
3.4 探針代碼段的插樁
3.5 運行時性能故障檢測算法
3.5.1 數(shù)據(jù)平滑
3.5.2 性能歸一化
3.5.3 基于歷史信息的性能比較
3.5.4 多進(jìn)程分析
3.5.5 性能故障報告
3.6 實驗評估
3.6.1 實驗設(shè)計
3.6.2 正確性驗證與性能開銷
3.6.3 探針代碼段的分布
3.6.4 性能故障注入實驗
3.6.5 案例研究
3.7 本章小結(jié)
第4章 VAPRO: 基于運行狀態(tài)分析的性能故障在線檢測技術(shù)
4.1 本章概述
4.2 整體設(shè)計
4.3 程序結(jié)構(gòu)分析
4.4 程序負(fù)載推斷
4.4.1 計算負(fù)載推斷
4.4.2 通信負(fù)載推斷
4.5 性能故障檢測
4.5.1 負(fù)載聚類算法
4.5.2 同類負(fù)載的性能比較
4.5.3 跨進(jìn)程分析與在線分析
4.6 實驗評估
4.6.1 實驗設(shè)計
4.6.2 性能開銷
4.6.3 檢測覆蓋率
4.6.4 案例研究
4.7 本章小結(jié)
第5章 UBERUN: 基于差異化資源調(diào)度規(guī)避進(jìn)程間資源爭搶
5.1 本章概述
5.2 并行程序的資源爭搶與需求差異
5.2.1 分散放置進(jìn)程后的性能變化
5.2.2 內(nèi)存帶寬爭搶
5.2.3 末級緩存容量爭搶
5.2.4 處理器頻率
5.2.5 網(wǎng)絡(luò)通信
5.3 系統(tǒng)概覽
5.3.1 問題定義
5.3.2 相關(guān)術(shù)語
5.3.3 整體方案與系統(tǒng)整體架構(gòu)
5.4 系統(tǒng)設(shè)計
5.4.1 程序性能數(shù)據(jù)采集
5.4.2 單程序進(jìn)程分散
5.4.3 確定分散系數(shù)后的資源需求估計
5.4.4 作業(yè)調(diào)度與資源分配
5.5 系統(tǒng)實現(xiàn)
5.5.1 原型系統(tǒng)實現(xiàn)細(xì)節(jié)
5.5.2 生產(chǎn)環(huán)境實現(xiàn)需求
5.6 實驗評估
5.6.1 實驗設(shè)計
5.6.2 整體性能
5.6.3 宜分散作業(yè)比例的影響
5.6.4 大規(guī)模集群的模擬分析
5.7 本章小結(jié)
第6章 PLOCK: 基于顯式核間通信規(guī)避互斥鎖相關(guān)資源爭搶
6.1 本章概述
6.2 背景介紹
6.2.1 SW26010處理器的顯式核間通信機制
6.2.2 EMP互斥鎖的工作原理
6.3 設(shè)計與優(yōu)化
6.3.1 鎖的鏈?zhǔn)絺鬟f
6.3.2 鎖服務(wù)器分層結(jié)構(gòu)
6.3.3 PLOCK的設(shè)計
6.4 面向SW26010處理器的實現(xiàn)
6.5 實驗評估與討論
6.5.1 實驗設(shè)計
6.5.2 基礎(chǔ)測試
6.5.3 案例研究
6.5.4 改進(jìn)方向
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 本文工作總結(jié)
7.2 進(jìn)一步研究方向
參考文獻(xiàn)
致謝
個人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號:3985809
本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xxkjbs/3985809.html
最近更新
教材專著