GPU上的同步機(jī)制及圖匹配方法研究
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2CPU與GPU架構(gòu)對(duì)比圖
ectX10GPU的出現(xiàn),使得通用計(jì)算圖形)開(kāi)始被較多的科研工作者應(yīng)用。但GPGPU編程性低;序開(kāi)發(fā)難度大。兩處弊端,傳統(tǒng)的GPGPU未能被開(kāi)發(fā)人點(diǎn),提高其可用性,在一些研究學(xué)者的基礎(chǔ)計(jì)算設(shè)備架構(gòu)編程模型(即CUDA),旨在充
圖2-3grid,block與thread三者之間關(guān)系圖
該block被劃分成大小為32的線程調(diào)度單元。因此,在實(shí)際編程過(guò)程中,線程塊中線程的個(gè)數(shù)推薦使用32的倍數(shù),以便更高效的利用資源。GPU線程以grid的形式組織,每個(gè)grid中包含若干線程塊,即SMs。同一block中的眾多thread具有相同的指....
圖2-5未經(jīng)過(guò)轉(zhuǎn)置的矩陣乘法運(yùn)算的部分線程分布圖
Cache命中失效。對(duì)后者矩陣進(jìn)行轉(zhuǎn)置,可解決上述問(wèn)題lano[36]研究發(fā)現(xiàn)在同一block中的所有線程,若相鄰的線程能夠依順序連續(xù)讀取物理內(nèi)存上相鄰位置的數(shù)值,則GPU上讀取內(nèi)存數(shù)大減少。在CUDA應(yīng)用程序中,block中的線程分布如圖2-5所示需要讀取矩....
圖2-6經(jīng)轉(zhuǎn)置之后的矩陣乘法運(yùn)算的部分線程分布圖
涉及到的與圖相關(guān)的幾個(gè)定義,又闡述GPU硬件平臺(tái),GPU上U上并行計(jì)算的映射方式做了簡(jiǎn)單
本文編號(hào):3986979
本文鏈接:http://www.wukwdryxk.cn/kejilunwen/jisuanjikexuelunwen/3986979.html