基于ChIP-seq和芯片數(shù)據(jù)的順式調(diào)控模體與功能模塊預(yù)測(cè)
發(fā)布時(shí)間:2020-12-02 10:56
生物技術(shù)尤其是高通量測(cè)序技術(shù)的發(fā)展使得人們能夠更加方便地獲取海量的生物數(shù)據(jù)。然而生物數(shù)據(jù)的爆炸式增長(zhǎng)給人們帶來(lái)無(wú)限發(fā)展機(jī)遇的同時(shí),也使人們深切地體會(huì)到大數(shù)據(jù)信息挖掘帶來(lái)的巨大挑戰(zhàn)。在這種形勢(shì)下,生物信息學(xué)等交叉學(xué)科應(yīng)運(yùn)而生,并在生命科學(xué)領(lǐng)域發(fā)揮著日益重要的作用。在生物信息學(xué)的框架中,數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等理論工具的潛能借助于高性能計(jì)算機(jī)和數(shù)據(jù)庫(kù)等平臺(tái)得以充分發(fā)揮,使得人們能夠有效地解決一系列大規(guī)模生物數(shù)據(jù)上的挖掘問(wèn)題。組學(xué)是分子生物學(xué)發(fā)展到一定階段的產(chǎn)物。系統(tǒng)論思想的推廣使人們不再?gòu)膫(gè)體的角度來(lái)分析某個(gè)分子或者某類遺傳物質(zhì)。相反地,人們傾向于把具有某個(gè)特定功能的個(gè)體以及它們之間的關(guān)聯(lián)關(guān)系整合為一個(gè)系統(tǒng),旨在從整體的角度系統(tǒng)性地挖掘有價(jià)值的信息;蚪M學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)就是典型的代表。其中,基因組學(xué)是所有組學(xué)中應(yīng)用最廣泛、影響最長(zhǎng)遠(yuǎn)的分支。盡管生物體內(nèi)幾乎所有的細(xì)胞含有同樣的基因,然而它們卻分化成了不同形態(tài),發(fā)揮著不同功能。其原因在于基因并不是在每個(gè)細(xì)胞中都表達(dá),而控制基因表達(dá)的開(kāi)關(guān)就是轉(zhuǎn)錄因子。轉(zhuǎn)錄因子是一類特殊的蛋白質(zhì),它能夠通過(guò)與基因的啟動(dòng)子、增強(qiáng)子或靜默子區(qū)域...
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:138 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2?六個(gè)算法在模擬數(shù)據(jù)集Di?D6l的性能比較
山東大學(xué)博士學(xué)位論文??驗(yàn)p>0.05)。然而,與?ProSampler?(60)相比,BioPrsopector?(56)和?motifRG??(52)識(shí)別的模體數(shù)量相對(duì)較少。從圖2.2H還可以看出,隨著模體濃度的增大,??ProSampler識(shí)別模體位點(diǎn)的性能隨之提高。然而,其他四個(gè)算法并沒(méi)有出現(xiàn)類似??的規(guī)律。當(dāng)模體濃度大于0.3的時(shí)候,其他算法的性能甚至下降并出現(xiàn)較大波動(dòng)。??這種現(xiàn)象與直觀理解相背離,其原因有待進(jìn)一步探宄。圖2.2展示的一系列分析??表明,ProSampler在模擬數(shù)據(jù)上不僅具備高效性,還具備準(zhǔn)確性和穩(wěn)健性。??JASPAR?ProSampler??gli2?^CCALqi.-?.ciCCACsCxs??POU3F4?xAI?q^aAt?TAT?q4At??圖2.3?案例:ProSampler在0!中預(yù)測(cè)的模體GLI2和POU3F4的丨ogo以及JASPAR??中對(duì)應(yīng)的兩個(gè)模體的logo。??§?2.3?ProSampler算法在ChIP-seq數(shù)據(jù)上的測(cè)評(píng)??本節(jié)中,我們將ProSampler與六個(gè)模體識(shí)別算法一BioProspector、DREME、??XXmotif、Homer、motifRG?和?Dimont?在不同序列長(zhǎng)度(200bp、500bp?和?1000??bp)的ChIP-seq數(shù)據(jù)上的性能進(jìn)行測(cè)評(píng),并比較了上述算法在運(yùn)行效率和識(shí)別??主模體、合作模體、潛在合作模體(Putative?Co-Operative?Motif)以及模體長(zhǎng)度??方面的性能。本節(jié)的主要內(nèi)容包括:數(shù)據(jù)處理、參數(shù)設(shè)定、測(cè)評(píng)方案和結(jié)果分析。??2.3.1?數(shù)據(jù)處理??為了測(cè)試五個(gè)算法的性能和效率
山東大學(xué)博士學(xué)位論文??序列從中點(diǎn)(峰頂)往兩端分別延伸100?bp、250?bp和500?bp得到同序列長(zhǎng)度的數(shù)據(jù)集系列,即:Gi?(200bp)、G2?(500bp)和G3?(1所有數(shù)據(jù)均以BED格式存儲(chǔ)。BED文件格式是一種高效的DNA序,它主要記錄了序列所在的染色體編號(hào)、序列起點(diǎn)形式、序列終點(diǎn)形鏈信息。某些BED文件還記錄了序列質(zhì)量的信息(例如:p值和信號(hào)值
本文編號(hào):2895194
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:138 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2?六個(gè)算法在模擬數(shù)據(jù)集Di?D6l的性能比較
山東大學(xué)博士學(xué)位論文??驗(yàn)p>0.05)。然而,與?ProSampler?(60)相比,BioPrsopector?(56)和?motifRG??(52)識(shí)別的模體數(shù)量相對(duì)較少。從圖2.2H還可以看出,隨著模體濃度的增大,??ProSampler識(shí)別模體位點(diǎn)的性能隨之提高。然而,其他四個(gè)算法并沒(méi)有出現(xiàn)類似??的規(guī)律。當(dāng)模體濃度大于0.3的時(shí)候,其他算法的性能甚至下降并出現(xiàn)較大波動(dòng)。??這種現(xiàn)象與直觀理解相背離,其原因有待進(jìn)一步探宄。圖2.2展示的一系列分析??表明,ProSampler在模擬數(shù)據(jù)上不僅具備高效性,還具備準(zhǔn)確性和穩(wěn)健性。??JASPAR?ProSampler??gli2?^CCALqi.-?.ciCCACsCxs??POU3F4?xAI?q^aAt?TAT?q4At??圖2.3?案例:ProSampler在0!中預(yù)測(cè)的模體GLI2和POU3F4的丨ogo以及JASPAR??中對(duì)應(yīng)的兩個(gè)模體的logo。??§?2.3?ProSampler算法在ChIP-seq數(shù)據(jù)上的測(cè)評(píng)??本節(jié)中,我們將ProSampler與六個(gè)模體識(shí)別算法一BioProspector、DREME、??XXmotif、Homer、motifRG?和?Dimont?在不同序列長(zhǎng)度(200bp、500bp?和?1000??bp)的ChIP-seq數(shù)據(jù)上的性能進(jìn)行測(cè)評(píng),并比較了上述算法在運(yùn)行效率和識(shí)別??主模體、合作模體、潛在合作模體(Putative?Co-Operative?Motif)以及模體長(zhǎng)度??方面的性能。本節(jié)的主要內(nèi)容包括:數(shù)據(jù)處理、參數(shù)設(shè)定、測(cè)評(píng)方案和結(jié)果分析。??2.3.1?數(shù)據(jù)處理??為了測(cè)試五個(gè)算法的性能和效率
山東大學(xué)博士學(xué)位論文??序列從中點(diǎn)(峰頂)往兩端分別延伸100?bp、250?bp和500?bp得到同序列長(zhǎng)度的數(shù)據(jù)集系列,即:Gi?(200bp)、G2?(500bp)和G3?(1所有數(shù)據(jù)均以BED格式存儲(chǔ)。BED文件格式是一種高效的DNA序,它主要記錄了序列所在的染色體編號(hào)、序列起點(diǎn)形式、序列終點(diǎn)形鏈信息。某些BED文件還記錄了序列質(zhì)量的信息(例如:p值和信號(hào)值
本文編號(hào):2895194
本文鏈接:http://www.wukwdryxk.cn/projectlw/swxlw/2895194.html
最近更新
教材專著