a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

系統(tǒng)流行病學(xué)網(wǎng)絡(luò)差異比較的統(tǒng)計(jì)方法及其應(yīng)用研究

發(fā)布時(shí)間:2021-04-22 21:37
  對人類疾病遺傳與環(huán)境的病因?qū)W研究一直是流行病學(xué)的重要任務(wù)。然而,傳統(tǒng)"黑盒子"流行病學(xué)往往側(cè)重于識別單一危險(xiǎn)因素,并未聚焦網(wǎng)絡(luò)對疾病的影響,因而難以深層次地探討致病機(jī)制。研究者渴望打開"黑盒子",闡明致病因素如何通過"黑盒子"中的病因鏈環(huán)節(jié)而導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局。高通量組學(xué)技術(shù)的成熟發(fā)展與檢測成本的大幅度減低,使得流行病學(xué)家有機(jī)會(huì)將系統(tǒng)生物學(xué)理論方法與傳統(tǒng)流行病學(xué)有機(jī)結(jié)合,借助于豐富多彩的組學(xué)標(biāo)記在大樣本人群中闡明"暴露"到"疾病結(jié)局"的作用機(jī)制,從而催生了一個(gè)嶄新的流行病學(xué)分支學(xué)科——系統(tǒng)流行病學(xué)。本課題組將系統(tǒng)流行病學(xué)的學(xué)科內(nèi)涵概括為:將高通量組學(xué)技術(shù)與傳統(tǒng)流行病學(xué)研究相互融合,利用基因組(Genome)、表觀組(Epigenome)、轉(zhuǎn)錄組(Transcriptome)、蛋白組(Preteome)、代謝組(Metabolome)、表型組(Phenome)等生物組學(xué)標(biāo)記,結(jié)合生物信息學(xué)網(wǎng)絡(luò)數(shù)據(jù)庫的通路信息,采用系統(tǒng)生物學(xué)方法構(gòu)建"暴露因子-組學(xué)生物標(biāo)記-疾病終點(diǎn)"間的交互網(wǎng)絡(luò),并檢測不同狀態(tài)下(例如疾病組與健康組)網(wǎng)絡(luò)間的差異,以推斷危險(xiǎn)因子導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病網(wǎng)絡(luò)或特定致病通路及其效應(yīng)大小;從而,為進(jìn)一步闡明危險(xiǎn)因子致病通路及流行病學(xué)作用機(jī)制、實(shí)驗(yàn)室功能驗(yàn)證、藥物靶點(diǎn)設(shè)計(jì)、預(yù)防或診療措施制定與評估提供科學(xué)依據(jù)。系統(tǒng)流行病學(xué)為在人群水平上闡明疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機(jī)制描繪了宏偉藍(lán)圖,它將實(shí)現(xiàn)從獨(dú)立病因研究向病因網(wǎng)絡(luò)研究的跨越性轉(zhuǎn)變。在這一轉(zhuǎn)變進(jìn)程中,病因網(wǎng)絡(luò)構(gòu)建與致病通路識別將是打開"黑盒子"的重要策略,而網(wǎng)絡(luò)差異的比較正是獲取致病網(wǎng)絡(luò)及致病通路統(tǒng)計(jì)學(xué)證據(jù)的重要方法。因此,系統(tǒng)流行病學(xué)的核心是在人群水平上通過"暴露因子-組學(xué)生物標(biāo)記-疾病終點(diǎn)"網(wǎng)絡(luò)/通路的組間差異統(tǒng)計(jì)學(xué)比較,推斷危險(xiǎn)因子導(dǎo)致疾病發(fā)生、發(fā)展、轉(zhuǎn)歸的網(wǎng)絡(luò)/通路及其效應(yīng)大小。任何破壞網(wǎng)絡(luò)/通路交互結(jié)構(gòu)的統(tǒng)計(jì)學(xué)比較方法勢必會(huì)丟失信息,失去其系統(tǒng)流行病學(xué)意義。然而,目前在流行病學(xué)研究中,仍以卡方檢驗(yàn)、t檢驗(yàn)或回歸分析等傳統(tǒng)方法作為生物標(biāo)記組間差異比較的主流方法。這些方法武斷地將原本是相互作用(或調(diào)控)的網(wǎng)絡(luò)節(jié)點(diǎn)假定為近似相互獨(dú)立狀態(tài),忽略了它們間的交互網(wǎng)絡(luò)結(jié)構(gòu);所以,除了得到生物標(biāo)記組間差異的基本信息外,既不能得到組間網(wǎng)絡(luò)差異信息,更不能推斷出特定危險(xiǎn)因素的致病通路及其效應(yīng)大小。最近,盡管在一些高質(zhì)量的人群組學(xué)研究中,已經(jīng)注重通過后續(xù)功能實(shí)驗(yàn)驗(yàn)證和生物信息學(xué)方法推斷出調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),但因缺乏組間網(wǎng)絡(luò)差異比較的有效統(tǒng)計(jì)學(xué)方法,也只能定性地分析網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征,仍難以在人群水平上定量推斷危險(xiǎn)因子的致病網(wǎng)絡(luò)/通路及其效應(yīng)大小。因此,發(fā)展網(wǎng)絡(luò)差異比較的統(tǒng)計(jì)分析方法,在人群水平上,比較不同組間的網(wǎng)絡(luò)差異,進(jìn)而推斷危險(xiǎn)因子的致病通路及其效應(yīng)大小,就成為系統(tǒng)流行病學(xué)統(tǒng)計(jì)分析的重要任務(wù)。必須澄清的是,盡管系統(tǒng)流行病學(xué)強(qiáng)調(diào)用高通量組學(xué)分析技術(shù)在人群水平上獲得組學(xué)標(biāo)記大數(shù)據(jù),但在實(shí)際工作中,因研究假設(shè)、目的或條件的不同,常常需要在2種不同研究策略下推斷網(wǎng)絡(luò)差異:1)基于分子流行病學(xué)方法的假設(shè)驅(qū)動(dòng)(Hypothesis-Driven)研究策略:研究者在深入理解所研究疾病的生理、生化及病理機(jī)制基礎(chǔ)上,綜合以往細(xì)胞(動(dòng)物)實(shí)驗(yàn)或組學(xué)分析結(jié)果,借助生物信息學(xué)網(wǎng)絡(luò)數(shù)據(jù)庫通路信息,事先勾畫出一個(gè)假定合理的致病網(wǎng)絡(luò)/通路。進(jìn)而,用分子流行病學(xué)方法檢測網(wǎng)絡(luò)/通路節(jié)點(diǎn)上的生物標(biāo)記,并在人群水平上檢驗(yàn)組間網(wǎng)絡(luò)/通路差異及其效應(yīng)。以期在人群中驗(yàn)證所假設(shè)致病網(wǎng)絡(luò)/通路的真實(shí)性及實(shí)用性(設(shè)計(jì)藥物靶點(diǎn)、預(yù)測疾病發(fā)生預(yù)后、制定及評估預(yù)防或診療策略等)。2)基于高通量組學(xué)技術(shù)的數(shù)據(jù)驅(qū)動(dòng)(Data-Driven)研究策略:研究者在不受任何假設(shè)限制的情況下,利用各種高通量組學(xué)技術(shù),在人群水平上獲得研究樣本的組學(xué)標(biāo)記數(shù)據(jù)。進(jìn)而,借助系統(tǒng)生物學(xué)方法構(gòu)建"暴露因子-組學(xué)生物標(biāo)記-疾病終點(diǎn)"網(wǎng)絡(luò)模型,并在人群水平上檢驗(yàn)"對比組"間網(wǎng)絡(luò)/通路差異及其效應(yīng)。為進(jìn)一步實(shí)驗(yàn)驗(yàn)證、藥物靶點(diǎn)確定、制定預(yù)防或診療措施提供依據(jù)。無論是假設(shè)驅(qū)動(dòng)還是數(shù)據(jù)驅(qū)動(dòng)的研究策略,均存在無向網(wǎng)絡(luò)比較和有向網(wǎng)絡(luò)比較兩種情形。前者側(cè)重點(diǎn)是比較"對比組"間網(wǎng)絡(luò)節(jié)點(diǎn)及其相互作用(相關(guān)關(guān)系)的統(tǒng)計(jì)學(xué)差異,而后者側(cè)重點(diǎn)則是比較網(wǎng)絡(luò)節(jié)點(diǎn)及其調(diào)控關(guān)系的統(tǒng)計(jì)學(xué)差異。因此,系統(tǒng)流行病學(xué)研究中網(wǎng)絡(luò)差異比較的檢驗(yàn)方法,應(yīng)包括無向網(wǎng)絡(luò)比較和有向網(wǎng)絡(luò)比較2種情形。在系統(tǒng)流行病學(xué)研究中,生物網(wǎng)絡(luò)不僅具備復(fù)雜網(wǎng)絡(luò)的一般性質(zhì)(自組織、自相似、吸引子、小世界、無標(biāo)度等),更重要的是,對于多數(shù)復(fù)雜疾病的致病網(wǎng)絡(luò)而言,其"節(jié)點(diǎn)"和"邊"的連續(xù)定量變化譜蘊(yùn)含著網(wǎng)絡(luò)差異的全部信息;即,節(jié)點(diǎn)和邊多不是"全有或全無(1或0)"式的"開或關(guān)"模式,而是多表現(xiàn)為由0 →1的定量漸變式的模式。即使有些基因(如某些致癌基因)在健康狀態(tài)下幾乎不表達(dá)而呈現(xiàn)"全有或全無"模式,其實(shí)質(zhì)也可看作是連續(xù)表達(dá)譜上的一個(gè)極端特殊情形。因此,系統(tǒng)流行病學(xué)網(wǎng)絡(luò)的差異囊括了"節(jié)點(diǎn)"和"邊"的雙重差異,單純"節(jié)點(diǎn)"或單純"邊"的差異遠(yuǎn)不能代表其全部信息的差異。對于有向網(wǎng)絡(luò),網(wǎng)絡(luò)差異絕非僅僅是其"節(jié)點(diǎn)"和"邊"兩部分差異的簡單合并,還應(yīng)充分體現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)所蘊(yùn)含的方向信息,即調(diào)控網(wǎng)絡(luò)內(nèi)"邊"的箭頭指向及"上游節(jié)點(diǎn)"對"下游節(jié)點(diǎn)"的調(diào)控權(quán)重。然而,目前在系統(tǒng)生物學(xué)或人群組學(xué)研究中,現(xiàn)有的網(wǎng)絡(luò)比較算法((或統(tǒng)計(jì)量)多數(shù)未能涵蓋統(tǒng)計(jì)量構(gòu)建中所必需的上述全部信息。因而,不適合推廣到系統(tǒng)流行病學(xué)研究中網(wǎng)絡(luò)差異比較上。存在的問題可概括為如下4個(gè)方面:1)最極端的情況是上述討論過的傳統(tǒng)方法(卡方檢驗(yàn)、t檢驗(yàn)等),它們完全忽略了網(wǎng)絡(luò)的"邊差異信息"。2)系統(tǒng)生物學(xué)中的網(wǎng)絡(luò)比較算法和軟件,多是針對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征指標(biāo),對"邊"進(jìn)行操作而不注重"節(jié)點(diǎn)"信息。主要采取網(wǎng)絡(luò)對齊、網(wǎng)絡(luò)相似性比較或聚類、網(wǎng)絡(luò)路徑搜索等方法比較網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)差異。3)生物信息學(xué)中的生物網(wǎng)絡(luò)比較方法,多數(shù)是對"點(diǎn)"進(jìn)行標(biāo)準(zhǔn)化使其均值為0方差為1后(無疑損失了點(diǎn)的變異信息),再針對"邊"的差異著重檢測"點(diǎn)"之間的連通性,包括通過節(jié)點(diǎn)中心性比較以尋找關(guān)鍵節(jié)點(diǎn)或通路、基于網(wǎng)絡(luò)模體頻率比較網(wǎng)絡(luò)拓?fù)洳町、基于網(wǎng)絡(luò)間不相似性度量構(gòu)建網(wǎng)絡(luò)差異比較統(tǒng)計(jì)量、基因芯片差異表達(dá)連通分析等。4)尚缺乏考慮有向網(wǎng)絡(luò)內(nèi)"邊"的箭頭指向及"上游節(jié)點(diǎn)"對"下游節(jié)點(diǎn)"調(diào)控權(quán)重的有向網(wǎng)絡(luò)比較方法。為解決以上問題,本研究在系統(tǒng)流行病學(xué)框架下,從統(tǒng)計(jì)學(xué)和系統(tǒng)生物學(xué)的雙重視角,審視生物網(wǎng)絡(luò)"節(jié)點(diǎn)"與"邊"共變特征,采取"結(jié)構(gòu)拆分→數(shù)理整合"的研究策略,構(gòu)建融合網(wǎng)絡(luò)"節(jié)點(diǎn)"、"邊"和"方向"差異信息的"系統(tǒng)流行病學(xué)網(wǎng)絡(luò)差異比較的統(tǒng)計(jì)分析方法體系"。圖1是本論文的研究框架。如圖1(1)所示,盡管"對比組"間網(wǎng)絡(luò)差異類型有5種,若將情形b)、c)、d)、e)中節(jié)點(diǎn)或邊的去除或增加均看作是情形a)中的"虛擬"點(diǎn)或邊,則所有情形均可歸屬于情形a);此時(shí)去掉的點(diǎn)或邊的取值為0,而增加的點(diǎn)或邊的取值為其相應(yīng)的節(jié)點(diǎn)測量值及相關(guān)程度。如圖1(2)所示,假設(shè)兩"對比組A、B"的樣本量分別為nA、nB,nA+nB=N 根據(jù)上述"虛擬"點(diǎn)或邊的思想,A、B兩"對比組"對應(yīng)的網(wǎng)絡(luò)均可視為具有M個(gè)節(jié)點(diǎn)K條邊。用GA(VA,EA)表示A組對應(yīng)的網(wǎng)絡(luò),其中VA =(x1A,x2A,…,xMA)為其節(jié)點(diǎn)集合。EA=(IijAσijA)M×M為其邊集合(更詳細(xì)的矩陣表達(dá)形式見圖1),其中,IijA=(?)為示性函數(shù),表示節(jié)點(diǎn) xiA 與xjA之間的連接狀態(tài),即IA=(IijA)M×M在無向網(wǎng)絡(luò)中僅表示節(jié)點(diǎn)xiA與xjA是否連接,此時(shí)IijA= IjiA,而在有向網(wǎng)絡(luò)中,當(dāng)節(jié)點(diǎn) xiA 與xjA的連接狀態(tài)為xiA→xjA(i≠j,xiA,xjA∈ VA)時(shí),IijA=1,IjiA=0,反之亦然;σijA表示節(jié)點(diǎn)xiA 與 xjA之間的連接強(qiáng)度(可用相關(guān)系數(shù)等度量)。相應(yīng)地,GB(VB,EB)表示B組對應(yīng)的網(wǎng)絡(luò),其中VB=(x1B,x2B,…,xMB)為其節(jié)點(diǎn)集合,EB=(IijBσijB)M×M為其邊的集合,而IB=(IijBM)M×M 為連接狀態(tài)集合。本研究構(gòu)建"對比組"間網(wǎng)絡(luò)差異檢驗(yàn)統(tǒng)計(jì)量的基本策略為"結(jié)構(gòu)拆分→數(shù)理整合"。其基本思想是:1)結(jié)構(gòu)拆分:先將對比組A與B的網(wǎng)絡(luò)GA(VA,EA)與GB(VB,EB)的拓?fù)浣Y(jié)構(gòu)分別拆分為節(jié)點(diǎn)信息(VA,VB)、邊信息(EA,EB)和方向信息(IA,IB),再求兩對比組間相應(yīng)的節(jié)點(diǎn)信息、邊信息和方向信息的差值(即效應(yīng))DV =(VA-VB)、DE =(EA-EB)和DI=(IA-IB)。2)數(shù)理整合:通過數(shù)理統(tǒng)計(jì)手段,將節(jié)點(diǎn)信息、邊信息和方向信息的差值(效應(yīng))DV、DE和DI整合為兩"對比組"間網(wǎng)絡(luò)差異(效應(yīng))的統(tǒng)計(jì)量Diff =(DV ∪ DE ∪DI);該統(tǒng)計(jì)量將網(wǎng)絡(luò)的"節(jié)點(diǎn)"、"邊"和"方向"差異信息融為一體。在上述研究策略框架內(nèi)(圖1),本論文針對致病網(wǎng)絡(luò)差異囊括"節(jié)點(diǎn)"、"邊"和"方向"的共變特征,重點(diǎn)研究了以下幾個(gè)關(guān)鍵問題:1)提出網(wǎng)絡(luò)差異比較的"結(jié)構(gòu)拆分→數(shù)理整合"的研究策略。2)整合網(wǎng)絡(luò)"節(jié)點(diǎn)"和"邊"的雙重連續(xù)漸變差異信息,發(fā)展了致病通路識別及其效應(yīng)估計(jì)的統(tǒng)計(jì)推斷模型(第二章)和無向網(wǎng)絡(luò)組間差異比較的得分檢驗(yàn)方法(第三章)。3)整合網(wǎng)絡(luò)"節(jié)點(diǎn)"與"邊"雙重差異信息、以及上下游節(jié)點(diǎn)調(diào)控加權(quán)信息,發(fā)展了"有向網(wǎng)絡(luò)"組間差異比較的檢驗(yàn)方法(第四章)。4)基于聯(lián)合密度估計(jì)的非參數(shù)方法,建立了致病交互網(wǎng)絡(luò)篩選模型并對其預(yù)測效果進(jìn)行了系統(tǒng)評價(jià)(第五章)。具體分述如下:一、致病通路識別及其效應(yīng)估計(jì)的統(tǒng)計(jì)推斷模型研究(第二章)在傳統(tǒng)"黑盒子"流行病學(xué)研究中,通常采用病例對照設(shè)計(jì)或隊(duì)列研究分析暴露危險(xiǎn)因素與疾病的關(guān)聯(lián)性。其策略是通過比較病例組與對照組之間某危險(xiǎn)因子的暴露比例而計(jì)算OR(比如吸煙與肺癌之間的OR=6.5等)或比較暴露組與非暴露組之間的疾病發(fā)病率而計(jì)算RR(比如吸煙與肺癌之間的RR=5.5等),以闡明暴露與疾病的關(guān)聯(lián)強(qiáng)度。這種基于變量獨(dú)立假設(shè)的統(tǒng)計(jì)推斷方法(logistic回歸、Cox回歸等)只能提供危險(xiǎn)因素與疾病之間的關(guān)聯(lián)性及其強(qiáng)度大小,并不能闡明危險(xiǎn)因素通過"黑盒子"導(dǎo)致疾病結(jié)局的病因鏈及其致病通路。然而,在不明確暴露因素導(dǎo)致疾病發(fā)生、發(fā)展與轉(zhuǎn)歸的致病通路或網(wǎng)絡(luò)的情況下,往往很難有效地預(yù)測和評估干預(yù)暴露因素的效果,且難以得出令人信服或可重復(fù)驗(yàn)證的結(jié)論。鑒于此,流行病學(xué)家一直期望能夠打開"黑盒子",并挖掘特定危險(xiǎn)因子致病網(wǎng)絡(luò)或通路。盡管病因網(wǎng)絡(luò)的概念早已被提出,但由于缺乏有效的致病通路識別及其效應(yīng)估計(jì)的統(tǒng)計(jì)推斷方法,流行病學(xué)家一直未能實(shí)現(xiàn)上述夙愿。為此,本研究在上述系統(tǒng)流行病學(xué)研究框架(圖1)下,遵循路徑分析的基本原理,構(gòu)建了識別致病通路并對其進(jìn)行統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)的推斷方法。以病例對照研究為例,其基本理念是:設(shè)病例組中的特定通路為(?),若該通路路徑系數(shù)乘積∏k=1KβkD≠0,則表明暴露(或生物標(biāo)記)X1D可以通過該病因鏈將其效應(yīng)傳遞到生物標(biāo)記Xk+1D,其效應(yīng)量為βD=∏k=1KβkD;同理,對照組中該通路(?)的效應(yīng)量為βC=∏k=1βkC;該通路對疾病的貢獻(xiàn)可用統(tǒng)計(jì)量D=βD-βC=∏k=1KβkD-∏k=1KβkC來測量。當(dāng)H0:D=βD-βC=0成立時(shí),表明上述通路對疾病無效應(yīng)。本研究將統(tǒng)計(jì)模擬與實(shí)例分析有機(jī)結(jié)合,對上述統(tǒng)計(jì)量進(jìn)行了系統(tǒng)科學(xué)的評價(jià)。主要結(jié)果:(1)致病通路識別的檢驗(yàn)統(tǒng)計(jì)量采取如下統(tǒng)計(jì)量構(gòu)建和檢驗(yàn)策略來識別致病通路:1)非參數(shù)bootstrap置信區(qū)間檢驗(yàn)方法,其統(tǒng)計(jì)量PEM-D定義為:(?)其中K為通路長度,表示該通路中有K+1個(gè)節(jié)點(diǎn)(變量)和K條邊,βkD和βkC分別表示病例組與對照組通路中第k個(gè)節(jié)點(diǎn)和第k+1個(gè)節(jié)點(diǎn)之間的標(biāo)準(zhǔn)化回歸系數(shù)(即路徑系數(shù))。采用百分位數(shù)bootstrap置信區(qū)間(percentile bootstrap confidence interval)以及偏差校正后的 bootstrap 置信區(qū)間(bias-corrected bootstrap confidence interval)進(jìn)行非參數(shù)檢驗(yàn),以檢驗(yàn)H0:D=βD-βC =0是否成立。2)漸進(jìn)正態(tài)分布統(tǒng)計(jì)量(PEM-UD):統(tǒng)計(jì)模擬表明,以下統(tǒng)計(jì)量(?)近似服從正態(tài)分布,其中var(βD)和var(βC)分別表示βD和βC的方差,分別采用精確估計(jì)(the exact estimator)方法var(β)exl =∏k=1K(sβk2 +βk2)-∏k=1Kβk2、無偏估計(jì)(unbiased estimator)方法 var(β)unbiased=∏k=1Kβk2=∏k=1K(βk2-sβk2)、多元 delta 估計(jì)(multivariate delta estimator)方法 var(β)mtult-delta=Δcov(β1,β2,…,βK)ΔT(其中Δ =[(?)β/(?)β1,…,(?)β/(?)βK])和bootstrap方法進(jìn)行估計(jì)。(2)統(tǒng)計(jì)模擬針對上述統(tǒng)計(jì)量,在H0:D=βD-βC=0成立的前提下遍歷不同樣本量(n),評估其犯第一類錯(cuò)誤的概率是否穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)α附近。在H1:D=βD-βC≠0成立的條件下,設(shè)定不同樣本量(n),通路長度(K),效應(yīng)大小(δ= βD-βC)以及路徑系數(shù)相關(guān)模式(即路徑系數(shù)向量的取值模式),評估統(tǒng)計(jì)量的檢驗(yàn)效能。模擬結(jié)果顯示:1)統(tǒng)計(jì)量PEM-D采用兩種bootstrap置信區(qū)間檢驗(yàn),統(tǒng)計(jì)量PEM-UD采用四種方法計(jì)算方差,在H0成立的前提下,當(dāng)樣本量達(dá)至200時(shí),其犯第一類錯(cuò)誤的概率均穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)(α=0.05)附近(表2.2),表明所構(gòu)建的統(tǒng)計(jì)量具有良好的穩(wěn)定性。2)對于上述六種情況,在H0不成立時(shí),其模擬結(jié)果(見圖2.2-圖2.4)顯示:隨著樣本量和效應(yīng)δ的增加,統(tǒng)計(jì)量的檢驗(yàn)效能均呈單調(diào)遞增趨勢;固定樣本量及效應(yīng)δ時(shí),隨著通路長度K的增加,統(tǒng)計(jì)量仍然具有足夠高的檢驗(yàn)效能,表明統(tǒng)計(jì)量檢驗(yàn)效能不受通路長度的影響;固定樣本量及效應(yīng)δ時(shí),隨著路徑系數(shù)增大,統(tǒng)計(jì)量檢驗(yàn)效能有所降低,表明在路徑系數(shù)較大時(shí)需要更大的樣本量才能達(dá)到足夠高的檢驗(yàn)效能?傮w而言,在上述六種情形中百分位bootstrap方法、偏差校正的bootstrap方法、bootstrap估計(jì)方差法的穩(wěn)定性和檢驗(yàn)效能均較好,尤其是偏差校正bootstrap置信區(qū)間的檢驗(yàn)效能最高。(3)實(shí)例分析采用上述統(tǒng)計(jì)量PEM-D和PEM-UD,分析基于病例對照設(shè)計(jì)的急性髓性白血病(AML)分子流行病學(xué)數(shù)據(jù)(包含98例患者和35例對照個(gè)體的骨髓中T17細(xì)胞,Treg細(xì)胞和細(xì)胞轉(zhuǎn)化生長因子TGF-β的檢測數(shù)據(jù))。結(jié)果表明:除精確估計(jì)法外,其余五種方法均發(fā)現(xiàn)通路Treg→TGF-β→Th17與AML具有關(guān)聯(lián)性(表2.3)。實(shí)驗(yàn)性研究也早已證實(shí),Treg、TGF-β和Th17均與AML有關(guān)聯(lián),且Th17細(xì)胞和Treg細(xì)胞在功能上具有相互抑制作用。我們的研究結(jié)果進(jìn)一步表明通路Treg-→TGF-β→Th17對AML的發(fā)生具有重要意義。結(jié)論:統(tǒng)計(jì)量PEM-D和PEM-UD均具有良好的統(tǒng)計(jì)學(xué)性能,可用于識別和檢驗(yàn)致病通路,其中bootstrap非參數(shù)檢驗(yàn)方法更加高效。主要?jiǎng)?chuàng)新點(diǎn):構(gòu)建了基于路徑系數(shù)連乘積之差的致病通路識別檢驗(yàn)統(tǒng)計(jì)量,為系統(tǒng)流行病學(xué)中致病通路識別提供了新方法。二、無向網(wǎng)絡(luò)組間差異比較的假設(shè)檢驗(yàn)方法研究(第三章)比較和檢驗(yàn)對比組間(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)網(wǎng)絡(luò)的統(tǒng)計(jì)學(xué)差異,是系統(tǒng)流行病學(xué)研究中識別致病通路、闡明暴露因子或干預(yù)措施對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸機(jī)制影響的核心任務(wù)。然而,目前尚缺乏網(wǎng)絡(luò)比較的統(tǒng)計(jì)學(xué)檢驗(yàn)方法。對于多數(shù)復(fù)雜疾病的致病網(wǎng)絡(luò)而言,其"節(jié)點(diǎn)"和"邊"的連續(xù)定量變化譜蘊(yùn)含著網(wǎng)絡(luò)差異的全部信息;因此,系統(tǒng)流行病學(xué)網(wǎng)絡(luò)的差異囊括了"節(jié)點(diǎn)"和"邊"的雙重差異,單純"節(jié)點(diǎn)"或單純"邊"的差異遠(yuǎn)不能代表其全部信息的差異。在構(gòu)建"對比組"間網(wǎng)絡(luò)差異比較的統(tǒng)計(jì)量時(shí),必須同時(shí)包含"節(jié)點(diǎn)"和"邊"的差異;即,在統(tǒng)計(jì)量中,用對比組間網(wǎng)絡(luò)"節(jié)點(diǎn)平均量"的差來刻畫節(jié)點(diǎn)平均水平的組間差異,而用網(wǎng)絡(luò)節(jié)點(diǎn)間"邊變化"的差來刻畫節(jié)點(diǎn)相互作用(邊)的差異。當(dāng)不明確或不考慮網(wǎng)絡(luò)中節(jié)點(diǎn)間的方向時(shí),可根據(jù)圖1中無向網(wǎng)絡(luò)比較的統(tǒng)計(jì)量構(gòu)建方法,融合經(jīng)典統(tǒng)計(jì)量構(gòu)建策略(例如得分檢驗(yàn)統(tǒng)計(jì)量,似然比檢驗(yàn)統(tǒng)計(jì)量,wald檢驗(yàn)統(tǒng)計(jì)量),綜合考慮節(jié)點(diǎn)和邊的信息,構(gòu)建相應(yīng)的無向網(wǎng)絡(luò)比較統(tǒng)計(jì)量。本章將借助得分檢驗(yàn)統(tǒng)計(jì)量的理論構(gòu)建無向網(wǎng)絡(luò)比較的統(tǒng)計(jì)檢驗(yàn)方法。其基本思想是,在上述"結(jié)構(gòu)拆分→數(shù)理整合"策略(圖1)中可不考慮方向差異。則兩"對比組"間網(wǎng)絡(luò)差異檢驗(yàn)統(tǒng)計(jì)量的一般形式可簡化為Diff =(DV∪DE)。主要結(jié)果:(1)無向網(wǎng)絡(luò)組間差異比較的統(tǒng)計(jì)量令GD與GC分別表示兩對比組的網(wǎng)絡(luò),并假定GD與GC具有相同的拓?fù)浣Y(jié)構(gòu)(M個(gè)節(jié)點(diǎn)、K條邊);理論上,對比組間(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)網(wǎng)絡(luò)節(jié)點(diǎn)取值和邊的強(qiáng)度之間的差異,可以表征致病效應(yīng)或干預(yù)效果。以病例對照研究為例,給定病例組與對照組的樣本量分別為nD和nC,當(dāng)原假設(shè)H0:GD=Gc成立時(shí),兩組間的對應(yīng)網(wǎng)絡(luò)節(jié)點(diǎn)總體均值相等,即μ1D =μiC(i=1,…,M);同時(shí)兩組間各對應(yīng)邊的強(qiáng)度相等βkD=βkC(k =1,…,K)。根據(jù)得分檢驗(yàn)(score test)思想,在H0:GD=GC成立的前提下兩組樣本可合并為N=nD+nC;則對于個(gè)體l(l = 1,2,…,N),定義 其第i個(gè)點(diǎn)的取值為xli。則節(jié)點(diǎn)xi對兩"對比組"間網(wǎng)絡(luò)差異貢獻(xiàn)(即效應(yīng)大小)的得分為 從而,得到"節(jié)點(diǎn)差異效應(yīng)"得分向量類似的,第k條邊·(xi)—·(xj)對兩"對比組"間網(wǎng)絡(luò)差異貢獻(xiàn)(即效應(yīng)大小)的得分為而,得到"邊差異效應(yīng)"得分向量為DE=(D1E,D2E,,DKE)T。將"節(jié)點(diǎn)差異效應(yīng)"與"邊差異效應(yīng)"合并為"網(wǎng)絡(luò)差異效應(yīng)"得分向量D=(?),該向量的協(xié)方差陣為∑ = cov(D)=(σpq)(M+K)×(M+K),p,q=1,2,…,(M + K),(M + K)為網(wǎng)絡(luò)中所有"節(jié)點(diǎn)數(shù)"與"邊數(shù)"之和。從而,將"節(jié)點(diǎn)信息"和"邊信息"整合到統(tǒng)計(jì)量NetDifM中NetDifM = DT∑-1D其中,協(xié)方差矩陣∑可表示為分塊矩陣(?),其計(jì)算方法如下:1)對于∑V,p,q=1,2,…,M,σpq=l=1N(Yl-Y)2cov(Xp,Xq),Xp=(x1p,x2p,…,xNp);2)對于∑E,p,q = M + 1,M + 2,…,M + K,σpq =(Yl-Y)2 cov(Zp,Zq),Zp=(Xi-Xi)×(Xj-Xj);3)對于∑VE,p = 1,2,…,M,q = M + 1,M + 2,…,M + Kσpq=∑l=1N(Yl-Y)2cov(Xp,Zq)。由得分檢驗(yàn)理論推知,在大樣本情況下,在H0:GD=GC成立時(shí),NetDifM服從自由度為M+K的卡方分布,即NetDifM~χ2(K+ M)。樣本量較小時(shí)也可采用permutation方法進(jìn)行假設(shè)檢驗(yàn)。(2)統(tǒng)計(jì)模擬針對上述統(tǒng)計(jì)量,在H0:GD=GC成立的前提下遍歷不同樣本量(n)以及網(wǎng)絡(luò)規(guī)模大小(M=10,20,40;K=21,45,54),評估其犯第一類錯(cuò)誤的概率是否穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)α附近。在H0不成立的條件下,設(shè)定節(jié)點(diǎn)X =(X1,X2,…,XM)數(shù)據(jù)服從多元正態(tài)分布,模擬如下3種情形,以系統(tǒng)評估統(tǒng)計(jì)量的檢驗(yàn)效能。情形1:兩網(wǎng)絡(luò)之間只有節(jié)點(diǎn)水平的差異;情形2:網(wǎng)絡(luò)間只有邊(關(guān)聯(lián)強(qiáng)度)存在差異;情形3:網(wǎng)絡(luò)間同時(shí)存在節(jié)點(diǎn)水平與邊(關(guān)聯(lián)強(qiáng)度)的差異。特別地,為進(jìn)一步評價(jià)統(tǒng)計(jì)量NetDifM對節(jié)點(diǎn)變量分布的穩(wěn)健性,令節(jié)點(diǎn)X=(X1,X2,…,XM)數(shù)據(jù)為非正態(tài)分布,在部分節(jié)點(diǎn)非正態(tài)(隨機(jī)選擇部分節(jié)點(diǎn),令其為指數(shù)分布)和全部節(jié)點(diǎn)非正態(tài)(令全部節(jié)點(diǎn)為指數(shù)分布)兩種情況下,分別就上述3種情形進(jìn)行了系統(tǒng)的模擬研究。模擬結(jié)果:1)在H0:GD=GC成立的前提下,針對組間網(wǎng)絡(luò)對應(yīng)節(jié)點(diǎn)及邊差異之和所構(gòu)建的非參數(shù)permutation統(tǒng)計(jì)量VEWDM、只考慮兩組間邊差異的非參數(shù)permutation統(tǒng)計(jì)量Yates'D,和本章所構(gòu)建的卡方分布統(tǒng)計(jì)量NetDifM三種方法,模擬結(jié)果表明,在樣本量達(dá)到一定程度時(shí)三種方法的犯第一類錯(cuò)誤的概率均穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)(α=0.05)附近(表3.1-表3.2),而卡方分布統(tǒng)計(jì)量NetDifM在樣本量相對較小時(shí)(n200)即表現(xiàn)出良好的穩(wěn)定性。2)在H0不成立的條件下,給定單純節(jié)點(diǎn)差異(如μ3D-μ3C=0.2等)、單純邊差異(如β3D-β35C=-0.2等)和節(jié)點(diǎn)與邊均存在差異(如μ8D-μ8C= 0.2,β5D-β57C=0.2等)時(shí),模擬結(jié)果(圖3.4-圖3.8)顯示,本章所構(gòu)建的統(tǒng)計(jì)量NetDifM與統(tǒng)計(jì)量VEWDM及Yates'D相比,始終具有最高的檢驗(yàn)效能。3)特別地,在只存在節(jié)點(diǎn)差異時(shí),正如所期望的那樣,統(tǒng)計(jì)量Yates'D失去檢驗(yàn)效能,而統(tǒng)計(jì)量NetDifM仍然具有很高的檢驗(yàn)效能。4)在節(jié)點(diǎn)數(shù)據(jù)偏離正態(tài)分布時(shí),本章所構(gòu)建的統(tǒng)計(jì)量NetDifM仍然具有最高的檢驗(yàn)效能,表明NetDifM具有良好的穩(wěn)健性。(3)實(shí)例分析將所構(gòu)建的無向網(wǎng)絡(luò)差異檢驗(yàn)的統(tǒng)計(jì)量NetDiM應(yīng)用于麻風(fēng)病致病網(wǎng)絡(luò)比較(706例麻風(fēng)病病例與514例健康對照),結(jié)果顯示該統(tǒng)計(jì)量具有合理性和實(shí)用性,分析結(jié)果符合生物學(xué)機(jī)制。同時(shí),將統(tǒng)計(jì)量進(jìn)一步用于卵巢癌致病通路PI3K-SKT與Notch(C1亞型卵巢癌病人83例,C2-C6亞型168例)的組間比較,也發(fā)現(xiàn)了符合生物學(xué)機(jī)制的組間差異。結(jié)論:統(tǒng)計(jì)量NetDifM不僅具有良好的穩(wěn)定性、檢驗(yàn)效能和穩(wěn)健性,而且具有較高的實(shí)用性,為系統(tǒng)流行病學(xué)研究中無向網(wǎng)絡(luò)比較提供了良好的統(tǒng)計(jì)學(xué)檢驗(yàn)方法。主要?jiǎng)?chuàng)新點(diǎn):針對無向網(wǎng)絡(luò)的特征,采用"節(jié)點(diǎn)信息與邊信息整合得分"的融合策略,構(gòu)建了網(wǎng)絡(luò)組間差異比較的統(tǒng)計(jì)量NetDifM,為系統(tǒng)流行病學(xué)無向網(wǎng)絡(luò)比較提供了新方法。三、有向網(wǎng)絡(luò)組間差異比較的假設(shè)檢驗(yàn)方法研究(第四章)上述第三章所構(gòu)建的無向網(wǎng)絡(luò)比較的統(tǒng)計(jì)量NetDifM只注重了節(jié)點(diǎn)差異和邊差異信息,尚未考慮方向信息。然而在系統(tǒng)流行病學(xué)網(wǎng)絡(luò)比較中,網(wǎng)絡(luò)中的方向信息會(huì)提供更有價(jià)值的致病路徑及暴露(或干預(yù))的作用機(jī)制。從而為探討疾病發(fā)生、發(fā)展和轉(zhuǎn)歸機(jī)制,評價(jià)干預(yù)措施,尋找精準(zhǔn)藥物靶點(diǎn)等提供重要依據(jù)。因此,本章將進(jìn)一步構(gòu)建有向網(wǎng)絡(luò)差異比較的假設(shè)檢驗(yàn)方法。其基本思想是:對于有向網(wǎng)絡(luò),網(wǎng)絡(luò)差異絕非僅僅是其節(jié)點(diǎn)和邊兩部分差異的簡單合并,還應(yīng)充分體現(xiàn)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)所蘊(yùn)含的方向信息,即調(diào)控網(wǎng)絡(luò)內(nèi)"邊"的箭頭指向及"上游節(jié)點(diǎn)"對"下游節(jié)點(diǎn)"的調(diào)控權(quán)重。為此,在構(gòu)建有向網(wǎng)絡(luò)比較的統(tǒng)計(jì)量時(shí),需將網(wǎng)絡(luò)"節(jié)點(diǎn)"、"邊"和"方向"差異信息融為一體,將節(jié)點(diǎn)信息、邊信息和方向信息的差值(效應(yīng))DV、DE和DI整合為兩"對比組"間網(wǎng)絡(luò)差異(效應(yīng))的統(tǒng)計(jì)量 Diff =(DV∪DE∪DI)。主要結(jié)果:(1)有向網(wǎng)絡(luò)組間差異比較的統(tǒng)計(jì)量令GD與GC分別表示兩對比組的網(wǎng)絡(luò),V(GD)與E(GD)分別表示GD中的節(jié)點(diǎn)集合與有向邊集合。當(dāng)原假設(shè)H0:GD=GC成立時(shí),兩組間的對應(yīng)網(wǎng)絡(luò)節(jié)點(diǎn)總體均值相等,即μjD =μjC(i=1,…,M);同時(shí)兩組間各對應(yīng)邊的強(qiáng)度及方向相同βkD=βkC(k= 1,…,K)。用XiDXjD表示節(jié)點(diǎn)XiD與XjD之間的有向邊其中βijD表示XiD對XD的調(diào)控強(qiáng)度。令ViD表示節(jié)點(diǎn)XiD的子代節(jié)點(diǎn)數(shù)目,將XiD的權(quán)重定義為,其含義為XD的子代節(jié)點(diǎn)數(shù)占全部節(jié)點(diǎn)子代節(jié)點(diǎn)總數(shù)的比例。令V = V(GD)UV(GC),E=E(GC)∪E(GC)則,本章構(gòu)建如下有向網(wǎng)絡(luò)組間差異比較的檢驗(yàn)統(tǒng)計(jì)量其中,wkD,XkD,βijD分別表示網(wǎng)絡(luò)GD中 XiD 相應(yīng)的權(quán)重、樣本均值以及βijD的估計(jì)值;wkC,X C,βijC分別為網(wǎng)絡(luò)GC中相應(yīng)的變量。需注意的是K與M分別為節(jié)點(diǎn)集V與邊集E的數(shù)目,如果節(jié)點(diǎn)X(或邊XiXj)在GD中存在,但在GC中不存在,則將XkC與其方差(或βijC與其方差)視為0,反之亦然。統(tǒng)計(jì)量中采用的加權(quán)形式為a +(wkD + wkC)/2,也可以替換為logb(+(kkD+wkC)/2),其中a與6越小,表示網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息(上、下游節(jié)點(diǎn)間的調(diào)控關(guān)系)在統(tǒng)計(jì)量中占的比重越大。采用permutation方法進(jìn)行假設(shè)檢驗(yàn)。(P)統(tǒng)計(jì)模擬針對上述統(tǒng)計(jì)量WNES在H0:G =GC成立的前提下,遍歷不同樣本量(n)、網(wǎng)絡(luò)規(guī)模大小(M=12,35,K =15,79)以及網(wǎng)絡(luò)結(jié)構(gòu)(箭頭多少及方向),評估統(tǒng)計(jì)量犯第一類錯(cuò)誤的概率是否穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)α附近。在H0不成立的條件下,給定三種網(wǎng)絡(luò)方向加權(quán)方式(無方向加權(quán)、1 +(wiD + wkC)/2,log2(2+(wkD +(wkC)/2)),模擬如下5種情形,以系統(tǒng)評估統(tǒng)計(jì)量的檢驗(yàn)效能。情形1:只有節(jié)點(diǎn)水平的改變;情形2:只有邊強(qiáng)度值的改變;情形3:同時(shí)有節(jié)點(diǎn)水平與邊強(qiáng)度值的改變,變化的點(diǎn)為上游節(jié)點(diǎn);情形4:節(jié)點(diǎn)與邊數(shù)值的改變與情形3相同,變化的點(diǎn)為下游節(jié)點(diǎn);情形5:網(wǎng)絡(luò)中僅有邊方向改變。模擬結(jié)果顯示:1)在H0:GD = GC成立時(shí),本章所構(gòu)建的統(tǒng)計(jì)量WNES在不同網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)規(guī)模大小的情況下,犯第一類錯(cuò)誤的概率均穩(wěn)定在給定的檢驗(yàn)水準(zhǔn)(α=0.05)附近(表4.1),表明該統(tǒng)計(jì)量具有良好的穩(wěn)定性。2)在H0不成立的前提下,統(tǒng)計(jì)量WNES的檢驗(yàn)效能模擬結(jié)果(圖4.3-圖4.6)顯示:當(dāng)只存在網(wǎng)絡(luò)節(jié)點(diǎn)差異時(shí)(情形1),只包含節(jié)點(diǎn)差異信息的統(tǒng)計(jì)量NS與同時(shí)包含"節(jié)點(diǎn)信息、邊信息和方向信息"的統(tǒng)計(jì)量WNES具有相同的檢驗(yàn)效能,表明此情形下所構(gòu)建的統(tǒng)計(jì)量WNES穩(wěn)健性良好;當(dāng)只存在網(wǎng)絡(luò)邊強(qiáng)度值改變時(shí)(情形2),WNES與只包含邊信息的統(tǒng)計(jì)量ES相比,其檢驗(yàn)效能略低,表明此情形下,統(tǒng)計(jì)量WNES會(huì)受到無效冗余點(diǎn)信息的影響;當(dāng)同時(shí)存在節(jié)點(diǎn)水平與邊強(qiáng)度改變時(shí)(情形3與4),WNES的檢驗(yàn)效能明顯高于NS與ES的檢驗(yàn)效能;以上結(jié)果表明WNES可以同時(shí)檢驗(yàn)節(jié)點(diǎn)與邊的差異并且檢驗(yàn)效能足夠高。在情形WNES具有足夠高的檢驗(yàn)效能,表明WNES能夠檢驗(yàn)網(wǎng)絡(luò)中邊方向的改變。模擬結(jié)果還顯示,WNES采用a+(wk + wk+)/2與logb(6 +(wkD+wkC)/2)兩種加權(quán)方式時(shí),檢驗(yàn)效能都高于無加權(quán)的統(tǒng)計(jì)量檢驗(yàn)效能,表明這兩種加權(quán)方式都能將網(wǎng)絡(luò)中上、下游節(jié)點(diǎn)間的位置信息融入到統(tǒng)計(jì)量中,提高檢驗(yàn)效能,進(jìn)一步說明了對節(jié)點(diǎn)進(jìn)行加權(quán)是必要且合理的。(3)實(shí)例分析將所構(gòu)建的有向網(wǎng)絡(luò)差異檢驗(yàn)的統(tǒng)計(jì)量WNES應(yīng)用于基于病例對照設(shè)計(jì)的肺癌致病網(wǎng)絡(luò)、麻風(fēng)病致病網(wǎng)絡(luò)以及急性髓性白血病致病網(wǎng)絡(luò)比較,結(jié)果顯示,1)WNESES可以檢驗(yàn)出麻風(fēng)病相關(guān)基因網(wǎng)絡(luò)的差異;2)WNES識別出免疫相關(guān)的Foxp3、IL-10、Th17與TGF-β在患白血病與正常情況兩種狀態(tài)下調(diào)控網(wǎng)絡(luò)的差異;3)WNE 發(fā)現(xiàn)Wnt經(jīng)典信號通路中35個(gè)基因構(gòu)成的網(wǎng)絡(luò)的改變與肺癌的發(fā)生相關(guān)(表4.2)。結(jié)論:統(tǒng)計(jì)量WNES能夠同時(shí)檢驗(yàn)網(wǎng)絡(luò)中節(jié)點(diǎn)與邊強(qiáng)度及其方向的差異,不僅具有良好的穩(wěn)定性、檢驗(yàn)效能,而且具有較高的實(shí)用性,為系統(tǒng)流行病學(xué)研究中有向網(wǎng)絡(luò)比較提供了高效的新方法。主要?jiǎng)?chuàng)新點(diǎn):針對有向網(wǎng)絡(luò)的"邊的方向性差異",借助于"生物群體家系譜圖中,后代子孫越多的個(gè)體對生物群體的繁衍貢獻(xiàn)越大"的生物學(xué)現(xiàn)象,巧妙地定義了網(wǎng)絡(luò)內(nèi)上游節(jié)點(diǎn)對下游節(jié)點(diǎn)的調(diào)控權(quán)重,構(gòu)建了"節(jié)點(diǎn)"、"邊"和"方向"差異融為一體的有向網(wǎng)絡(luò)比較的統(tǒng)計(jì)量WNES,提供了有向網(wǎng)絡(luò)比較的新方法。四、致病交互網(wǎng)絡(luò)篩選策略方法研究及其預(yù)測效果評價(jià)(第五章)對復(fù)雜疾病而言,研究不同對比組(病例組VS對照組、暴露組VS非暴露組、干預(yù)組VS非干預(yù)組)間各生物標(biāo)記之間相互關(guān)系的差異將有利于揭示潛在致病機(jī)制、預(yù)測藥物脫靶效應(yīng)、發(fā)展多靶點(diǎn)抗癌藥物以及評價(jià)干預(yù)措施作用機(jī)制。上述對比分析的實(shí)質(zhì)是從復(fù)雜致病網(wǎng)絡(luò)中篩選出對結(jié)局或干預(yù)效果有貢獻(xiàn)的生物標(biāo)記之間的致病交互子網(wǎng)絡(luò)。然而,在復(fù)雜疾病致病網(wǎng)絡(luò)中,暴露(或干預(yù))以及病因通路上的生物標(biāo)記之間的作用往往是錯(cuò)綜復(fù)雜的,不僅存在線性效應(yīng),還廣泛存在著形式復(fù)雜、分布不清的非線性效應(yīng)。因此,從復(fù)雜致病網(wǎng)絡(luò)中篩選出對疾病發(fā)生、發(fā)展與轉(zhuǎn)歸結(jié)局有效應(yīng)的生物標(biāo)記線性或非線性交互效應(yīng),是闡明復(fù)雜疾病致病機(jī)制的核心。目前,在生物網(wǎng)絡(luò)組間比較中,往往是比較生物標(biāo)記之間的線性相關(guān)差異性,而忽略了廣泛存在的非線性相關(guān)差異。此外,多數(shù)方法無法調(diào)整協(xié)變量的混雜效應(yīng)。為此,本章提出了一種基于聯(lián)合密度估計(jì)的高維網(wǎng)絡(luò)差異分析方法并將其進(jìn)一步應(yīng)用于構(gòu)建疾病的判別預(yù)測模型(JDINAC)。其基本思想是:以病例對照設(shè)計(jì)為例,令Y表示結(jié)局變量,Y=1表示病例組,Y=0表示對照組,fij與gij分別表示兩個(gè)生物標(biāo)記xi與j在病例組與對照組的聯(lián)合密度,即,((xi,xj)| Y = 1)~fij,((xi,xj)~gij。則,可用ln(fij(x= 0)/gij(xi,xj))可用 來表征兩個(gè)標(biāo)記(xi,xj)的交互關(guān)聯(lián)性在病例組與對照組之間的差異。JDINAC方法不需要假設(shè)生物標(biāo)記數(shù)據(jù)服從某種已知參數(shù)分布,也不需要假定他們呈線性關(guān)系。既可提高網(wǎng)絡(luò)差異比較的準(zhǔn)確性,又可提高疾病判別預(yù)測的準(zhǔn)確性。主要結(jié)果:(1)統(tǒng)計(jì)模型以病例對照設(shè)計(jì)為例,假定每個(gè)個(gè)體均有p個(gè)生物標(biāo)記測量值(例如基因表達(dá)水平、甲基化程度等),對于個(gè)體l(l = 1,2,…,n),定義Yl=(?),其第i個(gè)標(biāo)記的測量值為xlt。構(gòu)建JDINAC模型如下:(?)其中,Zs(s = 1,…,S)表示協(xié)變量(如年齡、性別等),fij與fij分別表示生物標(biāo)記xi與xj在病例組與對照組的聯(lián)合密度,即,((xi,xj)|Y =1~),((xi,xj)|Y=0)~gij。若βij≠0,表示兩個(gè)標(biāo)記(xi,xj)的關(guān)聯(lián)性在病例組與對照組之間存在差異。在高維情況下,生物標(biāo)記對(xi,xj)的數(shù)目遠(yuǎn)大于樣本量,此時(shí)利用L1范數(shù)懲罰方法估計(jì)β:其中,λ為懲罰參數(shù),,vec(·)為矩陣?yán)彼阕。JDINAC模型具體算法如下:Step1.將樣本D = {(Yl,Xl),l = 1,…,n}隨機(jī)分成兩部分:D =(D1,D2)。Step2.利用第一部分樣本D1,估計(jì)聯(lián)合密度函數(shù)fij與gij(xi,xj),i,j = 1,…,p,ji。Step 3.利用第二部分樣本D2,擬合基于L1懲罰的logistic回歸模型,通過交叉驗(yàn)證選擇最佳懲罰參數(shù)。Step 4.將Step 1~Step 3重復(fù)T次,從而得到βij,與結(jié)局概率P1,t = 1,2,…,T。Step 5.計(jì)算 作為最終結(jié)局概率;計(jì)算生物標(biāo)記對(xi,xj)的權(quán)重;其中I(·)為示性函數(shù)。(2)統(tǒng)計(jì)模擬本章分以下4種情形進(jìn)行了模擬,情形1與情形2中生物標(biāo)記之間的關(guān)聯(lián)性均為線性相關(guān),情形1設(shè)置效應(yīng)值較大,情形2效應(yīng)值較小。情形3:生物標(biāo)記對(xi,xj)在兩組網(wǎng)絡(luò)中Pearson相關(guān)系數(shù)相同,但其聯(lián)合密度不同。情形4:生物標(biāo)記之間存在非線性關(guān)系。針對以上4種情形,采用真陽性率(TPR)、真陰性率(TNR)以及正確發(fā)現(xiàn)率(TDR),來評價(jià)JDINAC與其他3種方法(DiffCorr,DEDN,cPLR)在網(wǎng)絡(luò)差異分析方面的優(yōu)劣。采用ROC曲線與分類錯(cuò)誤率來比較JDINAC與隨機(jī)森林、樸素貝葉斯、oPLR與cPLR的判別分類準(zhǔn)確性。模擬結(jié)果顯示:1)在網(wǎng)絡(luò)差異分析方面,JDINAC可靠性高,幾乎在所有情形下都具有最高的TPR,TNR與TDR。在4種模擬情形下JDINAC的TDR分別為93.7%,95.6%,88.3%,99.9%,尤其在情形3與情形4明顯高于其它3種方法DiffCorr(81.3%,85%,7.5%,3.8%),DEDN(33.5%,16.5%,2.1%,5%),cPLR(19.8%,25.6%,53.6%,0.7%),(Table 5.1)。這表明JDINAC確實(shí)可以檢測出網(wǎng)絡(luò)中非線性關(guān)系的變化。2)在分類方面,ROC曲線與分類錯(cuò)判率皆表明JDINAC明顯比其他4種方法(RF,NB,cPLR,oPLR)判別分類更準(zhǔn)確(圖5.4,表5.2)。(3)實(shí)例分析實(shí)例數(shù)據(jù)來自TCGA數(shù)據(jù)庫中114例乳腺癌病人的癌組織以及匹配的正常組織的基因表達(dá)數(shù)據(jù)。本研究選取KEGG數(shù)據(jù)庫中癌癥通路列出的373個(gè)基因,分析癌組織與正常組織兩組基因網(wǎng)絡(luò)的差異。每組隨機(jī)選取50個(gè)樣本作為預(yù)測集,來評價(jià)判別分類準(zhǔn)確性。結(jié)果顯示:JDINAC檢測出的排序靠前的網(wǎng)絡(luò)差異基因?qū)?與已有實(shí)驗(yàn)結(jié)果相一致,并且選出的大部分關(guān)鍵基因節(jié)點(diǎn)也與乳腺癌細(xì)胞的發(fā)生、生長或轉(zhuǎn)移密切相關(guān)。在判別分類準(zhǔn)確性方面,JAINAC與oPLR方法的錯(cuò)判率為1%,而RF、NB與cPLR的錯(cuò)判率分別為19%,2%,17%(表5.6),表明JDINAC具有良好的實(shí)用性。結(jié)論:本章建立了基于聯(lián)合密度估計(jì)的致病交互網(wǎng)絡(luò)篩選策略方法,該方法不僅能篩選出網(wǎng)絡(luò)中生物標(biāo)記之間的線性交互效應(yīng),而且能篩選出其非線性交互效應(yīng);谒崛〉慕换バ(yīng)而構(gòu)建的疾病判別預(yù)測模型優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。主要?jiǎng)?chuàng)新點(diǎn):1)基于非參數(shù)聯(lián)合密度估計(jì),實(shí)現(xiàn)了從網(wǎng)絡(luò)中篩選出對疾病或結(jié)局有貢獻(xiàn)的非線性交互效應(yīng)。2)基于非線性交互效應(yīng)所構(gòu)建的疾病判別預(yù)測模型優(yōu)于現(xiàn)有統(tǒng)計(jì)模式識別方法。
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:R181
文章目錄
CHINESE ABSTRACT
ABSTRACT
DENOTATION
CHAPTER 1 INTRODUCTION
    1.1 SYSTEMS EPIDEMIOLOGY: THE TWO WORLDS OF TRADITIONAL EPIDEMIOLOGYAND OMICS PLATFORM MEETING AND STAYING TOGETHER
    1.2 DESIGNS IN SYSTEMS EPIDEMIOLOGY: KEEPING SYSTEMS THINKING IN MIND
    1.3 STATISTICAL STRATEGY IN SYSTEMS EPIDEMIOLOGY: PUTING THINGS AT THE     NETWORK LEVEL
    1.4 OUTLINE OF THE DISSERTATION
CHAPTER 2 STATISTICAL INFERENCE FOR IDENTIFICATION AND EFFECT ESTIMATION OF DISEASE-RELATED PATHWAY
    2.1 BACKGROUND
    2.2 METHODS
        2.2.1 Pathway effect and PEM-statistics
        2.2.2 Non-parametric bootstrap test
        2.2.3 Asymptotic normal distribution statistic
        2.2.4 Simulation
        2.2.5 Application
    2.3 RESULTS
        2.3.1 Simulation results
        2.3.2 Application results
    2.4 DISCUSSION
CHAPTER 3 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN UNDIRECTED NETWORKS
    3.1 BACKGROUND
    3.2 METHODS
        3.2.1 Statistical model
        3.2.2 Simulation studies
        3.2.3 Application
    3.3 RESULTS
        3.3.1 Simulation results
        3.3.2 Application results
    3.4 DISCUSSION
CHAPTER 4 HYPOTHESIS TEST FOR GROUP DIFFERENCES BETWEEN DIRECTED NETWORKS
    4.1 BACKGROUND
    4.2 METHODS
        4.2.1 Statistical model
        4.2.2 Simulation studies
        4.2.3 Application
    4.3 RESULTS
        4.3.1 Simulation results
        4.3.2 Application results
    4.4 DISCUSSION
CHAPTER 5 SCREENING STRATEGY FOR DISEASE-RELATED INTERACTION NETWORK AND ASSESSMENT FOR ITS PREDICTIVE PERFORMANCE
    5.1 BACKGROUND
    5.2 METHODS
        5.2.1 Statistical model
        5.2.2 Simulation studies
        5.2.3 Application
    5.3 RESULTS
        5.3.1 Simulation results
        5.3.2 Application results
    5.4 DISCUSSION
CHAPTER 6 CONCLUSIONS
    6.1 INNOVATIONS
    6.2 LIMITATIONS
REFERENCES
ACKNOWLEDGEMENT
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
附表
附件

參考文獻(xiàn)
 
期刊論文
 
[1]An Integrated Workflow for Proteome-Wide Off-Target Identification and Polypharmacology Drug Design[J]. Thomas Evangelidis,Lei Xie.  Tsinghua Science and Technology. 2014(03)


本文編號:1406834

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/yxlbs/1406834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd8fd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
久久水蜜桃亚洲AV无码精品 | www97| 国产乱子伦精品无码专区| 国产美女视频国产视视频| 99RIAV国产精品视频| 亚洲精华国产精华精华液网站| 精品成人免费一区二区不卡 | 少妇饥渴偷公乱A级无码| 精品亚洲一区二区三区四区五区 | 久久AV无码专区亚洲AV桃花岛| 国产日韩一区二区| 五月丁香六月综合缴清无码 | 国产精品乱子乱XXXX| 少妇厨房愉情理9仑片视频| 亚洲av中文无码乱人伦在线咪咕 | 人妻精品久久久久中文字幕| 综合色就爱涩涩涩综合婷婷| 天堂√在线中文最新版8| 最新国产精品精品视频| 日本高清无卡码一区二区久久| 色八A级在线观看| 精品久久久久中文字幕日本| 亚洲av网址在线观看| 99久久国产综合精品1| 久久久久亚洲AV无码专区网站 | 窝窝人体色www| 美女张开腿黄网站免费| 女人爽到高潮的免费视频| 红杏亚洲影院一区二区三区 | 老师脱了内裤让我进去| 男人J进女人P免费视频| 狠狠色噜噜狠狠狠狠97首创麻豆| 国产欧美VA欧美VA香蕉在| 九月婷婷人人澡人人添人人爽| 夜鲁鲁鲁夜夜综合视频| 久久精品国产大片免费观看| 香蕉草莓视频| 九九九视频| 日韩性生活| 毛片影视| 九色影院|