大樣本線性混合效應(yīng)模型的子抽樣方法及其應(yīng)用研究
發(fā)布時(shí)間:2020-07-13 17:48
【摘要】:科學(xué)技術(shù)在過(guò)去十年的迅速發(fā)展帶來(lái)了非常多的數(shù)據(jù),一個(gè)主要挑戰(zhàn)是計(jì)算資源的進(jìn)步仍然遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)集的指數(shù)級(jí)增長(zhǎng)。處理大規(guī)模數(shù)據(jù)集的一個(gè)普遍方法是子抽樣。例如,在線性回歸模型中利用經(jīng)驗(yàn)的統(tǒng)計(jì)杠桿得分作為重要性抽樣分布,能提高計(jì)算最小二乘估計(jì)的效率。本文考慮對(duì)面板數(shù)據(jù)構(gòu)造新的杠桿抽樣方法,然后應(yīng)用于混合效應(yīng)模型中,并通過(guò)隨機(jī)模擬來(lái)研究新方法的優(yōu)良性質(zhì)。本文主要考慮大樣本情形下一類混合效應(yīng)模型的子抽樣,混合效應(yīng)模型的一類所謂誤差分量回歸模型中,對(duì)每個(gè)個(gè)體會(huì)有重復(fù)觀測(cè),當(dāng)個(gè)體數(shù)規(guī)模很大時(shí),重復(fù)觀測(cè)更加劇了數(shù)據(jù)的規(guī)模,所以在該模型下提出了使用子抽樣算法降低計(jì)算復(fù)雜度。首先根據(jù)面板數(shù)據(jù)具有組內(nèi)相關(guān)性的性質(zhì),構(gòu)造了一種成組數(shù)據(jù)杠桿得分權(quán)重確定方法,然后利用其作為子樣本的抽樣概率。進(jìn)一步,我們將新方法和均勻抽樣方法進(jìn)行了隨機(jī)模擬比較研究,將抽樣方法應(yīng)用于多元正態(tài)分布,自由度為1的T分布,自由度為3的T分布中并驗(yàn)證了新方法的有效性。杠桿抽樣是在子抽樣框架下進(jìn)行設(shè)計(jì),其中從全部數(shù)據(jù)中抽取一小部分?jǐn)?shù)據(jù)(子樣本),然后使用子樣本替代全樣本執(zhí)行預(yù)期的計(jì)算。對(duì)于用不同方法抽出來(lái)的面板數(shù)據(jù)進(jìn)行混合效應(yīng)模型的不同參數(shù)估計(jì),包括均勻抽樣估計(jì)(UNIF),杠桿抽樣估計(jì)(LEV),不加權(quán)杠桿抽樣估計(jì)(LEVUW)。杠桿方法利用杠桿得分構(gòu)造非均勻抽樣概率,能夠得到可解釋性的子抽樣方法。最后對(duì)抽樣估算方法進(jìn)行偏差及方差的對(duì)比分析,并給出不同子抽樣方法的應(yīng)用范圍。
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:
圖5-2邋N=1000,邋k=3時(shí)P的偏差對(duì)比逡逑圖5-2為分別是對(duì)多元正態(tài)分布分布數(shù)據(jù)(GA),自由度為3的多元T分逡逑布分布數(shù)據(jù)(T3)和自由度為1的多元T分布數(shù)據(jù)(T1)采取同樣的三種抽樣逡逑方法之后進(jìn)行混合效應(yīng)模型的擬合,同樣分別重復(fù)抽。保埃埃按危缓笥(jì)算參數(shù)逡逑(3的偏差的平方。從圖中我們可以發(fā)現(xiàn),第一,P的偏差的平方不論在哪種數(shù)據(jù)逡逑分布中,都隨著樣本量的增大而減少。而且采用LEVUW抽樣方法抽取的樣本逡逑估計(jì)的卩的偏差最小,因?yàn)椋蹋牛郑眨危壮闃臃椒ㄏ鄬?duì)于全樣本加權(quán)估計(jì)的(3近似逡逑22逡逑
邐抽樣數(shù)量邐抽樣數(shù)量逡逑圖5-1邋N=1000,k=3時(shí)P的方差對(duì)比逡逑GA邐T3邐T1逡逑10-邐10-邐10-逡逑抽樣分類邐抽樣分類邐*邐抽樣分類逡逑?LEV邐-邐LEV邐-邐LEV逡逑‘邋LEVUW邐*邋LEVUW邐?邐-邋LEVUW逡逑-UNIF邐*邋UNIF邐:邋?邐-邋UNIF逡逑茲邋5?‘邐^邋5*邐5-邋t邋'邋.、、逡逑fK.邐i邐"><邐'邐?*-邐…秦邐....逡逑5邐\邐^邐^邐\逡逑
本文編號(hào):2753783
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:
圖5-2邋N=1000,邋k=3時(shí)P的偏差對(duì)比逡逑圖5-2為分別是對(duì)多元正態(tài)分布分布數(shù)據(jù)(GA),自由度為3的多元T分逡逑布分布數(shù)據(jù)(T3)和自由度為1的多元T分布數(shù)據(jù)(T1)采取同樣的三種抽樣逡逑方法之后進(jìn)行混合效應(yīng)模型的擬合,同樣分別重復(fù)抽。保埃埃按危缓笥(jì)算參數(shù)逡逑(3的偏差的平方。從圖中我們可以發(fā)現(xiàn),第一,P的偏差的平方不論在哪種數(shù)據(jù)逡逑分布中,都隨著樣本量的增大而減少。而且采用LEVUW抽樣方法抽取的樣本逡逑估計(jì)的卩的偏差最小,因?yàn)椋蹋牛郑眨危壮闃臃椒ㄏ鄬?duì)于全樣本加權(quán)估計(jì)的(3近似逡逑22逡逑
邐抽樣數(shù)量邐抽樣數(shù)量逡逑圖5-1邋N=1000,k=3時(shí)P的方差對(duì)比逡逑GA邐T3邐T1逡逑10-邐10-邐10-逡逑抽樣分類邐抽樣分類邐*邐抽樣分類逡逑?LEV邐-邐LEV邐-邐LEV逡逑‘邋LEVUW邐*邋LEVUW邐?邐-邋LEVUW逡逑-UNIF邐*邋UNIF邐:邋?邐-邋UNIF逡逑茲邋5?‘邐^邋5*邐5-邋t邋'邋.、、逡逑fK.邐i邐"><邐'邐?*-邐…秦邐....逡逑5邐\邐^邐^邐\逡逑
本文編號(hào):2753783
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2753783.html
最近更新
教材專著