樣本均值非零假定下基于Oja算法的在線PCA研究
發(fā)布時(shí)間:2020-06-25 02:16
【摘要】:主成分分析(Principal Component Analysis,簡稱PCA)是一種常見的數(shù)據(jù)降維工具,在工業(yè)、生物、金融以及社會(huì)發(fā)展等各個(gè)領(lǐng)域都有廣泛的應(yīng)用.其旨在將多個(gè)變量轉(zhuǎn)化為保留大部分信息的少數(shù)幾個(gè)不相關(guān)的綜合變量,從而以最小的信息損失達(dá)到降維的目的.這些綜合變量被稱為主成分,它們是原始變量的線性組合.隨著大數(shù)據(jù)時(shí)代的到來,規(guī)模龐大的動(dòng)態(tài)數(shù)據(jù)使得基于經(jīng)驗(yàn)協(xié)方差矩陣的傳統(tǒng)PCA失效.在這一信息化大背景下,考慮PCA的在線形式具有重要的理論意義與應(yīng)用價(jià)值.該在線形式指的是(i)數(shù)據(jù)作為序列逐個(gè)被接收,且只有一小部分?jǐn)?shù)據(jù)能夠被存儲(chǔ);(ii)當(dāng)有新數(shù)據(jù)流入時(shí),必須對(duì)當(dāng)前輸出結(jié)果進(jìn)行實(shí)時(shí)更新修正.解決這一在線問題的方法種類多樣,其中,最為簡單和經(jīng)典的是Oja于1982年提出的隨機(jī)梯度算法.近年來,國內(nèi)外學(xué)者圍繞著對(duì)Oja算法進(jìn)行改進(jìn),或者對(duì)其進(jìn)行理論分析這兩方面做了大量工作.在Oja算法中,樣本被假定為取自某個(gè)均值為零、協(xié)方差未知的分布.然而,在實(shí)際應(yīng)用中,樣本均值為零這一假定過于嚴(yán)格.并且,在樣本均值未知情形下的相關(guān)研究非常匱乏.本碩士學(xué)位論文基于Oja算法,在樣本取自某個(gè)均值非零的分布這一自然假定下,從以下三個(gè)方面對(duì)在線主成分分析問題進(jìn)行了研究:(1)在算法方面,通過在原Oja算法中加入遞歸中心化處理,本文采用了適用于樣本均值未知情形的修改版Oja算法.考慮可利用的樣本先驗(yàn)知識(shí)有限,本文選取了最基本的自然平均值用于每步迭代所需的中心化處理.(2)在理論方面,基于學(xué)者Jain對(duì)原Oja算法的分析框架,先將主迭代表為作用于初始點(diǎn)的一個(gè)算子.由于中心化項(xiàng)的存在,本文算法的每步迭代之間不再相互獨(dú)立,這使得對(duì)其進(jìn)行收斂性分析變得十分困難.對(duì)此,本文提出了一種“拆分”策略,根據(jù)是否包含中心化項(xiàng),將主迭代步分為兩部分獨(dú)立分析,成功克服了迭代步間的相關(guān)性障礙.進(jìn)一步地,借助于多維中心極限定理和集中不等式,本文用嚴(yán)格并且完整的證明推導(dǎo)出了非零樣本均值版Oja算法的收斂速度.另外,對(duì)于Oja算法的表現(xiàn)依賴于對(duì)步長調(diào)參這一問題,本文提供了一種步長選取方式可作為理論參考依據(jù).(3)在實(shí)驗(yàn)方面,本文通過Matlab分別對(duì)仿真數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行了數(shù)值實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果既表明了算法的有效性,又證實(shí)了理論部分的正確性.另外,仿真實(shí)驗(yàn)中還加入了另一種樣本中心作為對(duì)比.其結(jié)果說明了本文所選擇的中心化方式的合理性.
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:
圖2.1:投影計(jì)算示例.逡逑
圖邋2.2:含噪數(shù)據(jù)(Noisy邋Data)[49].逡逑?去冗余逡逑數(shù)據(jù)冗余(Redundancy)即指數(shù)據(jù)重復(fù),圖2.3為從三個(gè)不同角度觀測_一組三維逡逑數(shù)據(jù)得到的二維數(shù)據(jù)圖.可以發(fā)現(xiàn),圖2.3(a)中數(shù)據(jù)的冗余度非常低,因?yàn)槲覀儫o逡逑法根據(jù)某個(gè)維度推測出另一個(gè)維度的信息;相反,圖2.3(c)中數(shù)據(jù)的冗余度很高,逡逑從而表明變f埓視瀉芮康南喙匭裕校茫了齙木褪墻哂邢喙匭緣畝喔霰淞垮義獻(xiàn)晃偈父霾幌喙氐淖酆媳淞,因唇z紗锏健叭ト哂唷鋇哪康模義希玻吃諳咧鞒煞址治鰣義顯凇靶畔⒈ā鋇拇蟊塵跋攏孀趴蒲Ъ際醯牟歡轄劍綰未碓諳呶侍饣蛘咤義纖等綰畏⒄乖諳咚惴ㄕ找娉晌甘芄刈⒌慕溝悖義希玻常被靖拍鑠義?.灾O咚悖ǎǎ希睿歟椋睿邋澹粒歟紓錚潁椋簦瑁恚╁義顯詡撲慊蒲е校蕖鱸諳咚惴ǎ郟常眩藎脖懷莆魘綎鴟ǎǎ櫻簦潁澹幔恚椋睿玨澹粒歟紓錚潁椋簦瑁恚,指辶x系氖且允萘韉男問醬硎蕕囊煥嗨惴ǎ嚀宓廝擔(dān)詿死嗨惴ㄖ,数辶x暇菀孕蛄械男問攪魅
本文編號(hào):2728712
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:C81
【圖文】:
圖2.1:投影計(jì)算示例.逡逑
圖邋2.2:含噪數(shù)據(jù)(Noisy邋Data)[49].逡逑?去冗余逡逑數(shù)據(jù)冗余(Redundancy)即指數(shù)據(jù)重復(fù),圖2.3為從三個(gè)不同角度觀測_一組三維逡逑數(shù)據(jù)得到的二維數(shù)據(jù)圖.可以發(fā)現(xiàn),圖2.3(a)中數(shù)據(jù)的冗余度非常低,因?yàn)槲覀儫o逡逑法根據(jù)某個(gè)維度推測出另一個(gè)維度的信息;相反,圖2.3(c)中數(shù)據(jù)的冗余度很高,逡逑從而表明變f埓視瀉芮康南喙匭裕校茫了齙木褪墻哂邢喙匭緣畝喔霰淞垮義獻(xiàn)晃偈父霾幌喙氐淖酆媳淞,因唇z紗锏健叭ト哂唷鋇哪康模義希玻吃諳咧鞒煞址治鰣義顯凇靶畔⒈ā鋇拇蟊塵跋攏孀趴蒲Ъ際醯牟歡轄劍綰未碓諳呶侍饣蛘咤義纖等綰畏⒄乖諳咚惴ㄕ找娉晌甘芄刈⒌慕溝悖義希玻常被靖拍鑠義?.灾O咚悖ǎǎ希睿歟椋睿邋澹粒歟紓錚潁椋簦瑁恚╁義顯詡撲慊蒲е校蕖鱸諳咚惴ǎ郟常眩藎脖懷莆魘綎鴟ǎǎ櫻簦潁澹幔恚椋睿玨澹粒歟紓錚潁椋簦瑁恚,指辶x系氖且允萘韉男問醬硎蕕囊煥嗨惴ǎ嚀宓廝擔(dān)詿死嗨惴ㄖ,数辶x暇菀孕蛄械男問攪魅
本文編號(hào):2728712
本文鏈接:http://www.wukwdryxk.cn/guanlilunwen/tongjijuecelunwen/2728712.html
最近更新
教材專著