a国产,中文字幕久久波多野结衣AV,欧美粗大猛烈老熟妇,女人av天堂

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于值函數(shù)估計(jì)偏差修正的強(qiáng)化學(xué)習(xí)方法研究

發(fā)布時(shí)間:2024-06-16 08:44
  強(qiáng)化學(xué)習(xí)是求解馬爾科夫決策過程問題的重要方法。強(qiáng)化學(xué)習(xí)的研究已取得了豐富的成果,特別是自深度強(qiáng)化學(xué)習(xí)出現(xiàn)以來,強(qiáng)化學(xué)習(xí)在諸多領(lǐng)域都獲得了相當(dāng)成功的應(yīng)用;谥岛瘮(shù)的強(qiáng)化學(xué)習(xí)是其中的一個(gè)重要分支,出現(xiàn)了以深度Q網(wǎng)絡(luò)為代表的一大批經(jīng)典算法。在迭代求解動(dòng)作值函數(shù)的過程中,都會(huì)涉及到最大期望動(dòng)作值函數(shù)的估計(jì)問題,與此相伴的是存在其中的估計(jì)偏差問題。這個(gè)問題同樣也存在于機(jī)器學(xué)習(xí)的其它領(lǐng)域中。因此,對(duì)最大期望值的準(zhǔn)確估計(jì)是個(gè)非常重要的問題。本文圍繞值函數(shù)估計(jì)偏差修正問題展開研究,主要內(nèi)容如下:(1)針對(duì)Q類學(xué)習(xí)算法高估、DQ類學(xué)習(xí)算法低估的問題,研究了最大期望值估計(jì)偏差產(chǎn)生的原因,并提出了相應(yīng)的偏差修正思路。首先,提出了次序估計(jì)量,并對(duì)次序估計(jì)量的估計(jì)偏差進(jìn)行了分析,使得現(xiàn)有的最大期望值估計(jì)方法均可視為次序估計(jì)量的組合形式。其次,分析了現(xiàn)有估計(jì)方法存在高估低估的原因,重點(diǎn)對(duì)最大估計(jì)量和雙估計(jì)量的優(yōu)勢(shì)與不足進(jìn)行了分析。最后,得出結(jié)論:單純用某一個(gè)次序估計(jì)量參與值函數(shù)更新都會(huì)帶來不同程度的估計(jì)偏差,有控制地隨機(jī)組合多個(gè)次序估計(jì)量能有效修正估計(jì)偏差。本部分內(nèi)容為后續(xù)研究工作提供了直接的理論指導(dǎo)。(2)以...

【文章頁數(shù)】:124 頁

【學(xué)位級(jí)別】:博士

【部分圖文】:

圖4-4本文用到的Atari2600游戲界面

圖4-4本文用到的Atari2600游戲界面

4基于集成雙估計(jì)的偏差修正強(qiáng)化學(xué)習(xí)51Space_invaders是一類競(jìng)爭(zhēng)性游戲,獎(jiǎng)勵(lì)稀疏,環(huán)境狀態(tài)部分可觀測(cè),許多算法在該游戲中都不夠穩(wěn)定,用以檢測(cè)算法的穩(wěn)定性。Zaxxon游戲中DDQN的執(zhí)行性能明顯的受到低估的影響[52],能測(cè)試算法的執(zhí)行效果。AlienAsterixB....


圖6-1DQ中QA與QB在某個(gè)狀態(tài)的估計(jì)動(dòng)作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

圖6-1DQ中QA與QB在某個(gè)狀態(tài)的估計(jì)動(dòng)作值及其置信區(qū)間Figure6-1EstimatedActionValuesandConfidenceIntervalsofQAandQBinDQ

6基于值函數(shù)探索獎(jiǎng)勵(lì)的貝葉斯深度強(qiáng)化學(xué)習(xí)81函數(shù)探索問題中,值函數(shù)之間還存在組合運(yùn)算等其它操作的問題。顯然,值函數(shù)探索問題的研究將會(huì)復(fù)雜的多,更具挑戰(zhàn)性。(a)QA(b)QB圖6-1DQ中QA與QB在某個(gè)狀態(tài)的估計(jì)動(dòng)作值及其置信區(qū)間Figure6-1EstimatedAction....



本文編號(hào):3995169

資料下載
論文發(fā)表

本文鏈接:http://www.wukwdryxk.cn/shoufeilunwen/xxkjbs/3995169.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a425a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美人妖久久久aaa片| 久久99精品久久久久久国产| 国产精品欧美亚洲韩国日本久久| 成在线人AV免费无码高潮喷水| 内射在线| 日本加勒比在线观看| 欧美乱妇高清无乱码在线观看| 中文字幕精品亚洲无线码一区| 城步| 久久av影视| 久久久久久亚洲精品成人| 国产在线精品一区二区不卡 | 国产av一区二区三区| 热久久99这里有精品| 亚洲精品成人网站在线观看| 韩国精品无码久久一区二区三区| 五月婷婷网| 扒开老师大腿猛进AAA片| 亚洲伊人成无码综合影院| 久久综合久久自在自线精品自| 日日碰狠狠躁久久躁一区二区| 天天色天天爽| 成人又黄又爽又色的网站| 国产精品无码a∨麻豆| 在线播放亚洲第一字幕| 中文字幕有码无码av| 中文字幕不卡高清视频在线| 灵璧县| 久视频在线| 少妇影视| 国产强伦人妻毛片| 蜜桃成熟在线观看| 法国一级情欲片| 欧美老熟妇乱xxxxx| 99e热久久免费精品首页| 国产性天天综合网| 精品久久久久久国产潘金莲| 久久99精品久久久久久不卡| 亚洲熟妇av一区| 亚洲AV极品无码专区在线观看| 亚洲AV无码午夜嘿嘿嘿|