<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

斯坦福提出基于目標的策略強化學習方法——SOORL

zhKF_jqr_AI ? 來源:未知 ? 作者:胡薇 ? 2018-06-06 11:18 ? 次閱讀

人類的學習能力一直是人工智能追求的目標,但就目前而言,算法的學習速度還遠遠不如人類。為了達到人類學習的速率,斯坦福的研究人員們提出了一種基于目標的策略強化學習方法——SOORL,把重點放在對策略的探索和模型選擇上。以下是論智帶來的編譯。

假設讓一個十二歲的孩子玩一下午雅達利游戲,就算他之前從沒玩過,晚飯前也足以掌握游戲規則。Pitfall!是是雅達利2600上銷量最高的游戲之一,它的難度很高,玩家控制著一個名為“哈里”的角色,他要在20分鐘內穿過叢林,找到32個寶藏。一路上共有255個場景(rooms),其中會碰到許多危險,例如陷阱、流沙、滾動的枕木、火焰、蛇以及蝎子等。最近的獎勵也要在起始點7個場景之外,所以獎勵分布非常稀疏,即使對人類來說,沒有經驗也很難操控。

深度神經網絡和強化學習這對cp在模仿人類打游戲方面可謂是取得了不小的進步。但是這些智能體往往需要數百萬個步驟進行訓練,但是人類在學習新事物時效率可要高多了。我們是如何快速學習高效的獎勵的,又是怎樣讓智能體做到同樣水平的?

有人認為,人們學習并利用能解釋世界如何運行的結構化模型,以及能用目標而不是像素表示世界的模型,從而智能體也能靠同樣的方法從中獲得經驗。

具體來說,我們假設同時具備三個要素即可:運用抽象的目標水平的表示、學習能快速學習世界動態并支持快速計劃的模型、利用前瞻計劃進行基于模型的策略探索。

在這一思想的啟發下,我們提出了策略目標強化學習(SOORL)算法,據我們所知,這是第一個能在雅達利游戲Pitfall!中能到積極獎勵的算法。重要的是,該算法在這一過程中不需要人類的示范,可以闖過50關。SOORL算法利用強大的先驗知識而非傳統的深度強化學習算法,對環境中的目標和潛在的動態模型有了了解。但是相比于需要人類示范的方法來說,SOORL算法所掌握的信息就少了很多。

SOORL在兩方面超過了之前以目標為導向的強化學習方法:

智能體在積極嘗試選擇一種簡單模式,該模式解釋了世界是如何運作的從而看起來是決定性的。

智能體用一種基于模型的積極計劃方法,在做決定時假設智能體不會計算出一個完美的計劃來應對即使知道世界怎樣運作后會有何反應。

這兩種方法都是從人類遇到的困難中受到的啟發——先前經驗很少,同時算力有限,人類必須快速學習做出正確的決定。為了達到這一目標,我們第一條方法發現,與復雜的、需要大量數據的深度神經網絡模型不同,如果玩家按下的某一按鍵需要很少經驗來估計,那么簡單的決定性模型可以減少計劃所需的計算力,盡管會經常出錯,但對達到良好的效果已經足夠了。第二,在獎勵分散、復雜的電子游戲中,玩一場游戲可能需要成百上千個步驟,對于任何一個計算力有限的智能體來說,想在每個步驟都作出合適的計劃是非常困難的,就算是12歲的小孩也是如此。我們用一種常用并且強大的方法做前瞻計劃,即蒙特卡洛樹搜索,將其與目標導向的方法結合,用作最優策略的探索,同時指導智能體學習它不了解的世界的環境。

Pitfall!也許是智能體最后一個尚未攻破的雅達利游戲。如文章開頭所說,Pitfall!中的第一個積極獎勵出現多個場景之后,玩家需要非常小心地操作才能得到,這就需要智能體在闖關時具備策劃能力和對未來的預見能力。

我們的SOORL智能體在50回中的平均可以解鎖17個場景,而之前的用像素作為輸入、同時又沒有策略探索的DDQN標準在2000回之后的平均只能解鎖6個場景。

SOORL最多解鎖了25個場景

下面的直方圖顯示出在不同的隨機種子下,SOORL算法在訓練時的100次游戲中最佳的表現分布。

可以看到,SOORL在大多數情況下并不比之前所有深度強化學習的方法好,之前的方法得到最佳的獎勵為0(雖然這種方法都是在500甚至5000次游戲之后才得到的,而我們的方法只要50次就可以得到最佳獎勵)。在這種情況下,SOORL經??梢员绕渌椒ń怄i更多房間,但是并沒有達到更高的最佳成績。但是,在幾次游戲中,SOORL得到了2000分甚至4000分的獎勵,這是沒有人類示范的情況下獲得的最好分數。在有人示范的情況下目前最好的分數是60000分,盡管分數很高,但是這種方法仍需要大量的先驗知識,并且還需要一個可靠的模型減少探索過程中遇到的挑戰。

下面是SOORL智能體掌握的幾種有趣的小技巧:

飛渡深坑

鱷魚口脫險

躲避沙坑

SOORL仍然還有很多限制。也許其中最重要的缺點就是它需要一種合理的潛在動態模型進行具體化,使得SOORL可以在這個子集上進行模型選擇。另外在蒙特卡洛樹搜索期間,它沒有學習并利用價值函數,這在早期的AlphaGo版本上是很重要的一部分。我們希望加入一個價值函數能大大改善其性能。

但是除了這些弱點,這些結果還是非常令人激動的。因為這個基于模型的強化學習智能體能在類似Pitfall!這樣獎勵非常稀疏的電子游戲中快速地學習,通過各種策略學習如何在簡單模式下做出正確決策。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 斯坦福
    +關注

    關注

    0

    文章

    26

    瀏覽量

    9159
  • 強化學習
    +關注

    關注

    4

    文章

    260

    瀏覽量

    11122

原文標題:斯坦福提出無需人類示范的強化學習算法SOORL

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    斯坦福開發過熱自動斷電電池

    上升時,薄膜會膨脹,溫度升到70攝氏度時突起部分彼此將不再連接在一起,電路斷路,電池關閉。斷電可以防止電池過熱,隨后電池會變冷,鎳突起又會連接在一起,繼續讓電池通過?! ?b class='flag-5'>斯坦福研究團隊成員之一、化學工程教授鮑
    發表于 01-12 11:57

    關于斯坦福的CNTFET的問題

    之前下載了斯坦福2015年的CNTFET VS model,是.va的文件,不知道怎么用啊,該怎么通過cadence的pspice進行仿真啊,求指點
    發表于 01-26 13:47

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    斯坦福cs231n編程作業之k近鄰算法

    深度學習斯坦福cs231n編程作業#1 --- k近鄰算法(k-NN)
    發表于 05-07 12:03

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
    發表于 01-10 13:42

    哪位大神能找到斯坦福 EE214B/314A 授課視頻資源?

    求助,哪位大神能找到斯坦福EE214B/314A授課視頻資源?
    發表于 06-22 07:41

    回收新舊 斯坦福SRS DG645 延遲發生器

    回收新舊 斯坦福SRS DG645 延遲發生器 歐陽R:*** QQ:1226365851溫馨提示:如果您找不到聯系方式,請在瀏覽器上搜索一下,旺貿通儀器儀回收工廠或個人、庫存閑置、二手儀器及附件
    發表于 07-14 10:34

    DG645 斯坦福 SRS DG645 延遲發生器 現金回收

    DG645 斯坦福 SRS DG645 延遲發生器 現金回收 歐陽R:*** QQ:1226365851溫馨提示:如果您找不到聯系方式,請在瀏覽器上搜索一下,旺貿通儀器儀回收工廠或個人、庫存閑置
    發表于 01-11 10:08

    深度學習技術的開發與應用

    :自動駕駛賽車任務1.連續控制任務2.策略梯度方法DDPG/PPO高頻問題:1.適用于高維輸入的連續控制任務的深度強化學習方法關鍵點:1.掌握DDPG和PPO具體編程實現 2.根據實際需求,選用合理的深度
    發表于 04-21 14:57

    基于LCS和LS-SVM的多機器人強化學習

    本文提出了一種LCS和LS-SVM相結合的多機器人強化學習方法,LS-SVM獲得的最優學習策略作為LCS的初始規則集。LCS通過與環境的交互,能更快發現指導多機器人
    發表于 01-09 14:43 ?0次下載

    解析圖像分類器結構搜索的正則化異步進化方法 并和強化學習方法進行對比

    在本篇論文中,研究人員使用流行的異步進化算法(asynchronous evolutionary algorithm)的正則化版本,并將其與非正則化的形式以及強化學習方法進行比較。
    的頭像 發表于 02-09 14:47 ?3510次閱讀
    解析圖像分類器結構搜索的正則化異步進化<b class='flag-5'>方法</b> 并和<b class='flag-5'>強化學習方法</b>進行對比

    谷歌和DeepMind研究人員合作提出新的強化學習方法Dreamer 可利用世界模型實現高效的行為學習

    近年來隨著強化學習的發展,使得智能體選擇恰當行為以實現目標的能力得到迅速地提升。目前研究領域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來
    發表于 03-26 11:41 ?1832次閱讀

    模型化深度強化學習應用研究綜述

    強化學習。無模型強仳學習方法的訓練過程需要大量樣本,當采樣預算不足,無法收集大量樣本時,很難達到預期效果。然而,模型化強化學習可以充分利用環境模型,降低真實樣本需求量,在一定程度上提高樣本效率。將以模型化
    發表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強化學習</b>應用研究綜述

    基于強化學習的壯語詞標注方法

    目前壯語智能信息處理研究處于起步階段,缺乏自動詞性標注方法。針對壯語標注語料匱乏、人工標注費時費力而機器標注性能較差的現狀,提出一種基于強化學習的壯語詞性標注方法。依據壯語的文法特點和
    發表于 05-14 11:29 ?14次下載

    基于強化學習目標檢測算法案例

    摘要:基于強化學習目標檢測算法在檢測過程中通常采用預定義搜索行為,其產生的候選區域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺
    發表于 07-19 14:35 ?0次下載
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>