<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind的“星際2”智能體AlphaStar實際上是演化算法?

DPVg_AI_era ? 來源:lq ? 2019-02-13 10:34 ? 次閱讀

深度強化學習、多智體強化學習以及博弈論,是DeepMind戰勝職業星際II玩家的智能體AlphaStar的重要技術。倫敦帝國大學和NYU研究人員則從進化計算的角度指出,AlphaStar使用的競爭協同進化算法策略被遠遠低估。

DeepMind首次戰勝星際II職業玩家的AI——AlphaStar,正如新智元創始人兼CEO楊靜女士在《新智元2019年寄語》中所說的那樣,引爆機器智能無限可能。

AlphaStar是一項壯舉,是建立在DeepMind及其他研究人員多年的研究和工程基礎之上,尤其是深度強化學習(DRL)、多智體強化學習(MARL)和博弈論。

雖然在官方博文中,DeepMind也提到了進化算法(Evolutionary Algorithm, EA),但這顯然并非其重點。不過,倫敦帝國學院的Kai Arulkumaran等人,反過來從進化算法的角度來看AlphaStar,希望對深度強化學習領域和進化計算的研究者都帶來啟發。

進化計算和深度學習并非對立的兩個陣營。

事實上,Arulkumaran等人最新在Arxiv上貼出的論文《從進化計算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective),也確實提出了很多新的問題。

例如,在DeepMind提出的快速調參算法PBT中,用Baldwinian進化算法代替拉馬克(Lamarckian)進化,是否能得到元學習星際II智能體?

Arulkumaran本人也在Twitter表示,這篇文章是對一系列概念的高級概括,還需要進一步探索,他們在寫作時有意識地省略了演化計算和博弈論之間重疊的部分。

同時,他也指出,不能認為AlphaStar僅僅只是一個演化算法,AlphaStar的混合性質有些類似于AlphaGo atm?!癉eepMind官方博文顯示了從IL階段MMR的提升,這一點看起來很重要,但哪些細節是最重要的,我們目前還不知道?!?/p>

以下是新智元對文章的編譯。

從進化計算角度看AlphaStar

2019年1月,DeepMind向世界展示了AlphaStar——第一個在星際爭霸II游戲中擊敗職業玩家的人工智能(AI)系統,它代表了人工智能技術進步的一個里程碑。

AlphaStar涉及人工智能研究的許多領域,包括深度學習,強化學習,博弈論和進化計算等(EC)。

在本文中,我們主要通過進化計算的角度來分析AlphaStar,為審視該系統提供一個新的視角,并將其與AI領域的許多概念關聯起來。我們重點介紹其中一些最有趣的方面:拉馬克進化、協同競爭進化和質量多樣性。希望通過本文,在更廣泛的進化計算社區與新誕生的這個重要的AI系統之間架起一座橋梁。

在1997年”深藍“擊敗國際象棋世界冠軍后,人工智能與人類博弈的下一個重要里程碑是出現在2016年,圍棋世界冠軍李世乭被AlphaGo擊敗。國際象棋和圍棋此前都被認為是AI取得進展最困難的領域,可以說,與之相比難度相當的考驗之一就是擊敗星際爭霸(SC)游戲中的大師級玩家。

星際爭霸是一款即時戰略(RTS)游戲?!缎请H1》及其續作《星際II》都具有幾個特點,使得它甚至比圍棋的挑戰更大。比如只能觀察到戰場的一部分、沒有單一的主導策略、復雜的游戲規則、快速建模的難度更大,動作空間極大,且復雜多變等??梢哉f,想實現征服《星際爭霸》的目標,一點也不比圍棋上的突破來得容易。

想實現征服《星際爭霸》的目標,一點也不比圍棋上的突破來得容易。圖片來源:Jesus Rodriguez, The Science Behind AlphaStar

最近,DeepMind推出的AlphaStar向著實現這個目標邁出了重要一步,AlphaStar是一個基于神經網絡的AI系統,在2018年12月擊敗了專業的SC II玩家。

該系統與其前身AlphaGo一樣,最初使用模仿學習來模仿人類的游戲行為,然后通過強化學習(RL)和自我對弈的組合方式進行改進。

算法在這里發生了分歧,因為AlphaStar利用基于人口的訓練(PBT)來明確地保持一群相互訓練的智能體。這部分訓練過程建立在多智能體強化學習和博弈論視角之上,但人口的概念是進化計算的核心,因此我們也可以通過這個視角來考察AlphaStar。

AlphaStar使用了拉馬克進化算法

目前,訓練神經網絡參數的最流行的方法是反向傳播(BP)。但是,有許多方法可以調整其超參數,包括進化算法。

其中一種方法是使用模因算法(MA),這個算法中,進化作為外部優化算法運行,并且各個解決方案可以通過內環中的其他方式(例如反向傳播)來進行優化。在這種特定情況下,模因算法可以將進化算法的探索和全局搜索屬性與反向傳播算法的高效本地搜索的優勢結合起來。

AlphaStar的基本架構。來源:DeepMind

在AlphaStar中,用于訓練智能體的基于人口的訓練策略(PBT)是使用拉馬克進化(LE)的模因算法:在內環中,使用反向傳播連續訓練神經網絡,而在外環中,使用幾種選擇方法中的一種來選擇網絡(比如淘汰制錦標賽選擇),用勝者的參數覆蓋敗者的參數,敗者也會收到勝者超參數的“變異”副本。

PBT策略最初是通過一系列監督學習和強化學習任務展示的,調整和提升神經網絡的性能。對于具有高度非平穩損耗表面的問題,例如深度強化學習問題,這種策略可能是最有效的,因為它可以在運行過程中改變超參數。

AlphaStar vs MaNa,神經網絡如何將觀察到的結果轉換為行動。來源:DeepMind

由于單個網絡可能需要高達數G的內存,或需要訓練長達幾個小時,因此可擴展性是PBT的關鍵。因此,PBT既是異步的,又是分布式的。與使用靜態超參數運行許多實驗不同,使用相同數量的硬件,利用PBT只需要很少的開銷——外部循環可以重用內部循環的解決方案進行評估,而且數據通信量也比較低。如果考慮非平穩超參數因素和對較弱解決方案的優先搶占的影響,PBT方案能夠節省的成本更多。

這些要求的另一個結果是PBT是穩定狀態,這一點與分代進化算法不同。由于對異步進化算法和拉馬克進化的自然適應性,穩態進化算法可以允許各個解決方案的優化和評估不間斷地進行,從而實現資源效率最大化。

最適合的解決方案能夠存活更長時間,自然地提供了一種精英主義/名人堂模式,但并非最優的前代方案也可以保留下來,保持解決方案多樣性。

自我對弈也體現了競爭性協同進化(CCEA)

在對AlphaStar一類游戲智能體進行優化時,智能體可以使用自對戰來提升水平。

競爭性協同進化算法(CCEA)可以被視為自我對弈的超集(superset),并非只保留當前解決方案及其前身,而是保持和評估整個解決方案的群體。

與自我對弈一樣,CEA形成了一個自然的教學過程,但也提供了額外的穩健性,因為產生的解決方案是基于各種其他解決方案進行評估的。

AlphaStar的訓練過程。來源:DeepMind

通過在CCEA環境中使用PBT策略,利用基于反向傳播的深度強化學習,再加上進化版的獎勵函數,能夠訓練智能體從像素級入手,開始學習玩第一人稱游戲。

CEA的設計包括很多方面,這種方法的特征可能導致許多潛在的變體。

AlphaStar還可以歸為質量多樣性算法

在《星際爭霸》中,沒有所謂“最好的策略”。因此,最終的AlphaStar智能體由納什分布的人口組成,構成一組互補的、最不可利用的策略。

為了改進訓練方式,增加最終解決方案的多樣性,明確鼓勵多樣性是有意義的。

AlphaStar也可以歸為質量多樣性(QD)算法。尤其是,智能體可以具有游戲特定的屬性,例如構建特定類型的額外單位,以及擊敗某個其他智能體的標準,擊敗一組其他智能體的標準,甚至是上述這些要素的混合。

此外,這些特定標準也可以在線調整,這對于QD算法而言屬于全新的特性——除了POET以外。這使得智能體可以做到更多的事情:可以從人類數據中提取有用的信息,甚至進行無監督學習。

考慮到一系列不同的策略,下一步將自然而然地推斷哪種策略可能最適合對付給定的對手,從而實現在線適應。

討論

雖然AlphaStar是一個復雜的系統,涉及人工智能研究的許多領域,但我們認為,迄今為止被低估的一點是競爭性協同進化算法策略。它結合了拉馬克進化,共同進化和質量多樣性,達到了驚人的效果。

希望本文能夠讓進化計算和深度強化學習社區更好地欣賞和構建這個重要的AI系統。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能體
    +關注

    關注

    1

    文章

    114

    瀏覽量

    10476
  • 深度學習
    +關注

    關注

    73

    文章

    5257

    瀏覽量

    120065
  • DeepMind
    +關注

    關注

    0

    文章

    128

    瀏覽量

    10725

原文標題:DeepMind首個戰勝星際2職業玩家的AI為何無敵?新視角揭秘AI里程碑

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    未來的AI 深挖谷歌 DeepMind 和它背后的技術

    的游戲可以提高戰略思維能力。通過學習如何玩這些復雜的游戲,機器將獲得思考和采取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過游戲化學習,嘗試獲得類人的智力和行為。盡管該公司對實現人類智能
    發表于 08-26 12:04

    ESP8266實際上是從哪里來的?

    ESP8266實際上是從哪里來的?
    發表于 05-15 08:36

    基于差分演化算法的PID參數優化算法

    PID 參數優化是自動控制領域研究的一個重要問題. 提出了一種差分演化算法的PID參數優化算法, 同時, 為了增強算法的易用性, 對差分演化
    發表于 06-20 10:19 ?25次下載

    利用PLD實現智能演化計算

    演化計算是一種通過模擬的自然界的生物演化過程搜索最優解的方法,主要包括遺傳算法(CA)、演化策略(ES)、演化規劃(EP)等。
    發表于 06-26 17:43 ?24次下載

    基于編碼轉換的離散演化算法設計與應用

    為了利用演化算法求解離散域上的組合優化問題,借鑒遺傳算法(GA)、二進制粒子群優化(BPSO)和二進制差分演化(HBDE)中的映射方法,提出了一種基于映射變換思想設計離散
    發表于 12-14 16:12 ?0次下載

    AlphaStar橫空出世 星際爭霸2人類1:10輸給AI

     剛剛,我們見證了 AI 與人類 PK 的又一次重大進展!DeepMind 北京時間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭霸 2》中與2位職業選手的比賽
    的頭像 發表于 01-25 09:40 ?3167次閱讀

    一天等于兩百年?人工智能星際爭霸2上向人類發出挑戰

    今天,一則《Deepmind公布星際爭霸2結果:AlphaStar以10:1戰勝職業高手》一文,引發熱議,但是其實在兩年前,AI就與人類選手進行過星際爭霸比賽。2017年,世界首屆人類
    的頭像 發表于 07-29 18:21 ?748次閱讀

    揭秘星際2人工智能AlphaStarDeepMind科學家回應一切

    神經網絡本身大概要花 50 毫秒來計算一個動作,但這只是游戲事件發生和 AlphaStar 對該事件做出反應期間的部分處理過程。首先,AlphaStar 平均每 250 毫秒才觀察一次游戲,這是因為神經網絡除了本身的動作(有時被稱為時間抽象動作)之外,還會等待一些其他的游
    的頭像 發表于 01-28 15:39 ?3349次閱讀

    為什么DeepMind的科學家們對星際爭霸如此癡迷

    星際在全球玩家眾多,是最流行的一款實時策略游戲之一,而 DeepMind 匯聚了全球最頂尖的人工智能科學家,似乎兩者出現在同一個場景里有些違和。大眾刻板印象里面,科學家一般都與實驗科研為伍,怎么會對玩
    的頭像 發表于 01-29 10:43 ?3845次閱讀

    DeepMind在倫敦向世界展示了他們的最新成果——星際爭霸2人工智能AlphaStar

    星際爭霸中包含神族、人族、蟲族三種選擇,不同種族有不同的作戰單位、生產機制和科技機制,因而各個種族間存在戰術制衡。為了降低任務訓練所需時間,并避免不同種族間客觀存在的不平衡性,AlphaStar以神族對陣神族為特定訓練場景,固定使用天梯地圖-CatalystLE為訓練和對
    的頭像 發表于 01-30 15:56 ?5204次閱讀

    AIoT在今年將會迎來的一波熱潮

    AI近些年非?;馃?,尤其借由DeepMind推出的AlphaGo在圍棋領域戰勝人類一事,一度將其推上“神壇”。時隔兩年,DeepMind攜全新AlphaStar再次驚艷亮相,最近在策略類游戲“
    發表于 02-12 16:29 ?1533次閱讀

    企業怎樣利用人工智能術取得跨越式發展?人工智能領域還有哪些創業機會

    谷歌旗下公司DeepMind開發的全新AI程序AlphaStar,在《星際爭霸2》人機大戰中,以10:1的戰績,全面擊潰了人類職業高手。這不禁讓人想到2017年AlphaGo以3場全勝的戰績,擊敗當時世界排名第一的圍棋選手柯潔的
    的頭像 發表于 03-18 10:02 ?2573次閱讀

    人工智能告訴我們未來需要更深入地探索人類創造力的本質

    人工智能這幾年發展勢頭迅猛,先是阿爾法狗擊敗了世界頂級圍棋高手李世石和柯潔。這一次人工智能算法再一次擊敗人類專家,稱霸了另一款電腦游戲,谷歌DeepMindAlphaStar系統在《
    發表于 03-31 11:00 ?709次閱讀

    DeepMind阿爾法被打臉,華為論文指出多項問題

    DeepMind 在強化學習領域具有很高的學術聲譽。從 AlphaGo 到 AlphaStar,每一項研究都取得了舉世矚目的成就,但就在最近,DeepMind 的一篇有關多智能體強化學
    的頭像 發表于 11-22 16:26 ?3017次閱讀
    <b class='flag-5'>DeepMind</b>阿爾法被打臉,華為論文指出多項問題

    基于單分類的演化算法預選擇策略OCPS

    基于單分類的演化算法預選擇策略OCPS
    發表于 06-07 16:07 ?2次下載
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>