<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

DeepMind的“星際2”智能體AlphaStar實際上是演化算法？

深度強化學習、多智體強化學習以及博弈論，是DeepMind戰勝職業星際II玩家的智能體AlphaStar的重要技術。倫敦帝國大學和NYU研究人員則從進化計算的角度指出，AlphaStar使用的競爭協同進化算法策略被遠遠低估。

DeepMind首次戰勝星際II職業玩家的AI——AlphaStar，正如新智元創始人兼CEO楊靜女士在《新智元2019年寄語》中所說的那樣，引爆機器智能無限可能。

AlphaStar是一項壯舉，是建立在DeepMind及其他研究人員多年的研究和工程基礎之上，尤其是深度強化學習(DRL)、多智體強化學習(MARL)和博弈論。

雖然在官方博文中，DeepMind也提到了進化算法(Evolutionary Algorithm, EA)，但這顯然并非其重點。不過，倫敦帝國學院的Kai Arulkumaran等人，反過來從進化算法的角度來看AlphaStar，希望對深度強化學習領域和進化計算的研究者都帶來啟發。

進化計算和深度學習并非對立的兩個陣營。

事實上，Arulkumaran等人最新在Arxiv上貼出的論文《從進化計算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective)，也確實提出了很多新的問題。

例如，在DeepMind提出的快速調參算法PBT中，用Baldwinian進化算法代替拉馬克(Lamarckian)進化，是否能得到元學習星際II智能體？

Arulkumaran本人也在Twitter表示，這篇文章是對一系列概念的高級概括，還需要進一步探索，他們在寫作時有意識地省略了演化計算和博弈論之間重疊的部分。

同時，他也指出，不能認為AlphaStar僅僅只是一個演化算法，AlphaStar的混合性質有些類似于AlphaGo atm?！癉eepMind官方博文顯示了從IL階段MMR的提升，這一點看起來很重要，但哪些細節是最重要的，我們目前還不知道?！?/p>

以下是新智元對文章的編譯。

從進化計算角度看AlphaStar

2019年1月，DeepMind向世界展示了AlphaStar——第一個在星際爭霸II游戲中擊敗職業玩家的人工智能（AI）系統，它代表了人工智能技術進步的一個里程碑。

AlphaStar涉及人工智能研究的許多領域，包括深度學習，強化學習，博弈論和進化計算等（EC）。

在本文中，我們主要通過進化計算的角度來分析AlphaStar，為審視該系統提供一個新的視角，并將其與AI領域的許多概念關聯起來。我們重點介紹其中一些最有趣的方面：拉馬克進化、協同競爭進化和質量多樣性。希望通過本文，在更廣泛的進化計算社區與新誕生的這個重要的AI系統之間架起一座橋梁。

在1997年”深藍“擊敗國際象棋世界冠軍后，人工智能與人類博弈的下一個重要里程碑是出現在2016年，圍棋世界冠軍李世乭被AlphaGo擊敗。國際象棋和圍棋此前都被認為是AI取得進展最困難的領域，可以說，與之相比難度相當的考驗之一就是擊敗星際爭霸（SC）游戲中的大師級玩家。

星際爭霸是一款即時戰略（RTS）游戲?！缎请H1》及其續作《星際II》都具有幾個特點，使得它甚至比圍棋的挑戰更大。比如只能觀察到戰場的一部分、沒有單一的主導策略、復雜的游戲規則、快速建模的難度更大，動作空間極大，且復雜多變等?？梢哉f，想實現征服《星際爭霸》的目標，一點也不比圍棋上的突破來得容易。

想實現征服《星際爭霸》的目標，一點也不比圍棋上的突破來得容易。圖片來源：Jesus Rodriguez, The Science Behind AlphaStar

最近，DeepMind推出的AlphaStar向著實現這個目標邁出了重要一步，AlphaStar是一個基于神經網絡的AI系統，在2018年12月擊敗了專業的SC II玩家。

該系統與其前身AlphaGo一樣，最初使用模仿學習來模仿人類的游戲行為，然后通過強化學習（RL）和自我對弈的組合方式進行改進。

算法在這里發生了分歧，因為AlphaStar利用基于人口的訓練（PBT）來明確地保持一群相互訓練的智能體。這部分訓練過程建立在多智能體強化學習和博弈論視角之上，但人口的概念是進化計算的核心，因此我們也可以通過這個視角來考察AlphaStar。

AlphaStar使用了拉馬克進化算法

目前，訓練神經網絡參數的最流行的方法是反向傳播（BP）。但是，有許多方法可以調整其超參數，包括進化算法。

其中一種方法是使用模因算法（MA），這個算法中，進化作為外部優化算法運行，并且各個解決方案可以通過內環中的其他方式（例如反向傳播）來進行優化。在這種特定情況下，模因算法可以將進化算法的探索和全局搜索屬性與反向傳播算法的高效本地搜索的優勢結合起來。

AlphaStar的基本架構。來源：DeepMind

在AlphaStar中，用于訓練智能體的基于人口的訓練策略（PBT）是使用拉馬克進化（LE）的模因算法：在內環中，使用反向傳播連續訓練神經網絡，而在外環中，使用幾種選擇方法中的一種來選擇網絡（比如淘汰制錦標賽選擇），用勝者的參數覆蓋敗者的參數，敗者也會收到勝者超參數的“變異”副本。

PBT策略最初是通過一系列監督學習和強化學習任務展示的，調整和提升神經網絡的性能。對于具有高度非平穩損耗表面的問題，例如深度強化學習問題，這種策略可能是最有效的，因為它可以在運行過程中改變超參數。

AlphaStar vs MaNa，神經網絡如何將觀察到的結果轉換為行動。來源：DeepMind

由于單個網絡可能需要高達數G的內存，或需要訓練長達幾個小時，因此可擴展性是PBT的關鍵。因此，PBT既是異步的，又是分布式的。與使用靜態超參數運行許多實驗不同，使用相同數量的硬件，利用PBT只需要很少的開銷——外部循環可以重用內部循環的解決方案進行評估，而且數據通信量也比較低。如果考慮非平穩超參數因素和對較弱解決方案的優先搶占的影響，PBT方案能夠節省的成本更多。

這些要求的另一個結果是PBT是穩定狀態，這一點與分代進化算法不同。由于對異步進化算法和拉馬克進化的自然適應性，穩態進化算法可以允許各個解決方案的優化和評估不間斷地進行，從而實現資源效率最大化。

最適合的解決方案能夠存活更長時間，自然地提供了一種精英主義/名人堂模式，但并非最優的前代方案也可以保留下來，保持解決方案多樣性。

自我對弈也體現了競爭性協同進化（CCEA）

在對AlphaStar一類游戲智能體進行優化時，智能體可以使用自對戰來提升水平。

競爭性協同進化算法（CCEA）可以被視為自我對弈的超集（superset），并非只保留當前解決方案及其前身，而是保持和評估整個解決方案的群體。

與自我對弈一樣，CEA形成了一個自然的教學過程，但也提供了額外的穩健性，因為產生的解決方案是基于各種其他解決方案進行評估的。

AlphaStar的訓練過程。來源：DeepMind

通過在CCEA環境中使用PBT策略，利用基于反向傳播的深度強化學習，再加上進化版的獎勵函數，能夠訓練智能體從像素級入手，開始學習玩第一人稱游戲。

CEA的設計包括很多方面，這種方法的特征可能導致許多潛在的變體。

AlphaStar還可以歸為質量多樣性算法

在《星際爭霸》中，沒有所謂“最好的策略”。因此，最終的AlphaStar智能體由納什分布的人口組成，構成一組互補的、最不可利用的策略。

為了改進訓練方式，增加最終解決方案的多樣性，明確鼓勵多樣性是有意義的。

AlphaStar也可以歸為質量多樣性（QD）算法。尤其是，智能體可以具有游戲特定的屬性，例如構建特定類型的額外單位，以及擊敗某個其他智能體的標準，擊敗一組其他智能體的標準，甚至是上述這些要素的混合。

此外，這些特定標準也可以在線調整，這對于QD算法而言屬于全新的特性——除了POET以外。這使得智能體可以做到更多的事情：可以從人類數據中提取有用的信息，甚至進行無監督學習。

考慮到一系列不同的策略，下一步將自然而然地推斷哪種策略可能最適合對付給定的對手，從而實現在線適應。

討論

雖然AlphaStar是一個復雜的系統，涉及人工智能研究的許多領域，但我們認為，迄今為止被低估的一點是競爭性協同進化算法策略。它結合了拉馬克進化，共同進化和質量多樣性，達到了驚人的效果。

希望本文能夠讓進化計算和深度強化學習社區更好地欣賞和構建這個重要的AI系統。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

智能體

智能體

+關注

關注
1

文章
114

瀏覽量
10476
深度學習

深度學習

+關注

關注
73

文章
5257

瀏覽量
120065
DeepMind

DeepMind

+關注

關注
0

文章
128

瀏覽量
10725

原文標題：DeepMind首個戰勝星際2職業玩家的AI為何無敵？新視角揭秘AI里程碑

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

未來的AI 深挖谷歌 DeepMind 和它背后的技術

的游戲可以提高戰略思維能力。通過學習如何玩這些復雜的游戲，機器將獲得思考和采取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過游戲化學習，嘗試獲得類人的智力和行為。盡管該公司對實現人類智能

發表于 08-26 12:04

ESP8266實際上是從哪里來的？

ESP8266實際上是從哪里來的？

發表于 05-15 08:36

基于差分演化算法的PID參數優化算法

PID 參數優化是自動控制領域研究的一個重要問題. 提出了一種差分演化算法的PID參數優化算法, 同時, 為了增強算法的易用性, 對差分演化

發表于 06-20 10:19 ?25次下載

利用PLD實現智能演化計算

演化計算是一種通過模擬的自然界的生物演化過程搜索最優解的方法，主要包括遺傳算法（CA）、演化策略（ES）、演化規劃（EP）等。

發表于 06-26 17:43 ?24次下載

基于編碼轉換的離散演化算法設計與應用

為了利用演化算法求解離散域上的組合優化問題，借鑒遺傳算法（GA）、二進制粒子群優化（BPSO）和二進制差分演化（HBDE）中的映射方法，提出了一種基于映射變換思想設計離散

發表于 12-14 16:12 ?0次下載

AlphaStar橫空出世星際爭霸2人類1：10輸給AI

　剛剛，我們見證了 AI 與人類 PK 的又一次重大進展！DeepMind 北京時間 1 月 25 日凌晨 2:00 起公布了其錄制的 AI 在《星際爭霸 2》中與2位職業選手的比賽

的頭像

發表于 01-25 09:40 ?3167次閱讀

一天等于兩百年？人工智能在星際爭霸2上向人類發出挑戰

今天，一則《Deepmind公布星際爭霸2結果：AlphaStar以10:1戰勝職業高手》一文，引發熱議，但是其實在兩年前，AI就與人類選手進行過星際爭霸比賽。2017年，世界首屆人類

的頭像

發表于 07-29 18:21 ?748次閱讀

揭秘星際2人工智能AlphaStar：DeepMind科學家回應一切

神經網絡本身大概要花 50 毫秒來計算一個動作，但這只是游戲事件發生和 AlphaStar 對該事件做出反應期間的部分處理過程。首先，AlphaStar 平均每 250 毫秒才觀察一次游戲，這是因為神經網絡除了本身的動作（有時被稱為時間抽象動作）之外，還會等待一些其他的游

的頭像

發表于 01-28 15:39 ?3349次閱讀

為什么DeepMind的科學家們對星際爭霸如此癡迷

星際在全球玩家眾多，是最流行的一款實時策略游戲之一，而 DeepMind 匯聚了全球最頂尖的人工智能科學家，似乎兩者出現在同一個場景里有些違和。大眾刻板印象里面，科學家一般都與實驗科研為伍，怎么會對玩

的頭像

發表于 01-29 10:43 ?3845次閱讀

DeepMind在倫敦向世界展示了他們的最新成果——星際爭霸2人工智能AlphaStar

星際爭霸中包含神族、人族、蟲族三種選擇，不同種族有不同的作戰單位、生產機制和科技機制，因而各個種族間存在戰術制衡。為了降低任務訓練所需時間，并避免不同種族間客觀存在的不平衡性，AlphaStar以神族對陣神族為特定訓練場景，固定使用天梯地圖-CatalystLE為訓練和對

的頭像

發表于 01-30 15:56 ?5204次閱讀

AIoT在今年將會迎來的一波熱潮

AI近些年非?；馃?，尤其借由DeepMind推出的AlphaGo在圍棋領域戰勝人類一事，一度將其推上“神壇”。時隔兩年，DeepMind攜全新AlphaStar再次驚艷亮相，最近在策略類游戲“

發表于 02-12 16:29 ?1533次閱讀

企業怎樣利用人工智能術取得跨越式發展?人工智能領域還有哪些創業機會

谷歌旗下公司DeepMind開發的全新AI程序AlphaStar，在《星際爭霸2》人機大戰中，以10：1的戰績，全面擊潰了人類職業高手。這不禁讓人想到2017年AlphaGo以3場全勝的戰績，擊敗當時世界排名第一的圍棋選手柯潔的

發表于 03-18 10:02 ?2573次閱讀

人工智能告訴我們未來需要更深入地探索人類創造力的本質

人工智能這幾年發展勢頭迅猛，先是阿爾法狗擊敗了世界頂級圍棋高手李世石和柯潔。這一次人工智能算法再一次擊敗人類專家，稱霸了另一款電腦游戲，谷歌DeepMind的AlphaStar系統在《

發表于 03-31 11:00 ?709次閱讀

DeepMind阿爾法被打臉，華為論文指出多項問題

DeepMind 在強化學習領域具有很高的學術聲譽。從 AlphaGo 到 AlphaStar，每一項研究都取得了舉世矚目的成就，但就在最近，DeepMind 的一篇有關多智能體強化學

發表于 11-22 16:26 ?3017次閱讀

基于單分類的演化算法預選擇策略OCPS

基于單分類的演化算法預選擇策略OCPS

發表于 06-07 16:07 ?2次下載

精選推薦
更多

文章

資料

帖子

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
1小時前

141 閱讀

Node-RED實現電表數據采集并上云

億佰特物聯網應用專家
3小時前

104 閱讀

開發者分享 | 基于先楫RT-Thread BSP，使用CLion開發應用

先楫半導體HPMicro
3小時前

132 閱讀

一種擺脫有線束縛的通信技術--無線傳輸

朱老師物聯網大講堂
3小時前

142 閱讀

利用愛星物聯服務腳手架實現定制服務

AIoT行業洞察
2小時前

277 閱讀

基于嵌套滾動視圖+方向布局封裝的可擴展的列表

姚小熊27
2.28 MB

免費

4下載

基于SharedPreferences的OkHttp3的持久CookieJar實現

姚小熊27
0.10 MB

免費

3下載

nitrogen基于vue的純前端mac版桌面

ah此生不換
8.23 MB

免費

0下載

LibSourcey C++高性能網絡開發庫

李藝銀
27.68 MB

免費

3下載

MoChat基于企業微信的開源應用開發框架&引擎

趙輝
6.35 MB

免費

1下載

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
11小時前

132 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
1天前

334 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
1天前

486 閱讀

DSP教學實驗箱操作教程：4-12 多路信號混頻實驗（自定義輸入信號）

創龍教儀
1天前

324 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-如何移植FFmpeg

jf_13411809
1天前

429 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看