<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

DeepMind新作AlphaDev----強化學習探索更優排序算法

前言

DeepMind 最近在 Nature 發表了一篇論文 AlphaDev[2, 3]，一個利用強化學習來探索更優排序算法的AI系統。

AlphaDev 系統直接從 CPU 匯編指令的層面入手去探索更優的排序算法，因為相對于高級編程語言來說，在匯編指令層級對存儲和寄存器的操作可以更加的靈活，所以能發現更多潛在的調優策略。

在 AlphaDev 的論文中，只關注探索短序列排序：

定長序列排序（比如 sort3 算法只能對長度為3的序列進行排序）
變長序列排序（比如 variable sort5 算法可以對長度為1~5的變長序列進行排序）

而對于長序列的排序，可以被分解為短序列的排序。

DeepMind 通過 AlphaDev 發現了比目前人工調優算法更優的定長短序列排序算法 sort3，sort4 和 sort5 ，并且已經將代碼提交到了 LLVM 標準 C++ 庫[4] 。

簡單來說，AlphaDev 將探索更高效排序算法的過程，建模為一個單玩家的匯編游戲（single-player game， AssemblyGame）。

游戲的過程就是玩家從 CPU 匯編指令集合中，選取一系列的指令組合得到一個新的排序算法。不過這個過程是非常有挑戰的，玩家需要考慮，匯編指令的組合空間并最終得得到一個正確和高效的算法。

該游戲主要包括以下難點：

匯編游戲的搜索空間和圍棋類似（10^700）
只要有一條指令沒弄對，可能就會導致整個算法錯誤

AlphaDev 系統詳解

將排序算法表示為 CPU 匯編指令

首先來看一個簡單的變長（variable sort2）短排序函數的 C 代碼實現，排序結果從小到大：

voidvariable_sort_2(intlength,int*a){
switch(length){
case0:
case1:
return;
case2:
inttmp=a[0];
//a[0]保存兩者之間的最小值
a[0]=(a[1]0])?a[1]:a[0];
//a[1]保存兩者之間的最大值
a[1]=(a[1]1];
return;
}
}

通過 gcc 生成對應的匯編代碼，我用的 gcc 版本是 11.3.0，命令 gcc -S -O1 -o sort2.s sort2.c

匯編代碼只保留了核心部分，生成的結果和論文中的示例有些許不同但是原理是一致的：

variable_sort_2:  
.LFB0:
; %edi 寄存器保存參數 length 的值
; cmpl 指令對比 %edi 和 常量 2
cmpl$2, %edi 
; 相等就跳轉到 .L3 標簽處，
        ; 對應 C 代碼的 case 2
je.L3
.L1:
; 不等于 2 就直接返回，
        ; 對應 C 代碼 case 0 和 1
ret 
.L3:
; 將 a[0] 賦值給寄存器 %edx 
movl(%rsi), %edx
; 將 a[1] 賦值給寄存器 %eax 
movl4(%rsi), %eax
; 對比 %edx 和 %eax
cmpl%edx, %eax
; 將 %edx 賦值給 %ecx
movl%edx, %ecx
; cmov 是條件移動指令根據 cmpl 
; 指令的結果判斷是否執行
; 如果 %eax <= %edx 
; 則將 %eax 賦值給 %ecx
cmovle%eax, %ecx
; 此時 %ecx 保存了最小值
; 將 %ecx 賦值給 a[0]
movl%ecx, (%rsi)
; 如果 %eax 小于 %edx
; 則將 %edx 賦值給 %eax
cmovl%edx, %eax
; 此時 %eax 保存了最大值
; 將 %eax 賦值給 a[1]
movl%eax, 4(%rsi)
jmp.L1

一般來說匯編程序所做的事情基本都是，將內存的值復制到寄存器，然后對寄存器的值作修改，再將寄存器的值寫回到內存中。

而 AlphaDev 系統只關注 x86 處理器架構所支持的匯編指令集合的一個子集。

每條匯編指令的格式均為：操作碼<操作數A, 操作數B> 比如：

mov 移動指令，表示將 A 的值賦值給 B
cmp 比較指令，相當于執行 A - B 操作，但是不會對 A 和 B 做修改，而是根據相減的結果設置特殊的 flag 寄存器，更多內容可以參考[5]
cmovX 條件移動指令，根據 X 和 flag 寄存器的值判斷是否執行將 A 賦值給 B 的操作，一般都是出現在 cmp 指令之后。X 可以是 L （是否滿足小于條件）， G （是否滿足大于條件），LE （是否滿足小于或等于條件），GE （是否滿足大于等于條件）。
jX 條件跳轉指令，根據 X 和 flag 寄存器的值判斷是否執行跳轉到指定標記位置操作，A 可以是匯編程序代碼中的標記位置，如上面所示匯編代碼的 .L1 和 .L3。X 可以是 NE （是否不等于），E （是否等于）或者可以填表示無條件跳轉。

將探索更優排序算法表示為強化學習問題

AlphaDev 將 CPU 匯編指令層面的算法優化過程轉化為一個單玩家的游戲。

游戲每一步的狀態定義為 : St = 。

其中， Pt 表示游戲到至今為止所生成的算法，Zt 則表示在給定輸入的前提下執行完 Pt 里的指令之后，內存和寄存器的狀態。

如上圖所示，在時間步 t ，AlphaDev 接受到當前狀態 St 和所要執行的動作 at （比如 mov ），也就是往當前生成的算法 Pt 中添加的合法匯編指令。

在添加完指令之后，就是計算獎勵分數 rt （包括評估算法的正確性和延遲）。

算法正確性評估

正確性評估就是將 N 組測試序列輸入到算法 Pt 中，得到N 組輸出，和正確的排序結果最比較來計算獎勵分數。

論文中給出了3種正確性評估函數，首先定義 P 為輸入序列長度， PCt 為在時間步 t 序列中，位置正確的值的個數，這里我理解應該是和正確的排序結果逐個位置對比，統計相等的個數。

三個函數分別定義如下：

func1 = (P - PCt) / P
func2 = sqrt(func1)
func3 = sqrt(PCt)

論文中提到采用第三個函數效果最好。

延遲評估

延遲分數的計算可以是：

對系統增加代碼長度計算懲罰，因為代碼的長度一般都是和耗時高度相關
直接計算算法的真實耗時

整個強化學習的游戲在執行有限步驟之后就會被終止。只有生成正確而又低延遲的匯編代碼才算贏得游戲。而不管是生成了錯誤的代碼還是正確但低效的實現都視為游戲輸了。

AlphaDev 采用的強化學習算法是對 AlphqaZero 算法的擴展，也是采用深度神經網絡來引導蒙特卡洛樹搜索（MCTS）的規劃過程。網絡模型的輸入是 St ，輸出是對動作策略和獎勵的預測。

整個游戲過程簡單來說就是，用一個固定參數的網絡模型，通過給定的當前狀態執行一個蒙特卡洛樹搜索過程，然后采取下一步動作。然后可以用生成的游戲過程（包含每一步的狀態和獎勵）去訓練和更新網絡的參數。

網絡模型結構

模型包含兩部分：

一個 Transformer 編碼器模塊，用于建模算法，輸入是至今為止生成的匯編指令序列
一個 CPU 狀態編碼器 MLP 模塊，輸入當前寄存器和內存的狀態

兩個網絡的輸出 embedding 會合并在一起來表示當前的狀態。

網絡模型整體的結構如下：

Transformer 編碼器模塊具體圖示

如上圖所示，把當前生成的匯編代碼序列的每一條指令的操作碼和操作數都轉換為 one-hot 編碼序列，然后輸入到網絡中。

但是具體的 one-hot 編碼規則、詞表怎么設置、還有對于 CPU 狀態編碼網絡寄存器和內存的狀態是怎么表示為網絡的輸入的等等，這些細節我在論文里沒找到。

然后兩個網絡的輸出 embedding 會合并到一起接著輸入到幾個函數頭里計算，分別是預測下一步策略的函數頭，預測算法正確性的函數頭和預測算法真實延遲的函數頭。

網絡參數超參設置

論文的補充資料中提供了網絡的參數和三個函數頭的具體配置。

而對于策略的預測，論文中提到為了簡化問題和提高收斂性，而對動作空間做了一些限制，規則如下：

必須按照升序方式讀取內存
寄存器按照升序分配
cmp 和 cmovX 指令的操作數不能出現內存地址
對每個內存位置，只能讀取和寫入一次
每個寄存器在使用之前，必須初始化
不能連續調用 cmp 指令

訓練細節

AlphaDev 的訓練采用了 TPU v3，每個 TPU 核的 batch size 是 1024 ，總共用了 16 個 TPU 核，總共訓練了 100 萬次迭代。而在對于玩游戲積累訓練數據來說，則是在 TPU v4 上進行，總共用了 512 個 TPU 核。

實驗結果表明，最多只需2天模型就能訓收斂。

實驗結果

生成的算法和人工調優對比

從實驗結果表格可以看到，對于短序列排序算法 AlphaDev 生成的代碼長度更短，而且平均耗時也更低。

對生成算法延遲的評估方式，比如對于 sort3 則是在 100 臺機器上做評估，每臺機器隨機生成 1000 條 3個數的序列，然后每條序列輸入到算法中，對這 1000 次評估取第5百分位數作為最終的評估結果（排除 cache miss 和任務搶占等因素）。

耗時采用的是 CPU_CLK_UNHALTED.CORE 這個計數器結果，其計數值表示在一個特定時間段內，處理器內核的時鐘周期數。這個值越高，意味著處理器內核在該時間段內執行了更多的指令。

AlphaDev 發現新的算法

對于定長序列排序，當應用到排序網絡算法[6]（sorting network algorithm）的時候 AlphaDev 生成的代碼中包含了一些有趣指令序列，相對于原始指令序列可以減少一條匯編指令，論文中稱之為：

AlphaDev swap move
AlphaDev copy move

啥是排序網絡算法？

排序網絡算法（Sorting Network Algorithm）是一種能夠對一組輸入數據進行排序的并行算法，其具有較好的并行性能適用于多處理器或多核心系統。

該算法的特點是，它將所有的比較和交換操作預先規劃好形成一個固定的結構，然后將輸入數據按照這個結構進行排序。

排序網絡由比較器（comparator）和線（wire）組成，如下圖所示：

水平線表示 wire，每條水平線持有一個待排序的值。兩條 wire 之間的垂直線段就表示一個比較器，比較器對比兩條水平線的值，如果比較器下方的值小于上方的值則交換兩條橫線的值，否則則不交換。

一個優化過的排序網絡可以以最少的比較器，并將這些比較器放置在特定位置上，來實現對任意序列進行排序。

下圖是對一個構造好的排序網絡，輸入真實待排序序列的例子：

可見初始輸入是 [2, 3, 1, 4]，這些隨機數從左到右按順序經過這些比較器之后，就得到了排序好的序列 [1, 2, 3, 4]。

AlphaDev swap move

先來看這個排序網絡，只看紅圈部分的功能就是對給定的輸入 [A, B, C] 將其轉換為 [min(A,B,C), max(min(A,C),B), max(A,C)]。

然后經過 AlphaDev 優化之后，可以將第一個輸出的 min(A,B,C) 改為只計算 min(A,B)，原因是因為前面的 B 和 C橫線之間經過比較器之后已經有了前置條件 B <= C。

而通過這個優化就能省去一條匯編指令，下圖是紅圈部分的偽代碼實現：

左邊是原始偽代碼實現，右邊是經過 AlphaDev 優化之后的實現，可以看到少了一條匯編指令 mov S P。

AlphaDev copy move

接下來看對4個元素進行排序的排序網絡，是在對 sort8 這個算法優化過程中發現的。該排序網絡對于輸入序列 [A, B, C, D] 轉換為 [min(A, B, C, D), max(B, min(A, C, D), max(C, min(A, D)), max(A, D) ]。

該排序網絡是 sort8 的一個子排序網絡，而根據比較器的放置位置來看，A 和 D 比較之后后續就不再和其他元素比較了，所以D出來的結果就是四個元素中最大的，所以隱含了一個條件就是 D >= min(A, C)。

因此對第二個輸出元素的計算可以從 max(B, min(A, C, D)) 改為 max(B, min(A, C))，就可以節省一條匯編指令。

偽代碼如下:

左邊是原始偽代碼實現，右邊是經過 AlphaDev 優化之后的實現，可以看到少了一條匯編指令 mov P T。

總結

這篇文章只是對 AlphaDev 論文中的主要內容作解讀，對于更多的內容和細節感興趣的讀者可以查閱原論文和論文的補充資料 [2,3]，DeepMind 也也開源了一份偽代碼實現 [7]。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4474

瀏覽量
91107
強化學習

強化學習

+關注

關注
4

文章
262

瀏覽量
11134
DeepMind

DeepMind

+關注

關注
0

文章
128

瀏覽量
10729

原文標題：DeepMind 新作 AlphaDev ---- 強化學習探索更優排序算法

文章出處：【微信號：GiantPandaCV，微信公眾號：GiantPandaCV】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

反向強化學習的思路

強化學習的另一種策略（二）

發表于 04-03 12:10

未來的AI 深挖谷歌 DeepMind 和它背后的技術

的游戲可以提高戰略思維能力。通過學習如何玩這些復雜的游戲，機器將獲得思考和采取戰略行動的能力。DeepMind的通用學習算法讓機器可以通過游戲化學習

發表于 08-26 12:04

深度強化學習實戰

內容2:課程一： TensoRFlow入門到熟練：課程二：圖像分類：課程三：物體檢測：課程四：人臉識別：課程五：算法實現：1、卷積神經網絡CNN2、循環神經網絡RNN3、強化學習DRL4、對抗性生成

發表于 01-10 13:42

將深度學習和強化學習相結合的深度強化學習DRL

深度強化學習DRL自提出以來，已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo，將深度強化學習DRL成推上新的熱點和高度

發表于 06-29 18:36 ?2.8w次閱讀

基于強化學習的MADDPG算法原理及實現

之前接觸的強化學習算法都是單個智能體的強化學習算法，但是也有很多重要的應用場景牽涉到多個智能體之間的交互。

發表于 11-02 16:18 ?2.1w次閱讀

谷歌、DeepMind重磅推出PlaNet 強化學習新突破

Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet)，這是一個純粹基于模型的智能體，能從圖像輸入中學習世界模型，完成多項規劃任務，數據效率平均提升50倍，強化學習又一突破。

發表于 02-17 09:30 ?3111次閱讀

DeepMind發布強化學習庫RLax

RLax（發音為“ relax”）是建立在JAX之上的庫，它公開了用于實施強化學習智能體的有用構建塊。。報道：深度強化學習實驗室作者：DeepRL ...

發表于 12-10 18:43 ?551次閱讀

機器學習中的無模型強化學習算法及研究綜述

強化學習（ Reinforcement learning，RL）作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式，通過與環境進行

發表于 04-08 11:41 ?11次下載

一種新型的多智能體深度強化學習算法

一種新型的多智能體深度強化學習算法

發表于 06-23 10:42 ?36次下載

強化學習的基礎知識和6種基本算法解釋

來源：DeepHub IMBA 強化學習的基礎知識和概念簡介（無模型、在線學習、離線強化學習等）機器學習(ML)分為三個分支:監督學習、無

發表于 12-20 14:00 ?910次閱讀

谷歌DeepMind發現更快排序算法，已集成到C++庫

細節因所玩游戲而異，但 DeepMind 軟件確實能在重復游玩中不斷學習，持續探索能令得分最大化的辦法。

發表于 06-09 17:11 ?592次閱讀

它發現了更快的排序算法，速度快 70%

這一次，Google DeepMind 的全新強化學習系統 AlphaDev 發現了一種比以往更快的哈希算法，這是計算機科學領域中的一種基本算法

發表于 06-12 14:46 ?380次閱讀

利用強化學習來探索更優排序算法的AI系統

前言 DeepMind 最近在 Nature 發表了一篇論文 AlphaDev[2, 3]，一個利用強化學習來探索更優

發表于 06-19 10:49 ?431次閱讀

詳解DeepMind排序算法

DeepMind 的這一發現確實居功至偉，但不幸的是，他們未能解釋清楚算法。下面，我們來詳細看看他們發布的一段匯編代碼，這是一個包含三個元素的數組的排序，我們將偽匯編轉換為匯編：

發表于 06-21 15:38 ?291次閱讀

語言模型做先驗，統一強化學習智能體，DeepMind選擇走這條通用AI之路

在智能體的開發中，強化學習與大語言模型、視覺語言模型等基礎模型的進一步融合究竟能擦出怎樣的火花？谷歌 DeepMind 給了我們新的答案。一直以來，DeepMind 引領了強化學習（

發表于 07-24 16:55 ?367次閱讀

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
18小時前

857 閱讀

如何移植FFmpeg

ElfBoard
2天前

587 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

819 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
3天前

826 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
3天前

819 閱讀

模數轉換器ADS1100及其在測量中的應用

劉滿貴
224

免費

30下載

意法半導體 STM8 和 STM32 產品選型手冊

陳貝貝
2546KB

免費

176下載

16篇關于FPGA圖像處理的論文詳細資料免費下載

文驚蟄
15.47 MB

免費

40下載

正弦波逆變器的資料和電路圖免費下載

KK
0.22 MB

免費

155下載

DIY ESP32模塊

golabs
0.08 MB

免費

7下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

740 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

308 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

929 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

1029 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1530 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看