<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

袁進輝:分享了深度學習框架方面的技術進展

mK5P_AItists ? 2018-01-25 09:23 ? 次閱讀

來源:微軟研究院AI頭條

概要:1月17日,院友袁進輝博士回到微軟亞洲研究院做了題為《打造最強深度學習引擎》的報告,分享了深度學習框架方面的技術進展。

1月17日,院友袁進輝博士回到微軟亞洲研究院做了題為《打造最強深度學習引擎》的報告,分享了深度學習框架方面的技術進展。報告中主要講解了何為最強的計算引擎?專用硬件為什么快?大規模專用硬件面臨著什么問題?軟件構架又應該解決哪些問題?

首先,我們一起來開一個腦洞:想象一個最理想的深度學習引擎應該是什么樣子的,或者說深度學習引擎的終極形態是什么?看看這會給深度學習框架和AI專用芯片研發帶來什么啟發。

以大家耳熟能詳的卷積神經網絡CNN 為例,可以感覺一下目前訓練深度學習模型需要多少計算力。下方這張表列出了常見CNN模型處理一張圖片需要的內存容量和浮點計算次數,譬如VGG-16網絡處理一張圖片就需要16Gflops。值得注意的是,基于ImageNet數據集訓練CNN,數據集一共大約120萬張圖片,訓練算法需要對這個數據集掃描100遍(epoch),這意味著10^18次浮點計算,即1exaFlops。簡單演算一下可發現,基于一個主頻為2.0GHz的CPU core來訓練這樣的模型需要好幾年的時間。

袁進輝:分享了深度學習框架方面的技術進展

袁進輝:分享了深度學習框架方面的技術進展

專用硬件比通用硬件(如CPU、GPU)快,有多種原因,主要包括:(1)通用芯片一般經歷“取指-譯碼-執行”(甚至包括“取數據”)的步驟才能完成一次運算,專用硬件大大減小了“取指-譯碼”等開銷,數據到達即執行;(2)專用硬件控制電路復雜度低,可以在相同的面積下集成更多對運算有用的器件,可以在一個時鐘周期內完成通用硬件需要數千上萬個時鐘周期才能完成的操作;(3)專用硬件和通用硬件內都支持流水線并行,硬件利用率高;(4)專用硬件片內帶寬高,大部分數據在片內傳輸。顯然,如果不考慮物理現實,不管什么神經網絡,不管問題的規模有多大,都實現一套專用硬件是效率最高的做法。問題是,這行得通嗎?

現實中,不管是通用硬件(如GPU)還是專用硬件(如TPU) 都可以通過高速互聯技術連接在一起,通過軟件協調多個設備來完成大規模計算。使用最先進的互聯技術,設備和設備之間傳輸帶寬可以達到100Gbps或者更多,這比設備內部帶寬低上一兩個數量級,不過幸好,如果軟件“調配得當”,在這個帶寬條件下也可能使得硬件計算飽和。當然,“調配得當”技術挑戰極大,事實上,單個設備速度越快,越難把多個設備“調配得當”。

當前深度學習普遍采用隨機梯度下降算法(SGD),一般一個GPU處理一小塊兒數據只需要100毫秒的時間,那么問題的關鍵就成了,“調配”算法能否在100毫秒的時間內為GPU處理下一塊數據做好準備,如果可以的話,那么GPU就會一直保持在運算狀態,如果不可以,那么GPU就要間歇性的停頓,意味著設備利用率降低。理論上是可以的,有個叫運算強度(Arithmetic intensity)的概念,即flops per byte,表示一個字節的數據上發生的運算量,只要這個運算量足夠大,意味著傳輸一個字節可以消耗足夠多的計算量,那么即使設備間傳輸帶寬低于設備內部帶寬,也有可能使得設備處于滿負荷狀態。進一步,如果采用比GPU更快的設備,那么處理一塊兒數據的時間就比100毫秒更低,譬如10毫秒,在給定的帶寬條件下,“調配”算法能用10毫秒的時間為下一次計算做好準備嗎?事實上,即使是使用不那么快(相對于TPU 等專用芯片)的GPU,當前主流的深度學習框架在某些場景(譬如模型并行)已經力不從心了。

一個通用的深度學習軟件框架要能對任何給定的神經網絡和可用資源都能最高效的“調配”硬件,這需要解決三個核心問題:(1)資源分配,包括計算核心,內存,傳輸帶寬三種資源的分配,需要綜合考慮局部性和負載均衡的問題;(2)生成正確的數據路由(相當于前文想象的專用硬件之間的連線問題);(3)高效的運行機制,完美協調數據搬運和計算,硬件利用率最高。

事實上,這三個問題都很挑戰,本文暫不討論其解法,假設我們能夠解決這些問題的話,會有什么好處呢?

假設我們能解決前述的三個軟件上的難題,那就能“魚與熊掌兼得”:軟件發揮靈活性,硬件發揮高效率,任給一個深度學習任務,用戶不需要重新連線,就能享受那種“無限大專用硬件”的性能,何其美好。更令人激動的是,當這種軟件得以實現時,專用硬件可以比現在所有AI芯片都更簡單更高效。讀者可以先想象一下怎么實現這種美好的前景。

袁進輝:分享了深度學習框架方面的技術進展

讓我們重申一下幾個觀點:(1)軟件真的非常關鍵;(2)我們對宏觀層次(設備和設備之間)的優化更感興趣;(3)深度學習框架存在一個理想的實現,正如柏拉圖心中那個最圓的圓,當然現有的深度學習框架還相距甚遠;(4)各行各業的公司,只要有數據驅動的業務,最終都需要一個自己的“大腦”,這種“大腦”不應該只被少數巨頭公司獨享。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 硬件
    +關注

    關注

    11

    文章

    2930

    瀏覽量

    64975
  • 深度學習
    +關注

    關注

    73

    文章

    5248

    瀏覽量

    120003
  • cnn
    cnn
    +關注

    關注

    3

    文章

    326

    瀏覽量

    21387

原文標題:深度學習引擎的終極形態是什么?

文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深度學習在自然語言處理方面的研究進展

    要是關注深度學習在自然語言處理方面的研究進展,我相信你一定聽說過Attention Model(后文有時會簡
    的頭像 發表于 07-19 09:20 ?7298次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學習</b>在自然語言處理<b class='flag-5'>方面的</b>研究<b class='flag-5'>進展</b>

    2017全國深度學習技術應用大會

    檢測與分割深度學習的發展及應用  報 告 人:季向陽 清華大學  報告摘要:物體檢測與分割是圖像處理與計算機視覺重要基礎研究方向之一。首先介紹全卷積網絡在語義分割與實例掩模研究方面的進展
    發表于 03-22 17:16

    Nanopi深度學習之路(1)深度學習框架分析

    就能實現!還請關注我后面的日記。實際上我也是剛剛有時間學習深度學習,我是個純初學者,但面對深度學習
    發表于 06-04 22:32

    主流深度學習框架比較

    DL:主流深度學習框架多個方向PK比較
    發表于 12-26 11:10

    深度學習框架只為GPU?

    CPU優化深度學習框架和函數庫機器學***器
    發表于 02-22 06:01

    深度學習在預測和健康管理中的應用

    方法方面的最新進展,目的是發現研究差距并提出進一步的改進建議。在簡要介紹幾種深度學習模型之后,我們回顧并分析
    發表于 07-12 06:46

    TensorFlow、PyTorch,“后浪”OneFlow 有沒有機會

    TensorFlow、PyTorch,“后浪”OneFlow 有沒有機會 | 一流科技工程師成誠編者按:7月31日,一流科技在創業1300天后,他們宣布開源自研的深度學習框架OneFlow,此前,CSDN對CEO
    發表于 07-27 08:24

    一個全新的深度學習框架——計圖

    清華大學計算機系胡事民教授研究團隊提出了一個全新的深度學習框架——計圖(Jittor)。Jittor是一個采用元算子表達神經網絡計算單元、完全基于動態編譯(Just-in-Time)的深度
    的頭像 發表于 03-26 15:50 ?6538次閱讀

    深度學習框架pytorch入門與實踐

    深度學習框架pytorch入門與實踐 深度學習是機器學習中的一個分支,它使用多層神經網絡對大量數
    的頭像 發表于 08-17 16:03 ?1229次閱讀

    深度學習框架是什么?深度學習框架有哪些?

    深度學習框架是什么?深度學習框架有哪些?? 深度
    的頭像 發表于 08-17 16:03 ?1920次閱讀

    深度學習框架的作用是什么

    深度學習框架的作用是什么 深度學習是一種計算機技術,它利用人工神經網絡來模擬人類的
    的頭像 發表于 08-17 16:10 ?1208次閱讀

    深度學習算法庫框架學習

    深度學習算法庫框架學習 深度學習是一種非常強大的機器學習
    的頭像 發表于 08-17 16:11 ?455次閱讀

    深度學習框架對照表

    深度學習框架對照表? 隨著人工智能技術的發展,深度學習正在成為當今最熱門的研究領域之一。而
    的頭像 發表于 08-17 16:11 ?515次閱讀

    深度學習框架連接技術

    深度學習框架連接技術 深度學習框架是一個能夠幫助機器
    的頭像 發表于 08-17 16:11 ?499次閱讀

    深度學習框架深度學習算法教程

    深度學習框架深度學習算法教程 深度學習是機器
    的頭像 發表于 08-17 16:11 ?750次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>