<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI訓練,為什么需要GPU?

合宙LuatOS ? 2024-04-24 08:05 ? 次閱讀

隨著由ChatGPT引發的人工智能熱潮,GPU成為了AI大模型訓練平臺的基石,甚至是決定性的算力底座。為什么GPU能力壓CPU,成為炙手可熱的主角呢?

要回答這個問題,首先需要了解當前人工智能(AI,Artificial Intelligence)的主要技術。

人工智能與深度學習

人工智能是一個歷史非常長的學科。自上世紀50年代以來,在多個技術方向上進行過探索,也經歷過多次的高潮和低谷。想了解更基礎更有趣的人工智能介紹,可以看下面這篇文章:人工智能來了,小心你的飯碗不保。

人工智能在早期誕生了一個“不甚成功”的流派,叫做“人工神經網絡”。這個技術的思路是,人腦的智慧無與倫比,要實現高級的人工智能,模仿人腦就是不二法門。

人腦是由數以億計的神經元組成。這些神經元彼此連接,形成了龐大而復雜的神經網絡。嬰兒的大腦是一張白紙,經過后天的學習便可實現高度的智能。

參考人腦神經元,人工神經元模型就被設計了出來。

4ffd5268-01ce-11ef-9118-92fbcf53809c.png

在上圖右側的人工神經元里,通過調整每個輸入的權重,經由神經元計算處理之后,便可得出相應的輸出。這里面的每個權重,就被稱作一個參數。

50052ae2-01ce-11ef-9118-92fbcf53809c.png

把這樣的多個神經元相互連接形成網絡,就是人工神經網絡了。人工神經網絡一般由輸入層、中間的多個隱藏層以及輸出層組成。

這樣的人工神經網絡就像嬰兒的大腦一樣空空如也,必須給它投喂大量的數據,讓它充分學習才能形成知識,才能用于實際解決問題。這個過程就叫做“深度學習”,屬于“機器學習”的子集。

5011b3c0-01ce-11ef-9118-92fbcf53809c.png

以常見的“監督學習”為例,給AI投喂的數據必須包含問題和答案。比如說,我們的目標是讓AI判斷圖片里面是不是有一只貓,那就需要給AI大量確定有貓的圖片并給出貓的特征,讓它自己從中找規律。

首先AI拿出一張給定的圖片,采用初始權重得出自己的結論。然后比較這個結論和正確答案到底相差了多少,再返回去優化參數權重,這個過程循環進行,直至AI給出的結果和正確答案最為接近。

501577a8-01ce-11ef-9118-92fbcf53809c.png

這個學習的過程就叫做訓練。一般來說,需要給AI大量含有正確答案的數據,才會得出比較好的訓練結果。

一旦我們認為訓練完成,就拿出試試成色。如果我們給它未知的問題,它也能很好地找出答案,就認為訓練是成功的,AI的“泛化”效果很好。

507b8f66-01ce-11ef-9118-92fbcf53809c.png

如上圖所示,從神經網絡上一層到下一層,參數權重的傳遞,本質上就是矩陣的乘法和加法。神經網絡參數的規模越大,訓練時需要的這些矩陣的計算也就越大。

最先進的深度學習神經網絡可以有數百萬到超過數萬億個參數,它們還需要大量的訓練數據來實現高精度,這意味著必須通過正向和反向傳遞運行驚人的輸入樣本。由于神經網絡是由大量相同的神經元創建的,因此這些計算本質上是高度并行的。

如此大規模的計算量,用CPU還是GPU好呢?

CPU,擅長控制的管家

我們先說CPU(Central Processing Unit)。

此物可謂電腦的大腦,是當仁不讓的核心中的核心。

CPU內部主要包含運算器(也叫邏輯運算單元,ALU)和控制器(CU),以及一些寄存器和緩存。

508f9bc8-01ce-11ef-9118-92fbcf53809c.png

數據來了,會先放到存儲器。然后,控制器會從存儲器拿到相應數據,再交給運算器進行運算。運算完成后,再把結果返回到存儲器。

在早期,一個CPU只有一套運算器、控制器和緩存,同一時間只能處理一個任務。要處理多個任務,只能按時間排隊輪著來,大家雨露均沾。這樣的CPU就是單核CPU。

509663f4-01ce-11ef-9118-92fbcf53809c.png

后來,人們把多套運算器、控制器和緩存集成在同一塊芯片上,就組成了多核CPU。多核CPU擁有真正意義上的并行處理能力。

50a8ff46-01ce-11ef-9118-92fbcf53809c.png

一般情況下,多核CPU的核心數量少則2個4個,多則幾十個。

智能手機剛開始普及的時候,手機的外觀趨同,其他地方也乏善可陳,廠家就大力渲染CPU的核數,史稱智能手機的“核戰”。

不過“核戰”也就從雙核燒到4核再到8核,然后大家也就都就偃旗息鼓了。芯片廠家也都是在這個核心數量上做優化。

為什么CPU不多集成一些核心呢?

這是因為CPU是一個通用處理器。它的任務非常復雜,既要應對不同類型的數據計算,還要響應人機交互。

復雜的任務管理和調度使得它需要更復雜的控制器和更大的緩存,進行邏輯控制和調度,保存各種任務狀態,以降低任務切換時的時延。

CPU的核心越多,核心之間的互聯通訊壓力就越來越大,會降低單個核心的性能表現。并且,核心多了還會使功耗增加,如果忙閑不均,整體性能還可能不升反降。

GPU,并行計算專家

下來再看GPU(Graphics Processing Unit)。

GPU叫做圖形處理單元。其設立的初衷是為了分擔CPU的壓力,加速三維圖形的渲染,常用于電腦的顯卡。

圖像的處理,正是一種針對矩陣的密集并行計算。從下圖可以看出,左側的圖像由大量的像素點組成,可以很自然地表示成右側的矩陣。

GPU一詞從1999年Nvidia推出其GeForce256時開始流行,該產品對每一個像素點同時處理,執行圖形轉換、照明和三角剪裁等數學密集型并行計算,用于圖像渲染。

為什么GPU善于承擔密集的并行計算呢?這是因為GPU的在架構上和CPU有很大的不同。

50c0f57e-01ce-11ef-9118-92fbcf53809c.png

CPU的核數少,單個核心有足夠多的緩存和足夠強的運算能力,并輔助有很多加速分支判斷甚至更復雜的邏輯判斷的硬件,適合處理復雜的任務。

相比之下GPU就簡單粗暴多了,每個核心的運算能力都不強,緩存也不大,就靠增加核心數量來提升整體能力。核心數量多了,就可以多管齊下,處理大量簡單的并行計算工作。

50c7be04-01ce-11ef-9118-92fbcf53809c.png

隨著時間的推移,GPU也變得更加靈活和可編程,它的工作也就不局限于圖像顯示渲染了,還允許其他開發者用來加速高性能計算、深度學習等其他工作負載。

由于趕上了人工智能這樣并行計算需求暴增的機遇,GPU一改以前的邊緣角色,直接站到了舞臺中央,可謂炙手可熱。

GPU的名字,也變成了GPGPU,即通用GPU。

將AI訓練這種并行性自然地映射到GPU,與僅使用 CPU 的訓練相比,速度明顯提升,并使它們成為訓練大型、復雜的基于神經網絡的系統的首選平臺。推理操作的并行特性也非常適合在 GPU 上執行。

因此,由GPU作為主力所提供的算力,也被叫做“智算”。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    27

    文章

    4443

    瀏覽量

    126874
  • AI
    AI
    +關注

    關注

    87

    文章

    26659

    瀏覽量

    264329
  • 人工智能
    +關注

    關注

    1777

    文章

    44178

    瀏覽量

    231072
  • 深度學習
    +關注

    關注

    73

    文章

    5247

    瀏覽量

    119992
收藏 人收藏

    評論

    相關推薦

    AI訓練勢起,GPU要讓位了?

    的BERTSG、北京智源人工智能研究院的悟道2.0等等。 ? 那么訓練出這樣一個大模型需要怎樣的硬件前提?如何以較低的成本完成自己模型訓練工作?這些都是不少AI初創企業
    的頭像 發表于 12-18 06:51 ?2900次閱讀

    挑戰GPU,Habana推出四倍處理能力的AI訓練芯片

    人工智能處理器開發商Habana Labs宣布推出Habana Gaudi人工智能訓練處理器,基于Gaudi的訓練系統實現了比擁有相同數量的GPU系統高四倍的處理能力。
    發表于 06-21 11:46 ?1964次閱讀

    FPGA在深度學習應用中或將取代GPU

    對神經網絡進行任何更改,也不需要學習任何新工具。不過你可以保留你的 GPU 用于訓練?!?Zebra 提供了將深度學習代碼轉換為 FPGA 硬件指令的抽象層 AI 硬件前景
    發表于 03-21 15:19

    ai芯片和gpu的區別

    ai芯片和gpu的區別▌車載芯片的發展趨勢(CPU-GPU-FPGA-ASIC)過去汽車電子芯片以與傳感器一一對應的電子控制單元(ECU)為主,主要分布與發動機等核心部件上。...
    發表于 07-27 07:29

    AI遇上FPGA會產生怎樣的反應

    是人工智能大躍進的基礎,在線下模型訓練中Xeon-Phi、GPU等發揮著巨大的作用,而在線上的推理任務中,浪潮FPGA深度學習加速解決方案則能夠實現7倍以上的能效比提升。 卷積網絡之父、Facebook
    發表于 09-17 17:08

    GPU八大主流的應用場景

    可以滿足高吞吐量互聯的需求,為自然語言處理、計算機視覺、語音交互等人工智能應用場景提供強大的算力支持,支撐AI算法訓練和推理過程。當前在云端場景下被最廣泛應用的AI芯片是英偉達的GPU
    發表于 12-07 10:04

    Nvidia GPU風扇和電源顯示ERR怎么解決

    問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候,如果機器鎖屏一段時間再打開的時候鼠標非??D,或者說顯示界面非??D,使用nvidia-smi查看發現,訓練模型的GPU
    發表于 12-30 06:44

    在Ubuntu上使用Nvidia GPU訓練模型

    問題最近在Ubuntu上使用Nvidia GPU訓練模型的時候,沒有問題,過一會再訓練出現非??D,使用nvidia-smi查看發現,顯示GPU的風扇和電源報錯:解決方案自動風扇控制在
    發表于 01-03 08:24

    如何進行高效的時序圖神經網絡的訓練

    現有的圖數據規模極大,導致時序圖神經網絡的訓練需要格外長的時間,因此使用多GPU進行訓練變得成為尤為重要,如何有效地將多GPU用于時序圖神經
    發表于 09-28 10:37

    Ai 部署的臨界考慮電子指南

    雖然GPU解決方案對訓練,AI部署需要更多。 預計到2020年代中期,人工智能行業將增長到200億美元,其中大部分增長是人工智能推理。英特爾Xeon可擴展處理器約占運行
    發表于 08-04 07:25

    訓練好的ai模型導入cubemx不成功怎么解決?

    訓練好的ai模型導入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發表于 08-04 09:16

    GPU如何訓練大批量模型?方法在這里

    深度學習模型和數據集的規模增長速度已經讓 GPU 算力也開始捉襟見肘,如果你的 GPU 連一個樣本都容不下,你要如何訓練大批量模型?通過本文介紹的方法,我們可以在訓練批量甚至單個
    發表于 12-03 17:24 ?720次閱讀

    CompanionPro推用于訓練狗的AI訓練

    狗的訓練通常情況下都需要人的參與,但如果沒有人的參與會帶來更好的結果嗎?在舊金山動物保護組織 SPCA 的合作下, 名為 Companion Labs 的初創公司近日推出了首款用于訓練狗的AI
    的頭像 發表于 11-26 11:50 ?1283次閱讀

    科技驅動未來,提升AI算力,GPU擴展正當時

    GPU可以大幅縮短AI算法的訓練和推斷時間,從而節省時間和成本
    的頭像 發表于 04-16 18:22 ?662次閱讀
    科技驅動未來,提升<b class='flag-5'>AI</b>算力,<b class='flag-5'>GPU</b>擴展正當時
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>