<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Groq推出大模型推理芯片 超越了傳統GPU和谷歌TPU

汽車電子設計 ? 來源:芝能汽車 ? 2024-02-26 10:24 ? 次閱讀

Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統GPU和谷歌TPU。該芯片采用了全球首個LPU方案,解決了計算密度和內存帶寬的瓶頸,推理速度提高了10倍,成本降低十分之一,性價比提高了100倍。芯片搭載了230MB大SRAM,內存帶寬高達80TB/s,算力強大,支持多種機器學習框架進行推理。 Groq在演示中展示了多種模型的強大性能,并宣稱在三年內將超越英偉達。產品特色包括API訪問速度快、支持多種開源LLM模型、價格優勢等,成為大模型推理領域的新興力量。

Groq 公司的創始于2016年,旗艦產品是 Groq Tensor Streaming Processor Chip(TSP)和相應的軟件,主要應用于人工智能、機器學習、深度學習等領域。目標市場包括人工智能和機器學習超大規模應用、政府部門、高性能計算集群、自動駕駛車輛以及高性能邊緣設備。

Groq產品以其出色的推理性能、對多種開源LLM模型的支持以及具有競爭力的價格政策等特色,成為一個引人注目的選擇。這個芯片到底是怎么做的呢?

6563bedc-d440-11ee-a297-92fbcf53809c.png

Part 1

Groq的做法

隨著人工智能(AI)和高性能計算(HPC)的融合發展,對于同時處理AI和HPC工作負載的需求日益增加。在這一背景下,Groq公司推出了其最新的AI推理加速器,旨在簡化計算、提高效率,并實現更高的可擴展性,軟件定義張量流多處理器(TSP),采用了一種全新的硬件軟件結合的方法,為人工智能、機器學習和深度學習應用提供更高效的計算支持。

Groq AI推理加速器的設計思想是結合了HPC與AI的工作負載需求,提供了一種創新的可擴展計算架構。

相比傳統的GPU,GroqChip 1具有更簡化的編程模型,更高的響應速度以及更可靠的執行。該芯片擁有多個特色組件,包括高速網絡、數據交換器、指令控制、SRAM內存以及Groq TruePoint矩陣,使其具備了強大的計算能力和靈活性。

傳統的 CPU 架構在控制邏輯方面隱藏了大量復雜性,如緩存、預取、亂序執行和分支預測,但這些控制邏輯會減少可用于原始計算的面積。

與此相反,Groq 公司重新審視了硬件軟件的合約,創造出了更加可預測和基于流的硬件,并將更多的控制權交給了軟件。

硬件(CPU)定義了軟件,但隨著數據流型計算需求的增長以及摩爾定律和 Dennard 縮放的減速,CPU“抽象”不再是軟件開發的唯一基礎。因此,Hennessy 和 Patterson 提出了“計算機體系結構的新黃金時代”的觀點,Lattner 提出了“編譯器的新黃金時代”的觀點,Karpathy 則提出了“軟件 2.0”的概念,這都預示著硬件與軟件的抽象合約已經重新開啟,實現了“軟件定義硬件”的機會。

GroqChip 的可擴展架構以簡化計算,通過使用大量單級劃分 SRAM 和顯式分配張量,實現了可預測的性能。

此外,Groq 公司設計了功能劃分的微體系結構,重新組織了多核網格,使得編譯器可以對程序執行進行精確控制,從而提高了執行效率。

659b1602-d440-11ee-a297-92fbcf53809c.png

Groq AI推理加速器支持各種規模的計算節點,從單個卡片到整個機架,都能實現高效的并行計算。

65aae5d2-d440-11ee-a297-92fbcf53809c.png

通過GroqRack和GroqNode等組件的組合,用戶可以根據實際需求靈活搭建計算集群,實現對不同規模工作負載的處理。

Groq 公司提供了強大的編譯器支持,通過在編譯時和運行時之間建立靜態-動態接口和硬件-軟件接口,賦予了軟件更多的數據編排權力。該編譯器能夠實現 SOTA(State of the Art)級別的性能,對于一些重要的矩陣操作如通用矩陣乘法(GEMM),Cholesky 分解等,取得了令人矚目的成果。

65aff626-d440-11ee-a297-92fbcf53809c.png

在系統拓撲結構方面,Groq 公司采用了低直徑網絡 Dragonfly,以最小化網絡中的跳數,提高了數據傳輸效率。

同時,通過 Chip-to-Chip(C2C)鏈接和流量控制,實現了多芯片間的通信。此外,Groq 公司還提出了一種多芯片間的分區和流水線并行執行的方法,以進一步提高多芯片系統的性能。

65b4d1f0-d440-11ee-a297-92fbcf53809c.png

Part 2

實際案例

除了傳統的計算流體動力學(CFD)應用外,Groq AI推理加速器還可應用于圖神經網絡(GNN)等領域。GNN廣泛應用于非歐幾里得數據的建模和預測,例如化學分子結構、社交媒體推薦系統等。Groq芯片在處理這類非結構化數據時表現出色,通過深度學習算法的加速,能夠大幅提升模型訓練和推理的效率。軟件定義張量流多處理器提供了一種全新的硬件軟件結合的方法,通過重新審視硬件軟件合約,將更多的控制權交給了軟件,從而實現了更高效的計算性能。隨著人工智能和深度學習應用的不斷發展,這種方法將有望在未來的計算領域發揮重要作用。

在實際應用中,Groq AI推理加速器已經在化學分子屬性預測、藥物發現等領域取得了顯著的成果。

65d0a9f2-d440-11ee-a297-92fbcf53809c.png

借助其高性能和可擴展性,Groq芯片在處理大規模數據集時能夠實現極大的加速,從而提升了科學研究和工程實踐的效率。

65ff0b4e-d440-11ee-a297-92fbcf53809c.png

小結

總的來說,Groq AI推理加速器以其創新的設計思想和強大的性能,在處理融合HPC與AI工作負載的應用中展現出了巨大的潛力。隨著對于高性能計算和人工智能技術的不斷發展,相信Groq芯片將在各個領域展現出更廣泛的應用前景。

?



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1777

    文章

    44197

    瀏覽量

    231080
  • 機器學習
    +關注

    關注

    66

    文章

    8155

    瀏覽量

    130768
  • TSP
    TSP
    +關注

    關注

    1

    文章

    23

    瀏覽量

    16841
  • 大模型
    +關注

    關注

    2

    文章

    1632

    瀏覽量

    1245
  • Groq
    +關注

    關注

    0

    文章

    7

    瀏覽量

    50

原文標題:Groq AI推理加速器: 三年內超越英偉達?

文章出處:【微信號:QCDZSJ,微信公眾號:汽車電子設計】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    刷屏的Groq芯片,速度遠超英偉達GPU!成本卻遭質疑

    電子發燒友網報道(文/李彎彎)英偉達遇到勁敵了?近日,Groq芯片計算速度超過英偉達GPU的消息刷屏。Groq是一家成立于2016年的AI創企,該公司近日開放了自家產品的免費試用,相比
    的頭像 發表于 02-22 09:06 ?3085次閱讀

    谷歌推出Trillium AI芯片,性能提高近5倍

    谷歌推出了其最新的人工智能數據中心芯片——Trillium。這款芯片谷歌的第六代產品,與上一代TPU
    的頭像 發表于 05-16 10:39 ?86次閱讀

    谷歌推出第六代數據中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發者大會上,谷歌公司震撼發布了其第六代數據中心AI芯片——Trillium Tensor處理器單元(TPU)。據谷歌首席執行官皮查伊透露,這款新型
    的頭像 發表于 05-15 11:18 ?211次閱讀

    進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

    Blackwell GPU,標志著 AI 超級計算的一次重大進步。這種獨特的配置顯著減少傳統網絡擴展時 的通信開銷,使得對 1.8T 參數的模型進行實時推理成為可能,同時將
    發表于 05-13 17:16

    英偉達要小心了!爆火的Groq芯片能翻盤嗎?AI推理速度「吊打」英偉達?

    隨著科技的飛速發展,人工智能公司Groq挑戰了英偉達的王者地位,其AI芯片不僅展現出卓越的實力,還擁有巨大的潛力。Groq設計了一種獨特的推理代幣經濟學模式,該模式背后牽動著眾多因素,
    的頭像 發表于 03-08 09:44 ?355次閱讀
    英偉達要小心了!爆火的<b class='flag-5'>Groq</b><b class='flag-5'>芯片</b>能翻盤嗎?AI<b class='flag-5'>推理</b>速度「吊打」英偉達?

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的頭像 發表于 03-01 16:20 ?230次閱讀

    Groq LPU崛起,AI芯片主戰場從訓練轉向推理

    人工智能推理的重要性日益凸顯,高效運行端側大模型及AI軟件背后的核心技術正是推理。不久的未來,全球芯片制造商的主要市場將全面轉向人工智能推理
    的頭像 發表于 02-29 16:46 ?670次閱讀

    谷歌TPU v5p超越Nvidia H100,成為人工智能領域的競爭對手

    TPU v5p已在谷歌“AI超級計算機”項目中發揮重要作用,這并非專業科研型超算平臺,而是面向各類人工智能應用。與Nvidia開放GPU購買策略不同,谷歌高端
    的頭像 發表于 12-26 15:20 ?989次閱讀

    HarmonyOS:使用MindSpore Lite引擎進行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供面向不同硬件設備 AI 模型推理的功能,目前已經在圖像分類、目標識別、人臉識別、文字識別等應用中廣泛使用。 本文介紹
    發表于 12-14 11:41

    谷歌發布多模態Gemini大模型及新一代TPU系統Cloud TPU v5p

    谷歌亦發布新一代TPU 系統——Cloud TPU v5p,以幫助訓練尖端的 AI 模型。目
    的頭像 發表于 12-12 10:50 ?839次閱讀
    <b class='flag-5'>谷歌</b>發布多模態Gemini大<b class='flag-5'>模型</b>及新一代<b class='flag-5'>TPU</b>系統Cloud <b class='flag-5'>TPU</b> v5p

    使用rk3588多npu推理模型,模型推理時間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型推理時間還增加了,這怎么解釋
    發表于 11-05 18:22

    Google的TPU芯片的發展歷史和硬件架構

    Google在高性能處理器與AI芯片主要有兩個系列:1)針對服務器端AI模型訓練和推理TPU系列,主要用于Goggle云計算和數據中心;2)針對手機端AI
    發表于 10-18 10:02 ?1583次閱讀
    Google的<b class='flag-5'>TPU</b><b class='flag-5'>芯片</b>的發展歷史和硬件架構

    TPU-MLIR量化敏感層分析,提升模型推理精度

    背景介紹TPU-MLIR編譯器可以將機器學習模型轉換成算能芯片上運行的bmodel模型。由于浮點數的計算需要消耗更多的計算資源和存儲空間,實際應用中往往采用量化后的
    的頭像 發表于 10-10 10:17 ?646次閱讀
    <b class='flag-5'>TPU</b>-MLIR量化敏感層分析,提升<b class='flag-5'>模型</b><b class='flag-5'>推理</b>精度

    價格沒談攏?谷歌考慮拋棄AI贏家博通自研TPU

    今天,谷歌高層管理層討論了在2027年放棄博通作為人工智能芯片的供應商。谷歌的這種苦惱是在就tpu芯片價格與博通對峙之后才實現的。
    的頭像 發表于 09-22 09:34 ?368次閱讀

    AscendCL快速入門——模型推理篇(上)

    一、概述本文介紹AscendCL模型推理相關知識,介紹AscendCL接口加載離線模型,為離線模型
    發表于 08-24 11:04
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>