<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌最便宜TPU值不值得買?TPU在執行神經網絡計算方面的優勢

DPVg_AI_era ? 來源:lp ? 2019-03-21 09:09 ? 次閱讀

谷歌本月推出千元級搭載Edge TPU芯片的開發板,性能令人期待。本文以可視化圖形的方式,對比TPU、GPUCPU,解釋了TPU在執行神經網絡計算方面的優勢。

谷歌最便宜 TPU 值不值得買?

谷歌 Edge TPU 在本月初終于公布價格 —— 不足 1000 元人民幣,遠低于 TPU。

實際上,Edge TPU 基本上就是機器學習樹莓派,它是一個用 TPU 在邊緣進行推理的設備。

Edge TPU(安裝在 Coral 開發板上)

云 vs 邊緣

Edge TPU顯然是在邊緣(edge)運行的,但邊緣是什么呢?為什么我們不選擇在云上運行所有東西呢?

在云中運行代碼意味著你使用的CPU、GPU和TPU都是通過瀏覽器提供的。在云中運行代碼的主要優點是,你可以為特定的代碼分配必要的計算能力(訓練大型模型可能需要大量的計算)。

邊緣與云相反,意味著你是在本地運行代碼(也就是說你能夠實際接觸到運行代碼的設備)。在邊緣運行代碼的主要優點是沒有網絡延遲。由于物聯網設備通常要頻繁地生成數據,因此運行在邊緣上的代碼非常適合基于物聯網的解決方案。

對比 CPU、GPU,深度剖析 TPU

TPU(Tensor Processing Unit, 張量處理器)是類似于CPU或GPU的一種處理器。不過,它們之間存在很大的差異。最大的區別是TPU是ASIC,即專用集成電路。ASIC經過優化,可以執行特定類型的應用程序。對于TPU來說,它的特定任務就是執行神經網絡中常用的乘積累加運算。CPU和GPU并未針對特定類型的應用程序進行優化,因此它們不是ASIC。

下面我們分別看看 CPU、GPU 和 TPU 如何使用各自的架構執行累積乘加運算:

在 CPU 上進行累積乘加運算

CPU 通過從內存中讀取每個輸入和權重,將它們與其 ALU (上圖中的計算器) 相乘,然后將它們寫回內存中,最后將所有相乘的值相加,從而執行乘積累加運算。

現代 CPU 通過其每個內核上的大量緩存、分支預測和高時鐘頻率得到增強。這些都有助于降低 CPU 的延遲。

GPU 上的乘積累加運算

GPU 的原理類似,但它有成千上萬的 ALU 來執行計算。計算可以在所有 ALU 上并行進行。這被稱為 SIMD (單指令流多數據流),一個很好的例子就是神經網絡中的多重加法運算。

然而,GPU 并不使用上述那些能夠降低延遲的功能。它還需要協調它的數千個 ALU,這進一步減少了延遲。

簡而言之,GPU 通過并行計算來大幅提高吞吐量,代價是延遲增加?;蛘邠Q句話說:

CPU 是一個強大而訓練有素的斯巴達戰士,而 GPU 就像一支龐大的農民大軍,但農民大軍可以打敗斯巴達戰士,因為他們人多。

讀取 TPU 上的乘加操作的權重

TPU 的運作方式非常不同。它的 ALU 是直接相互連接的,不需要使用內存。它們可以直接提供傳遞信息,從而大大減少延遲。

從上圖中可以看出,神經網絡的所有權重都被加載到 ALU 中。完成此操作后,神經網絡的輸入將加載到這些 ALU 中以執行乘積累加操作。這個過程如下圖所示:

TPU 上的乘加操作

如上圖所示,神經網絡的所有輸入并不是同時插入 ALU 的,而是從左到右逐步地插入。這樣做是為了防止內存訪問,因為 ALU 的輸出將傳播到下一個 ALU。這都是通過脈動陣列 (systolic array) 的方式完成的,如下圖所示。

使用脈動陣列執行乘加操作

上圖中的每個灰色單元表示 TPU 中的一個 ALU (其中包含一個權重)。在 ALU 中,乘加操作是通過將 ALU 從頂部得到的輸入乘以它的權重,然后將它與從左編得到的值相加。此操作的結果將傳播到右側,繼續完成乘加操作。ALU 從頂部得到的輸入被傳播到底部,用于為神經網絡層中的下一個神經元執行乘加操作。

在每一行的末尾,可以找到層中每個神經元的乘加運算的結果,而不需要在運算之間使用內存。

使用這種脈動陣列顯著提高了 Edge TPU 的性能。

Edge TPU 推理速度超過其他處理器架構

TPU 還有一個重要步驟是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位權重進行計算,而通常使用 32 位權重,所以我們應該將權重從 32 位轉換為 8 位。這個過程叫做量化。

量化基本上是將更精確的 32 位數字近似到 8 位數字。這個過程如下圖所示:

量化

四舍五入會降低精度。然而,神經網絡具有很好的泛化能力 (例如 dropout),因此在使用量化時不會受到很大的影響,如下圖所示。

非量化模型與量化模型的精度

量化的優勢更為顯著。它減少了計算量和內存需求,從而提高了計算的能源效率。

Edge TPU 執行推理的速度比任何其他處理器架構都要快。它不僅速度更快,而且通過使用量化和更少的內存操作,從而更加環保。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    5965

    瀏覽量

    103393
  • 機器學習
    +關注

    關注

    66

    文章

    8166

    瀏覽量

    130842
  • TPU
    TPU
    +關注

    關注

    0

    文章

    133

    瀏覽量

    20581

原文標題:一文讀懂:谷歌千元級Edge TPU為何如此之快?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    計算

    道哥的書籍值不值得呢,這本書還沒有看過,不知道寫的怎么樣
    發表于 05-16 11:55

    谷歌將推出第六代數據中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發者大會上,谷歌公司震撼發布了其第六代數據中心AI芯片——Trillium Tensor處理器單元(TPU)。據谷歌首席執行官皮查伊透露,這款新型
    的頭像 發表于 05-15 11:18 ?311次閱讀

    Groq推出大模型推理芯片 超越了傳統GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轟動,超越了傳統GPU和谷歌TPU。
    的頭像 發表于 02-26 10:24 ?455次閱讀
    Groq推出大模型推理芯片 超越了傳統GPU和<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b>

    tpu材料的用途和特點

    TPU材料,即熱塑性聚氨酯(Thermoplastic Polyurethane),是一種聚合物材料,具有廣泛的應用領域和獨特的特點。 TPU材料的主要用途如下: 鞋類行業:TPU材料常用于鞋類
    的頭像 發表于 01-16 10:17 ?1250次閱讀

    TPU是什么材料做的

    TPU(Thermoplastic Polyurethane)是熱塑性聚氨酯的簡稱,屬于一種高強度、高彈性、高耐磨的特種塑料材料。它是由聚醚或聚酯兩元醇與三元異氰酸酯或四元稀土異氰酸酯通過共聚反應
    的頭像 發表于 01-12 13:40 ?899次閱讀

    TPU-MLIR開發環境配置時出現的各種問題求解

    。參考下文配置Docker。 2.2. Docker配置? TPU-MLIRDocker環境開發, 配置好Docker就可以編譯和運行了。 從 DockerHub https
    發表于 01-10 08:02

    谷歌TPU v5p超越Nvidia H100,成為人工智能領域的競爭對手

    TPU v5p已在谷歌“AI超級計算機”項目中發揮重要作用,這并非專業科研型超算平臺,而是面向各類人工智能應用。與Nvidia開放GPU購買策略不同,谷歌高端
    的頭像 發表于 12-26 15:20 ?1021次閱讀

    谷歌發布多模態Gemini大模型及新一代TPU系統Cloud TPU v5p

    谷歌亦發布新一代TPU 系統——Cloud TPU v5p,以幫助訓練尖端的 AI 模型。目
    的頭像 發表于 12-12 10:50 ?864次閱讀
    <b class='flag-5'>谷歌</b>發布多模態Gemini大模型及新一代<b class='flag-5'>TPU</b>系統Cloud <b class='flag-5'>TPU</b> v5p

    價格沒談攏?谷歌考慮拋棄AI贏家博通自研TPU

    今天,谷歌高層管理層討論了在2027年放棄博通作為人工智能芯片的供應商。谷歌的這種苦惱是在就tpu芯片價格與博通對峙之后才實現的。
    的頭像 發表于 09-22 09:34 ?380次閱讀

    “model_transform.py”添加參數“--resize_dims 640,640”是否表示tpu會自動resize的?

    “model_transform.py”添加參數“--resize_dims 640,640”是否表示tpu會自動resize的?我看到yolov5的sample代碼里都用opencv做了
    發表于 09-18 07:56

    TPU和NPU的區別

    TPU和NPU的區別? 在IT領域中,TPU和NPU屬于兩種不同類型的芯片。這兩種芯片都是專為人工智能(AI)和大型數據分析設計而開發的,但它們的功能和優點卻有所不同。在本文中,我們將詳細介紹TPU
    的頭像 發表于 08-27 17:08 ?4234次閱讀

    卷積神經網絡計算公式

    神經網絡計算公式 神經網絡是一種類似于人腦的神經系統的計算模型,它是一種可以用來進行模式識別、分類、預測等任務的強大工具。在深度學習領域,
    的頭像 發表于 08-21 16:49 ?1276次閱讀

    TPU內存(一)

    TPU內存(一)
    的頭像 發表于 08-18 11:29 ?454次閱讀
    <b class='flag-5'>TPU</b>內存(一)

    TPU內存(二)

    TPU內存(二)
    的頭像 發表于 08-18 11:29 ?291次閱讀
    <b class='flag-5'>TPU</b>內存(二)

    ChatGLM2-6B解析與TPU部署

    ChatGLM2-6B解析與TPU部署
    的頭像 發表于 08-18 11:28 ?565次閱讀
    ChatGLM2-6B解析與<b class='flag-5'>TPU</b>部署
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>