<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在手持設備上安裝龐大的transformer網絡

CEVA ? 來源:CEVA ? 2023-10-11 14:37 ? 次閱讀

Siri和OK Google是最早實現語音控制的應用程序,這著實為我們帶來了很多樂趣;但很快我們便意識到,必須仔細說出請求才能獲得實用回答。

就現在所見,ChatGPT理解程度高,使用起來更容易,但直到最近,其功能還僅限于通過基于云的應用程序進行文本互動?,F如今,ChatGPT是大勢所趨,手機幾乎人人必備,促使著針對ChatGPT(手機版)的transformer網絡盡快推出,讓每個擁有手機的人都能感受到大語言模型的威力。

在此方面面臨的一個明顯挑戰是,我們所知的 ChatGPT依賴于數萬億個參數。而這種規模的transformer網絡只能在云端運行。有人建議采用混合模式,即先由手機或其他應用程序負責完成部分簡單工作,再連接到云端進行更為繁重的推理。然而,普通手機用戶可能無法接受混合解決方案與生俱來的長時間延遲和隱私風險問題。因此,更好的方法是,直接在手機上處理大部分或全部transformer網絡工作,只在需要時將偶爾出現的匿名搜索請求轉至云端處理。

縮減網絡大小

如何在手持設備上安裝龐大的transformer網絡?Google DeepMind在檢索transformer方面取得了重大突破。其RETRO transformer網絡運行時的大小只有 LLM transformer的百分之幾,因為前者的模型參數中不包含具體數據。只保留了基本的語言對話技能,但在理解水平上仍可與GPT3相媲美。如此將網絡大小縮減到了約80億個參數。

CEVA在預處理時進一步縮減此網絡大小,將對感興趣領域提示的準確度幾乎沒有影響的參數歸零,進行再訓練。仔細利用這一功能可以大大加快transformer網絡分析的速度。

準備邊緣模型的第二步是壓縮,CEVA對此非常熟悉,并在支持檢索transformer方面做得更好。我們充分利用NeuPro-M架構進行再訓練,大力推進此步驟,促使廣泛的混合定點精度和低精度選項降到4位,未來甚至還能降到2位。

通過使用這些技術,我們可以將現有檢索transformer壓縮至最低1/20(較現在而言),盡管其相較LLM而言已經壓縮了很多。將這種壓縮剪枝應用于RETRO模型縮減后,可以產生巨大縮減,將萬億參數模型轉換為十億參數模型,進而有望實現ChatGPT(移動版)。

NeuPro-M AI核心

當然,僅僅適合的transformer網絡是不夠的。它還需要運行得足夠快,才能滿足用戶對響應時間的期望。而這一點可以通過專為LLM應用程序優化的NeuPro-M NPU IP多引擎架構實現。在此流程中,首先要做到的是由真正的稀疏引擎來進行管理,且這一步舉足輕重。稀疏引擎管理可跳過權重或數據為零的冗余操作,提高吞吐量,這是需要注意的一點。而在預處理時縮減之后,會出現大量歸零參數,盡管這些參數分布不均勻。對于這種非結構化稀疏引擎,每個NeuPro-M處理器內核中的專用稀疏引擎可發揮4倍性能優勢(與傳統稀疏引擎相比),并相應地降低功耗。

鑒于transformer架構可以分解為可并行實現的離散正交運算,下一優化應運而生。此時,可以利用 NeuPro-M多核架構支持多達8個內核。transformer中 query、key和value三個向量的計算會在引擎中分批進行,在共享公共二級緩存的多個內核并行處理。并行處理不僅有利于attention步驟,還有利于softmax步驟,以及計算attention函數之后的歸一化函數。在傳統的人工智能系統中,softmax可能是遏制性能提升的重大瓶頸。在NeuPro-M中,attention和softmax可以并行實現,因此softmax對于吞吐時間的增加幾乎可以忽略不計。NeuPro-M在transformer計算中實現大規模并行處理如下圖所示。

fca80bde-67ff-11ee-939d-92fbcf53809c.png

fcbd0f2a-67ff-11ee-939d-92fbcf53809c.png

▲transformer計算中的可擴展并行化

NeuPro-M架構包括特殊支持,最大限度地提高芯片吞吐量,線程之間幾乎沒有停滯,進一步簡化這些流中的高度并行性以及線程之間的數據共享。

為ChatGPT(移動版)構建語音界面

完成最難的部分后,在前端添加語音識別和在后端添加文本轉語音,便可以通過額外相對簡單的transformer網絡實現。將我們的ClearVox語音處理前端軟件連接到語音識別transformer,以輸入提示,并接受引導,確定主transformer應執行哪一組精煉提示。必要時,可從互聯網上檢索查詢相關文檔。最后,使用文本轉語音transformer對下載的回復或文件進行語音處理?,F在來說,完全在手機上運行,且具有完全基于語音的 ChatGPT功能界面便是ChatGPT(移動版)的不同之處。

更廣泛的應用

NeuPro-M平臺并不局限于ChatGPT(移動版)這樣的GPT類應用。它可以同樣應用于任何生成式方法。例如,您可以使用穩定的擴散transformer生成圖像、視頻或任何其他人工生成或修改的體驗。NeuPro-M解決方案在transformer網絡建模方面非常通用。

審核編輯:彭菁

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網絡
    +關注

    關注

    14

    文章

    7272

    瀏覽量

    87647
  • 手持設備
    +關注

    關注

    0

    文章

    43

    瀏覽量

    23954
  • 應用程序
    +關注

    關注

    37

    文章

    3165

    瀏覽量

    56681
  • Transformer
    +關注

    關注

    0

    文章

    130

    瀏覽量

    5910

原文標題:針對ChatGPT(手機版)的優化版Transformer網絡

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    手持設備上使用的掃碼模組

    手持設備上使用的掃碼模組,哪款更適合推薦呢?在選擇適用于手持設備的掃碼模組時,我們需要考慮多個關鍵因素,包括尺寸、功耗以及其實用性。尺寸要求尺寸大小對于
    的頭像 發表于 05-30 10:26 ?29次閱讀
    <b class='flag-5'>手持</b><b class='flag-5'>設備</b>上使用的掃碼模組

    何在STM32MP157C DK2實現管腳輸出PTP的PPS信號?

    的步驟如何? 例如設置一個STM32MP157C 為master,另一個STM32MP157C 為slave , 進行網絡時鐘同步。 可以安裝運行PTP4L這樣的程序嗎? 另外如何在 STM32MP157C DK2
    發表于 04-11 07:18

    一文詳解Transformer神經網絡模型

    Transformer模型在強化學習領域的應用主要是應用于策略學習和值函數近似。強化學習是指讓機器在與環境互動的過程中,通過試錯來學習最優的行為策略。
    發表于 02-20 09:55 ?4794次閱讀
    一文詳解<b class='flag-5'>Transformer</b>神經<b class='flag-5'>網絡</b>模型

    何在CYGWIN的IFX環境中安裝cysecuretool?

    嗨, 我正在嘗試在 cygwin 中安裝 cysecure 工具但遇到了錯誤。 誰能指導如何在 CYGWIN 的 IFX 環境中安裝 cysecuretool?
    發表于 01-25 08:25

    何在PSoC Creator中安裝GSL庫?

    的,并且僅使用其他方法的一小部分資源。 (在尋找解決方案時,TSQR 并不要求所有數據點都保留在 SRAM 中。 除非它也具有此功能,否則請不要建議其他方法。) 我現在想將代碼移植到我的 PSoc4 。 如何在 PSoC Creator 中
    發表于 01-23 06:22

    手持終端定制|PDA|手持機|rfid手持終端設備開發解決方案

    手持終端定制|PDA|手持機|rfid手持終端設備開發解決方案廠家。以聯發科64位八核MT6771芯片為核心,搭載Android 10系統,運行速度更快、功耗更低。其2GB LPDDR
    的頭像 發表于 12-27 19:12 ?275次閱讀
    <b class='flag-5'>手持</b>終端定制|PDA|<b class='flag-5'>手持</b>機|rfid<b class='flag-5'>手持</b>終端<b class='flag-5'>設備</b>開發解決方案

    淺談網絡變壓器(Network Transformer

    網絡變壓器(Network Transformer)是一種用于信號轉換和傳輸的電子設備,廣泛應用于網絡設備中,如路由器、交換機、網卡等。網絡
    的頭像 發表于 11-24 09:31 ?1077次閱讀

    求助,AD8132諧波測試電路中的transformer有沒有推薦型號?

    AD8132諧波測試電路中的transformer有沒有推薦型號?
    發表于 11-16 06:15

    LabVIEW中如何在網絡使用遠程VI服務器

    LabVIEW中如何在網絡使用遠程VI服務器 如何在網絡使用遠程VI服務器? 解答: 首先,需要在遠程的計算機上打開一個在VI服務器
    發表于 11-12 20:25

    何在USB HID設備執行供應商指令

    何在USB HID 設備執行供應商指令。 它包括兩個供應商指令, 讀寫。 USB 工具, Bus Hound 用于顯示傳輸程序和供應商指令發送。 用戶也可以通過 UART 終端工具觀察傳輸結果
    發表于 08-23 06:55

    三防手持終端設備_智能手持終端定制方案商

    、抗摔和耐高低溫等。 多功能手持移動設備廣泛應用于各個領域,支持全網通公共網絡通信,并內置了RTK定位和DMR數模對講功能。根據客戶需求,對講手持終端可以進行模塊化定制,靈活配置。該
    的頭像 發表于 07-25 18:51 ?434次閱讀
    三防<b class='flag-5'>手持</b>終端<b class='flag-5'>設備</b>_智能<b class='flag-5'>手持</b>終端定制方案商

    語音應用中Transformer和循環神經網絡的比較

    Transformer中,注意力圖的某些頭部并不總是像Tacotron 2中那樣是對角線的。因此,我們需要選擇在哪些位置應用引導性注意力損失[24]。-使用Transformer進行解碼的速度也比使用RNN慢(每幀6.5毫秒 vs 單線程CPU上每幀78.5毫秒)。
    發表于 07-24 11:30 ?457次閱讀
    語音應用中<b class='flag-5'>Transformer</b>和循環神經<b class='flag-5'>網絡</b>的比較

    深圳遠景達二維碼掃碼模塊為手持設備廠商高效賦能

    隨著科技的不斷進步,自動識別技術在各行各業中得到廣泛應用。作為一種高效、便捷的數據采集方式,自動識別技術,尤其是二維碼識別技術在手持設備中的應用越來越受到重視。深圳遠景達(RAKINDA)作為國內
    的頭像 發表于 06-26 16:46 ?468次閱讀
    深圳遠景達二維碼掃碼模塊為<b class='flag-5'>手持</b><b class='flag-5'>設備</b>廠商高效賦能

    Transformer結構及其應用詳解

    本文首先詳細介紹Transformer的基本結構,然后再通過GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應用工作的介紹并附上GitHub鏈接,看看Transformer是如
    的頭像 發表于 06-08 09:56 ?1530次閱讀
    <b class='flag-5'>Transformer</b>結構及其應用詳解

    何在樹莓派4上安裝 openwrt?

    何在 Raspberry Pi 4上安裝 openwrt
    的頭像 發表于 06-07 10:25 ?1029次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>