<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

YCL AI計算庫在resnet50上的優化

1. 背景介紹

英特爾第四代至強可擴展處理器（代號Sapphire Rapids，簡稱SPR）上引入了全新的加速引擎AMX（Advanced Matrix Extensions)，通過指令集層面的支持來顯著加速深度學習算法中的Tensor計算。AMX針對廣泛的硬件和軟件優化，進一步增強了前一代矢量神經網絡指令VNNI和BF16，推出了AMX_INT8和AMX_BF16指令，從一維向量計算發展到二維矩陣計算，最大限度的利用計算資源。由于神經網絡訓練推理涉及大量的矩陣運算，AMX的引入將大幅提高AI性能。

2022年的云棲大會上，阿里云推出了搭載倚天710芯片的ECS服務器，受到了業界的廣泛關注。該服務器CPU芯片基于ARM Neoverse N2架構，支持ARM v9 指令集，最高支持128核。業界權威性能報告指出，其并行計算能力在CPU服務器中非常搶眼，并且極具性價比，有潛力作為昂貴的GPU服務器的替代品。然而，Yitian710 作為平頭哥第一代ARM通用芯片，在AI場景與X86相比，軟件生態與推理性能都存在一定的短板，本文旨在通過倚天AI計算庫的優化，打造適合ARM架構的軟件平臺，提升倚天性能。

1.1 問題

倚天710目前主要依賴開源社區提供對AI場景的軟件支持，存在以下幾個問題：
（1）目前主流AI軟件生態對X86架構適配更好，各種推理場景性能表現更優，倚天缺乏相關的軟件生態，推廣依靠具體業務場景定制優化與ARM生態支持，效率低下
（2）倚天SIMD位寬受限，與X86 ICL，SPR相比有較大劣勢，需要任務調度充分發揮倚天物理核算力優勢
（3）ARM AI生態演進考慮不同架構兼容，迭代速度慢，且缺乏倚天微架構針對性調優，不利于充分發揮倚天在AI場景優勢

1.2 策略

YCL（YiTian Compute Library）為平頭哥數據中心解決方案團隊開發的一款高性能AI計算庫，該庫基于ARM開源的ACL(ARM Compute Library)實現。ACL是一個用于機器學習和計算機視覺的高性能 C++ 庫。它提供了一系列優化的算法和操作，可在 ARM CPU、GPU 和 DSP 上執行。YCL在ACL的基礎上，針對倚天硬件架構的特性，做了深入的適配與優化，通過調度算法優化、GEMM拆分、底層算子融合、BF16精度優化等方法，實現包括Core、Support、Graph、Backends等不同層次模塊的性能優化，并通過oneDNN標準接口對接上層推理框架如tensorflow，pytorch，實現上層計算任務不感知。經測試，集成優化版本的tensorlfow在mlperf resnet50評測中性能提升超過40%，目前該版本已集成到cap2自動化測試系統。

2. YCL計算庫架構

自Tensorflow 2.5版本開始，已經有了對 oneDNN 的實驗性支持，此后ARM開源社區在oneDNN的backend增加了ARM實現，來加速 AArch64 CPU 的性能。如下圖1所示，Tensorflow framework 將上層的計算任務分解成各個算子，調用底層實現以提升性能。Tensorflow默認調用Eigen實現各算子如GEMM。Intel提供oneDNN加速庫用于實現基于X86 backend的kernel實現，對于arm backend，oneDNN調用ACL來使用ARM向量指令以提升性能。YCL即為 arm backend替代ACL的計算庫，專門針對倚天SoC架構特性做出優化。

圖1 YCL計算庫在tensorflow中的位置

圖2 YCL計算庫架構

YCL在框架架構上與ACL基本相同，如圖2所示,綠色部分為倚天710軟件架構，接口層實現了常用的AI算子，在使用每個算子之前通過配置(configure)接口設置輸入數據、數據類型、計算模式、算子評估、權重數據packing、調度方法等，配置完成即可啟動運算過程(run)，該過程首先將計算任務劃分成子任務，并為不同子任務分配線程并發計算，最后各線程調用計算kernel完成各自計算任務，主線程合并計算結果完成最終的計算。

3. 優化方法

本文從以下4個方面針對倚天架構做優化：

3.1 子任務劃分，利用倚天710各級cache提升數據吞吐

圖3 YCL中矩陣運算子任務劃分

矩陣運算(GEMM)一般為當前AI推理任務中的主要計算來源，很多加速庫也是重點優化提升GEMM計算性能。當前學術上提升在CPU上提升GEMM性能的主要思路為：將A矩陣在M方向劃分為寬度為Lvh的子塊，將B矩陣在N方向上劃分寬度為Lvw的子塊，然后根據L1 cache大小確定K方向(Kc)的值，然后確定每個子塊計算順序，使用多核完成計算。

YCL子子任務劃分也采用上述方法，但是在設計子任務是考慮倚天Cache結構與物理核優勢，首先根據分配的倚天core數與任務大小，確定最終分配的線程數，如果計算任務較小，則考慮少分配線程數n，可以降低線程調度產生的開銷。

然后根據任務大小與計算單元緩存確定子任務數，原則是劃分后的子任務可以一次性存入緩存，提升數據存取速度；然后如圖3所示，將矩陣A與B分別劃分成Akj(Lvh x kc), Bki(kc x Lvw)子矩陣，每個線程分別計算Ck=Akj x Bki ，通過調節倚天SIMD寄存器布局，降低數據重復訪問，獲得最優性能。

3.2 任務調度

設計兩級線程與子任務對應表，如圖4所示，其中level 0子任務平均分配到各線程上執行，level 1為多余的子任務首先緩存在buffer中，等到有線程空閑時執行。該方法有三個好處，第一，子任務劃分利用了多核系統緩存，子任務在單核中執行效率最高；第二，線程與任務對應，充分利用線程資源，先完成的線程繼續執行level 1子任務，減少線程長尾效應影響；第三，各子任務在整體任務中數據連續存儲，提升cache命中率。

3.3 底層算子融合

在tensorflow中有大量的eltwise計算，然后結果輸入激活函數的操作，該部分在獨立計算，不依賴其他操作，可以在底層將eltwise計算的中間結果保存在寄存器中，然后緊接中做ACT，以eltwise(sum) + ReLU為例，可以在oneDNN與YCL中將這部分功能合并，如下圖4所示。

圖4 底層算子融合

3.4 BF16算子計算

倚天710采用armv9架構，指令集支持bfloat16矩陣計算，單個bfmmla指令可以計算一個2x2大小的矩陣，理論性能相比float指令可以提升4倍，下表為倚天710不同精度下指令的理論算力。因此，使用BF16指令可以在保證精度的前提下大幅提升性能。

YCL計算庫在不改變tensoflow框架的前提下，實現了從float到bfloat的簡單切換。在oneDNN層面，將卷積算子做了改造，首先將輸入tensor配置為bfloat16格式，然后將輸入數據從float格式轉換成bfloat16格式數據，改轉化可能會有overhead，最終實現采用simd 匯編實現，將轉換完成的數據導入oneDNN原始的memory中，并釋放臨時buffer。

3.5 性能評估

倚天710單個SoC有128個core，且都是物理核，有獨立的L1與L2cache，我們使用阿里云ecs.c8y.8xlarge來測試YCL計算庫的性能，為了充分發揮倚天物理核算力，測試采用MLperf resnet 0ffline模式將CPU壓力打到最大，測試開啟BF16，具體測試命令為：

./run_local.sh tf resnet50 cpu --scenario Offline

其中g8i為intel SPR實例，其tensorflow安裝方式與python依賴如下（通過 pip install tensorflow==2.11.0安裝）

使能BF16方法如下：

export DNNL_VERBOSE=1
export TF_ENABLE_ONEDNN_OPTS=1
export ONEDNN_DEFAULT_FPMATH_MODE=BF16

運行benchmark，查看log，如果存在avx512_core_amx_bf16，代表使能AMX_BF16來加速矩陣運算

測試均在32c下進行，如下圖5所示，使用優化后的YCL計算庫resnet50性能提升45%。

圖5 倚天710 resnet50優化前后性能對比

4. 安裝與使用方法

目前YCL計算庫已經適配了tensorflow 1.15與2.9兩個版本，通過打patch方式支持tensorflow源碼編譯安裝。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

ARM處理器

ARM處理器

+關注

關注
6

文章
350

瀏覽量
41362
SIMD

SIMD

+關注

關注
0

文章
33

瀏覽量
10233
SPR

SPR

+關注

關注
0

文章
20

瀏覽量
11424
計算機視覺

計算機視覺

+關注

關注
8

文章
1609

瀏覽量
45680
機器學習

機器學習

+關注

關注
66

文章
8172

瀏覽量
130871

評論

相關推薦

Firefly支持AI引擎Tengine，性能提升，輕松搭建AI計算框架

`Tengine 是OPEN AI LAB 為嵌入式設備開發的一個輕量級、高性能并且模塊化的引擎?；贏RM平臺高效的計算庫實現，針對特定硬件平臺的性能優化，吸取已有

發表于 08-13 15:58

【AI學習】AI概論：（Part-A）與AI智慧交流

任務一：電腦+AI（讓電腦擁有學習能力）目標：安裝Python和TensorFlow。安裝Keras、Numpy、OpenCV。安裝ResNet50人工智慧模組(模型)。運行測試程序，展現簡單

發表于 10-30 14:04

【米爾FZ3深度學習計算卡試用體驗】在自定義的Ai系統上跑深度學習推理模型

./compile_tf_model.sh resnet50 cf_resnet50_imagenet_224_224_7.7G得到一個elf文件，同樣復制到vitis-ai

發表于 12-19 11:23

【米爾百度大腦EdgeBoard邊緣AI計算盒試用連載】第二篇開機測評之圖片分類

│└── resnet50│── src│├── json.hpp // json 解析庫│└── image_classify.cpp // 圖片推理示例└── README.md 下面是配置文件示例。JSON

發表于 03-15 14:04

解讀最佳實踐：倚天 710 ARM 芯片的 Python+AI 算力優化

，像 AlexNet、ResNet-50 之類的模型，在進行推理時，大約 90% 計算****耗時在執行矩陣乘法。即使對矩陣乘法做一些微小的優化

發表于 12-23 16:02

【KV260視覺入門套件試用體驗】利用以后demo改個新的demo并運行

(entry->d_name); } } closedir(dir); } int main() { // 這里讀取到的是resnet50默認的模型。默認在/usr/share/vitis

發表于 09-08 15:04

【KV260視覺入門套件試用體驗】部署DPU鏡像并運行Vitis AI圖像分類示例程序

AMD 平臺上的 AI 推理。該工具鏈提供優化的IP、工具、庫、模型以及資源，例如示例設計和教程，可在整個開發過程中為用戶提供幫助。它在設計時充分考慮了高效率和易用性，在 AMD 自

發表于 09-10 23:01

【KV260視覺入門套件試用體驗】四、學習過程梳理&DPU鏡像&Resnet50

=xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 鏡像下載 Vitis AI Library 用戶指南鏡像安裝教程，軟件開發教程。五、DPU-ResNet50 實驗 ResNet50模型以其深

發表于 09-26 15:21

【KV260視覺入門套件試用體驗】Vitis AI 構建開發環境，并使用inspector檢查模型

支持。需要做的不只是執行幾條命令，還需要了解賽靈思硬件平臺的特點，選擇合適的模型和框架，使用 Vitis AI 提供的工具和庫進行優化和編譯，最后在目標設備

發表于 10-14 15:34

【KV260視覺入門套件試用體驗】KV260系列之Petalinux鏡像+Resnet 50探索

據流模型。它還可盡可能執行復雜的最優化操作，例如，層融合、指令調度和復用片上存儲器。 Vitis AI Profiler可用于對 AI 應用進行性能分析和可視化，以

發表于 10-16 04:22

百度大腦EdgeBoard計算卡基于Resnet50/Mobile-SSD模型的性能評測

GPU: V100 16GB VMem Edgeboard 訓練模型模型使用AIStudio 進行訓練,RESNET、MOBILE訓練和預測代碼有興趣的同學請手動移步到百度AI社區相關帖子里查看

發表于 10-30 07:32 ?813次閱讀

【R329開發板評測】實機測試Resnet50

在經過仿真測試拿到開發板后，參考官方的實機測試教程，對仿真測試模型進行了實機運行和測試，這里主要是對resnet50進行了實時運行。

發表于 01-25 16:55 ?3次下載

NVIDIA 與飛槳團隊合作開發基于 ResNet50 的模型示例

為了讓飛槳開發者可以快速復現頂尖的精度和超高的性能，NVIDIA 與飛槳團隊合作開發了基于 ResNet50 的模型示例，并將持續開發更多的基于 NLP 和 CV 等領域的經典模型，后續陸續發布的模型有 BERT、PP-OCR、PP-YOLO 等，歡迎持續關注。

發表于 10-18 10:03 ?899次閱讀

深度解析MLPerf競賽Resnet50訓練單機最佳性能

標準。MLPerf訓練任務包括圖像分類（ResNet50）、目標物體檢測（SSD）、目標物體檢測（Mask R-CNN）、智能推薦（DLRM）、自然語言處理（BERT）以及強化機器學習（Minigo）等。最新的1.0版本增加了兩項新的測試項目：語音識別（RNN-T）和醫學影像分割（U-Net3D）。

發表于 11-09 17:05 ?1016次閱讀

MLPerf世界紀錄技術分享：優化卷積合并算法提升Resnet50推理性能

（3D-UNet）、目標物體檢測（SSD-ResNet34）、語音識別（RNN-T）、自然語言理解（BERT）以及智能推薦（DLRM）。在MLPerf V2.0推理競賽中，浪潮AI服務器基于ImageNet數據集在離線場景中運行Resn

發表于 11-10 14:43 ?1406次閱讀

精選推薦
更多

文章

資料

帖子

FPGA核心板上市！紫光同創Logos-2和Xilinx Artix-7系列

jf_36690210
14小時前

106 閱讀

一種新的微帶線和矩形波導集成形結構研究

機電信息雜志
8小時前

221 閱讀

小體積大能量|Giada杰和科技桌面云終端Y-BOX S2拆機測評

焦點訊
8小時前

316 閱讀

一文詳解LDO電源的基礎知識設計及應用

云深之無跡
11小時前

327 閱讀

全國產RK3568J + FPGA的PCIe、FSPI通信實測數據分享！

Tronlong創龍科技
11小時前

118 閱讀

Tomahawk音樂播放器

wufan931111
10.50 MB

免費

0下載

CSWAnimatedTextView顏色漸變動畫的TextView

張浩
0.28 MB

免費

0下載

MoChat基于企業微信的開源應用開發框架&引擎

趙輝
6.35 MB

免費

1下載

基于微控制器的數字溫度計

陳文博
0.13 MB

免費

0下載

130W單聲道聲D類音頻放大器CS8683H數據手冊

jf_66255030
0.48 MB

免費

0下載

源碼系列：基于 FPGA 的 USB2.0 設計

FPGA技術江湖
22小時前

76 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-VMware設置成橋接模式后沒有VMnet0

jf_13411809
22小時前

470 閱讀

淺談Pango_Design_Suite工具的安裝

yinwuqing
22小時前

226 閱讀

一文通曉FPC軟板，從基礎到工藝的深度解讀

鄒夢雨
1天前

245 閱讀

嵌入式學習-飛凌嵌入式ElfBoard ELF 1板卡-如何移植NCNN？

jf_13411809
1天前

373 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看