<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

使用AWS Graviton處理器優化的PyTorch 2.0推理

作者：Sunita Nadampalli

新一代的CPU因為內置了專門的指令，在機器學習（ML）推理方面提供了顯著的性能提升。結合它們的靈活性、高速開發和低運營成本，這些通用處理器為其他現有硬件解決方案提供了一種替代選擇。

AWS、Arm、Meta等公司幫助優化了基于Arm處理器的PyTorch 2.0推理性能。因此，我們很高興地宣布，AWS Graviton基于實例的PyTorch 2.0推理性能比之前的PyTorch版本提高了3.5倍，Resnet50的速度（請參見下圖），BERT的速度提高了1.4倍，使Graviton基于實例成為AWS上這些模型最快的計算優化實例。

AWS使用基于AWS Graviton3的Amazon Elastic Cloud Compute C7g實例進行PyTorch推理，相對于可比較的EC2實例，跨Torch Hub Resnet50和多個Hugging Face模型，可節省高達50%的成本，如下圖所示。

這是因為AWS Graviton3處理器是最新一代定制的AWS Graviton處理器，可為Amazon Elastic Compute Cloud（Amazon EC2）中的工作負載提供最佳價格性能。它們提供高達2倍的浮點性能、高達2倍的加密性能和高達3倍的ML性能，包括對PyTorch的支持。

此外，推理的延遲也減少了，如下圖所示。

我們在Graviton上的其他工作負載中也看到了類似的價格性能優勢趨勢，例如使用FFmpeg進行視頻編碼（https://aws.amazon.com/blogs/opensource/optimized-video-encoding-with-ffmpeg-on-aws-graviton-processors/）。

優化細節

優化集中在三個關鍵領域：

GEMM內核 - PyTorch通過OneDNN后端（以前稱為MKL-DNN）支持Arm Compute Library（ACL）GEMM內核，用于基于Arm的處理器。ACL庫為Neon和SVE優化了GEMM內核，適用于fp32和bfloat16格式。這些內核提高了SIMD硬件利用率并降低了端到端推理延遲。
bfloat16支持 - Graviton3中的bfloat16支持允許有效部署使用bfloat16，fp32和AMP（自動混合精度）訓練的模型。標準fp32模型通過OneDNN快速數學模式使用bfloat16內核，無需模型量化，與不帶bfloat16快速數學支持的現有fp32模型推理相比，性能提高了兩倍。
原始緩存 - 我們還為conv、matmul和inner product運算符實現了原始緩存，以避免冗余的GEMM內核初始化和張量分配開銷。

如何利用這些優化

最簡單的方法是使用Amazon Elastic Compute Cloud（Amazon EC2）C7g實例或Amazon SageMaker上的AWS Deep Learning Containers（DLC）。DLC可在Amazon Elastic Container Registry（Amazon ECR）上提供AWS Graviton或x86。有關SageMaker的更多詳細信息，請參閱在基于AWS Graviton的實例上運行機器學習推理工作負載（https://aws.amazon.com/blogs/machine-learning/run-machine-learning-inference-workloads-on-aws-graviton-based-instances-with-amazon-sagemaker/）以及Amazon SageMaker添加了八個基于Graviton的實例以進行模型部署（https://aws.amazon.com/about-aws/whats-new/2022/10/amazon-sagemaker-adds-new-graviton-based-instances-model-deployment/）。

使用AWS DLC

要使用AWS DLC，請使用以下代碼：

udo apt-get update
sudo apt-get -y install awscli docker


# Login to ECR to avoid image download throttling
aws ecr get-login-password --region us-east-1 
| docker login --username AWS 
  --password-stdin 763104351884.dkr.ecr.us-east-1.amazonaws.com


# Pull the AWS DLC for pytorch
# Graviton
docker pull 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-inference-graviton:2.0.0-cpu-py310-ubuntu20.04-ec2


# x86
docker pull 763104351884.dkr.ecr.us-east-1.amazonaws.com/pytorch-inference:2.0.0-cpu-py310-ubuntu20.04-ec2

如果您喜歡通過pip安裝PyTorch，請從官方repo安裝PyTorch 2.0 wheel。在這種情況下，在啟動PyTorch之前，您將需要設置兩個環境變量，如下面的代碼所述，以激活Graviton優化。

使用Python wheel

要使用Python wheel，請參考以下代碼：

# Install Python
sudo apt-get update
sudo apt-get install -y python3 python3-pip


# Upgrade pip3 to the latest version
python3 -m pip install --upgrade pip


# Install PyTorch and extensions
python3 -m pip install torch
python3 -m pip install torchvision torchaudio torchtext


# Turn on Graviton3 optimization
export DNNL_DEFAULT_FPMATH_MODE=BF16
export LRU_CACHE_CAPACITY=1024

運行推斷

可以使用PyTorch TorchBench測量CPU推理性能改進，或比較不同的實例類型：

# Pre-requisite: 
# pull and run the AWS DLC
# or 
# pip install PyTorch2.0 wheels and set the previously mentioned environment variables


# Clone PyTorch benchmark repo
git clone https://github.com/pytorch/benchmark.git


# Setup Resnet50 benchmark
cd benchmark
python3 install.py resnet50


# Install the dependent wheels
python3 -m pip install numba


# Run Resnet50 inference in jit mode. On successful completion of the inference runs,
# the script prints the inference latency and accuracy results
python3 run.py resnet50 -d cpu -m jit -t eval --use_cosine_similarity

性能基準測試

您可以使用AmazonSageMaker推理推薦實用程序（https://docs.aws.amazon.com/sagemaker/latest/dg/inference-recommender.html）來自動化不同實例之間的性能基準測試。使用推理推薦程序，您可以找到實時推理端點，該端點可以為給定的ML模型以最低的成本提供最佳性能。我們通過在生產端點上部署模型，使用推理推薦器筆記本收集了前面的數據。有關推理推薦程序的更多詳細信息，請參閱GitHub repo（https://github.com/aws/amazon-sagemaker-examples/blob/main/sagemaker-inference-recommender/huggingface-inference-recommender/huggingface-inference-recommender.ipynb）。我們為這篇文章測試了以下模型：ResNet50圖像分類（https://pytorch.org/hub/pytorch_vision_resnet/）、DistilBERT情緒分析（https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english）、RoBERTa填充掩碼（https://huggingface.co/roberta-base）和RoBERTa情緒分析（https://huggingface.co/cardiffnlp/twitter-roberta-base-sentiment）。

結論

AWS通過Torch Hub Resnet50中基于AWS Graviton3的亞馬遜彈性云計算C7g實例，以及相對于可比EC2實例的多個擁抱人臉模型，為PyTorch推理節省了高達50%的成本。這些實例可在SageMaker和AmazonEC2上獲得。AWS Graviton技術指南（https://github.com/aws/aws-graviton-getting-started）提供了優化的庫和最佳實踐列表，這些庫和最佳做法將幫助您在不同的工作負載中使用Graviton實例實現成本效益。

如果您發現在AWS Graviton上沒有觀察到類似性能提升的用例，請在AWS Gravaton技術指南（https://github.com/aws/aws-graviton-getting-started）上提交問題，讓我們了解它。我們將繼續添加更多性能改進，使Graviton成為使用PyTorch進行推理的最具成本效益和效率的通用處理器。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
10512

瀏覽量
207267
機器學習

機器學習

+關注

關注
66

文章
8176

瀏覽量
131008
AWS

AWS

+關注

關注
0

文章
407

瀏覽量
23995
pytorch

pytorch

+關注

關注
2

文章
766

瀏覽量
12886

原文標題：使用AWS Graviton處理器優化的PyTorch 2.0推理

文章出處：【微信號：Arm軟件開發者，微信公眾號：Arm軟件開發者】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

Arm Neoverse V1的AWS Graviton3在深度學習推理工作負載方面的作用

：具有 AWS Graviton3 處理器的 c7g.4xlarge 實例集群和具有 AWS Graviton2

發表于 08-31 15:03

在AWS云中使用Arm處理器設計Arm處理器

1、在AWS云中使用Arm處理器設計Arm處理器　　Amazon Web Services （AWS）宣布推出基于 Arm 的全新 AWS

發表于 09-02 15:55

在Ubuntu 18.04 for Arm上運行的TensorFlow和PyTorch的Docker映像

TensorFlow和PyTorch是兩個最流行的機器學習框架。兩者在 Arm 上的使用都在增加，從像 Raspberry Pi 這樣的小型系統到用于服務器和高性能計算 (HPC) 的大型系統。盡管

發表于 10-14 14:25

通過Cortex來非常方便的部署PyTorch模型

產中使用 PyTorch 意味著什么？根據生產環境的不同，在生產環境中運行機器學習可能意味著不同的事情。一般來說，在生產中有兩類機器學習的設計模式：通過推理服務器提供一個預測 API 。這是在通用軟件

發表于 11-01 15:25

亞馬遜AWS C6g開放服務，性能是第一代的最多7倍

6月15日訊，近日，亞馬遜旗下的 AWS 宣布，第六代彈性計算服務AWS C6g現在開放服務，主要面向計算密集型工作負載，其中 Elastic Load Balancing，ElastiCache 和 Elastic Map Reduce 三項服務將基于自研的 Arm

的頭像

發表于 06-16 14:59 ?3237次閱讀

基于亞馬遜自研的 Arm 處理器 Graviton2

據悉，AWS C6g 所用的 Graviton2 處理器是亞馬遜第二代自研 Arm 芯片。對于高性能計算領域，x86 架構處理器雖然在性能上強于 Arm 架構

發表于 08-10 14:30 ?737次閱讀

AWS Arm 架構處理器首次落地中國區域：比同配置 X86 實例性價比提高 40%

1 月 28 日消息，亞馬遜云服務（AWS）正式宣布，由 AWS Graviton2 處理器提供支持的 Amazon Elastic Compute Cloud （Amazon EC2

的頭像

發表于 01-28 16:22 ?2274次閱讀

亞馬遜云原生自研處理器Graviton 2正式落地中國

1月28日，亞馬遜云服務（AWS）宣布，旗下的云原生自研處理器Graviton 2正式落地中國。這是AWS自研的、原生為云而設計開發的芯片，也是AW

發表于 01-29 10:23 ?1998次閱讀

AWS基于Arm架構的Graviton 2處理器落地中國

Graviton 2處理器提供支持的Amazon Elastic Compute Cloud（Amazon EC2）M6g、C6g和R6g實例已在由光環新網運營的AWS中國（北京）地區和由西云數據運營

發表于 02-01 11:46 ?2874次閱讀

專用處理能力驅動基于Arm架構的云計算時代并支持AWS Graviton不斷創新

AWS也同時展示了基于Graviton3處理器的C7g云實例，現已開放預覽。C7g是由Arm? Neoverse?驅動、首個支持DDR5的云實例，可提供更多的內存帶寬，帶來更高的性能。

發表于 12-06 16:25 ?1029次閱讀

?使用AWS Graviton降低Amazon SageMaker推理成本

Amazon SageMaker（https://aws.amazon.com/sagemaker/）提供了多種機器學習（ML）基礎設施和模型部署選項，以幫助滿足您的ML推理需求。它是一個完全

發表于 05-28 09:31 ?512次閱讀

PyTorch教程18.3之高斯過程推理

電子發燒友網站提供《PyTorch教程18.3之高斯過程推理.pdf》資料免費下載

發表于 06-05 10:48 ?0次下載

PyTorch教程23.3之使用AWS EC2實例

電子發燒友網站提供《PyTorch教程23.3之使用AWS EC2實例.pdf》資料免費下載

發表于 06-05 18:10 ?0次下載

INT8量子化PyTorch x86處理器

INT8量子化PyTorch x86處理器

發表于 08-31 14:27 ?571次閱讀

2.0優化PyTorch推理與AWS引力子處理器

2.0優化PyTorch推理與AWS引力子處理器

發表于 08-31 14:27 ?382次閱讀

精選推薦
更多

文章

資料

帖子

采用144核，能效提升66%！英特爾至強6處理器震撼上市，加速數據中心升級

章鷹觀察
11小時前

660 閱讀

如何移植FFmpeg

ElfBoard
2天前

537 閱讀

基于Arm Cortex-CM85內核的RA8D1作為控制器通過MIPI DSI實現LVGL顯示

瑞薩MCU小百科
2天前

758 閱讀

便攜式直流接地故障查找儀如何使用——每日了解電力知識

武漢摩恩
2天前

781 閱讀

重磅！英特爾發布intel3制程至強6能效核處理器，賦能數據中心能效升級

章鷹觀察
2天前

803 閱讀

Markov網絡結構學習算法

郝埃連
601

免費

11下載

利用Excel進行電路統計分析

土包子
66

免費

0下載

矩陣鍵盤逐行掃描法詳解

lanlanw
48.1 KB

免費

642下載

OHosAsync底層網絡協議庫的教程案例

姚小熊27
0.31 MB

免費

2下載

mtrops Django saltstack自動化運維管理平臺

dplion5
3.88 MB

免費

0下載

I.MX6ULL-飛凌 ElfBoard ELF1板卡 - 如何在Ubuntu中編譯OpenCV庫(X86架構）

jf_25331175
3天前

683 閱讀

鴻蒙原生應用元服務開發-設備管理USB服務開發場景與接口

李洋水蛟龍
3天前

292 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 如何在Ubuntu中編譯OpenCV庫

jf_25331175
3天前

868 閱讀

【留言有禮】佳節至，分享“粽”要記憶，傳遞溫馨祝福，贏取精美禮品！

ElecFans小喇叭
4天前

922 閱讀

無刷電機用的單電阻采樣的FOC，拿天線貼著電機線或者貼近采樣芯片，電機就會停轉

剛剛回國弄
4天前

1428 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看