<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs，比如BLOOM大型語言模型部署到亞馬遜云科技Amazon SageMaker進行推理的示例。我們將部署12B Open Assistant Model，這是一款由開放助手計劃訓練的開源Chat LLM。

這個示例包括：

設置開發環境

獲取全新Hugging Face LLM DLC

將開放助手12B部署到亞馬遜云科技Amazon SageMaker

進行推理并與我們的模型聊天

清理環境

什么是Hugging Face LLM Inference DLC？

Hugging Face LLM DLC是一款全新的專用推理容器，可在安全的托管環境中輕松部署LLM。DLC由文本生成推理（TGI）提供支持，這是一種用于部署和服務大型語言模型（LLM）的開源、專門構建的解決方案。TGI使用張量并行和動態批處理為最受歡迎的開源LLM（包括StarCoder、BLOOM、GPT-Neox、Llama和T5）實現高性能文本生成。文本生成推理已被IBM、Grammarly等客戶使用，Open-Assistant計劃對所有支持的模型架構進行了優化，包括：

張量并行性和自定義cuda內核

在最受歡迎的架構上使用flash-attention優化了用于推理的變形器代碼

使用bitsandbytes進行量化

連續批處理傳入的請求以增加總吞吐量

使用safetensors加速重量加載（啟動時間）

Logits扭曲器（溫度縮放、topk、重復懲罰…）

用大型語言模型的水印添加水印

停止序列，記錄概率

使用服務器發送事件（SSE）進行Token流式傳輸

官方支持的模型架構目前為：

BLOOM/BLOOMZ

MT0-XXL

Galactica

SantaCoder

gpt-Neox 20B（joi、pythia、lotus、rosey、chip、redPajama、open Assistant）

FLAN-T5-XXL（T5-11B）

Llama（vicuna、alpaca、koala）

Starcoder/santaCoder

Falcon 7B/Falcon 40B

借助亞馬遜云科技Amazon SageMaker上推出的全新Hugging Face LLM Inference DLC，亞馬遜云科技客戶可以從支持高度并發、低延遲LLM體驗的相同技術中受益，例如HuggingChat、OpenAssistant和Hugging Face Hub上的LLM模型推理API。

1.設置開發環境

使用SageMaker python SDK將OpenAssistant/pythia-12b-sft-v8-7k-steps部署到亞馬遜云科技Amazon SageMaker。需要確保配置一個亞馬遜云科技賬戶并安裝SageMaker python SDK。

如果打算在本地環境中使用SageMaker。需要訪問具有亞馬遜云科技Amazon SageMaker所需權限的IAM角色?？梢栽谶@里找到更多關于它的信息。

2.獲取全新Hugging Face LLM DLC

與部署常規的HuggingFace模型相比，首先需要檢索容器URI并將其提供給HuggingFaceModel模型類，并使用image_uri指向該鏡像。要在亞馬遜云科技Amazon SageMaker中檢索新的HuggingFace LLM DLC，可以使用SageMaker SDK 提供的get_huggingface_llm_image_uri方法。此方法允許根據指定的 “后端”、“會話”、“區域” 和 “版本”檢索所需的Hugging Face LLM DLC 的 URI。

要將[Open Assistant Model]（openAssistant/Pythia-12b-sft-v8-7K-steps）部署到亞馬遜云科技Amazon SageMaker，創建一個HuggingFaceModel模型類并定義終端節點配置，包括hf_model_id、instance_type等。使用g5.4xlarge實例類型，它有1個NVIDIA A10G GPU和64GB的GPU內存。

亞馬遜云科技Amazon SageMaker現在創建端點并將模型部署到該端點。這可能需要10-15分鐘。

4.進行推理并與模型聊天

部署終端節點后，可以對其進行推理。使用predictor中的predict方法在端點上進行推理?？梢杂貌煌?a target="_blank">參數進行推斷來影響生成。參數可以設置在parameter中設置。

溫度：控制模型中的隨機性。較低的值將使模型更具確定性，而較高的值將使模型更隨機。默認值為0。

max_new_tokens：要生成的最大token數量。默認值為20，最大值為512。

repeption_penalty：控制重復的可能性，默認為null。

seed：用于隨機生成的種子，默認為null。

stop：用于停止生成的代幣列表。生成其中一個令牌后，生成將停止。

top_k：用于top-k篩選時保留的最高概率詞匯標記的數量。默認值為null，它禁用top-k過濾。

top_p：用于核采樣時保留的參數最高概率詞匯標記的累積概率，默認為null。

do_sample：是否使用采樣；否則使用貪婪的解碼。默認值為false。

best_of：生成best_of序列如果是最高標記logpros則返回序列，默認為null。

details：是否返回有關世代的詳細信息。默認值為false。

return_full_text：是返回全文還是只返回生成的部分。默認值為false。

truncate：是否將輸入截斷到模型的最大長度。默認值為true。

typical_p：代幣的典型概率。默認值null。

水?。荷蓵r使用的水印。默認值為false。

可以在swagger文檔中找到TGI的開放api規范。

openAssistant/Pythia-12b-sft-v8-7K-steps是一種對話式聊天模型，這意味著我們可以使用以下提示與它聊天：

先試一試，問一下夏天可以做的一些很酷的想法：

現在，使用不同的參數進行推理，以影響生成。參數可以通過輸入的parameters屬性定義。這可以用來讓模型在“機器人”回合后停止生成。

現在構建一個快速gradio應用程序來和它聊天。

程序運行成功后，顯示如下聊天窗口：

現在已經成功地將Open Assistant模型部署到亞馬遜云科技Amazon SageMaker并對其進行了推理。此外，還構建了一個快速的gradio應用程序，可以與模型聊天。

現在，可以使用亞馬遜云科技Amazon SageMaker上全新Hugging Face LLM DLC構建世代人工智能應用程序的時候了。

5.清理環境

刪除模型和端點。

6.總結

從上面的部署過程，可以看到整個部署大語言模型的過程非常簡單，這個主要得益于SageMaker Hugging Face LLM DLC的支持，還可以通過將Amazon SageMaker部署的端點與應用集成，滿足實際的業務需求。

審核編輯黃宇

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

語言模型

語言模型

+關注

關注
0

文章
439

瀏覽量
10064
亞馬遜

亞馬遜

+關注

關注
8

文章
2493

瀏覽量
82433
LLM

LLM

+關注

關注
0

文章
207

瀏覽量
240

評論

相關推薦

機智云在Amazon Alexa平臺發布Smarthome和Custom Skill，實現亞馬遜Echo直接控制Gokit

本帖最后由機智小編于 2017-3-31 14:09 編輯機智云在Amazon Alexa平臺率先發布了Smarthome Skill和Custom Skill，實現了亞馬遜Echo直接

發表于 03-31 11:54

通過Cortex來非常方便的部署PyTorch模型

，Hugging Face 生成的廣泛流行的自然語言處理(NLP)庫，是建立在 PyTorch 上的。Selene，生物前沿 ML 庫，建在 PyTorch 上。CrypTen，這個熱門的、新的、關注隱私

發表于 11-01 15:25

中科創達成為Amazon SageMaker服務就緒計劃首批認證合作伙伴

近日，亞馬遜云科技于其年度盛會re：Invent上正式推出了Amazon SageMaker服務就緒計劃。中科創達作為亞馬遜云科技合作伙伴應邀出席峰會并正式加入

的頭像

發表于 12-06 11:41 ?1037次閱讀

?使用AWS Graviton降低Amazon SageMaker推理成本

Amazon SageMaker（https://aws.amazon.com/sagemaker/）提供了多種機器學習（ML）基礎設施和模型

發表于 05-28 09:31 ?484次閱讀

大型語言模型（LLM）的自定義訓練：包含代碼示例的詳細指南

近年來，像 GPT-4 這樣的大型語言模型（LLM）因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是，要根據特定任務或領域定制LLM

發表于 06-12 09:35 ?1936次閱讀

基于Transformer的大型語言模型（LLM）的內部機制

本文旨在更好地理解基于 Transformer 的大型語言模型（LLM）的內部機制，以提高它們的可靠性和可解釋性。隨著大型語言模型（

發表于 06-25 15:08 ?1054次閱讀

Hugging Face更改文本推理軟件許可證，不再“開源”

據悉，TGI 已成為 Hugging Face 商業產品（如推理端點）及其商業合作伙伴（如 Amazon SageMaker、Azure 機

發表于 07-31 14:42 ?420次閱讀

NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型（LLM）的訓練和調優，簡化了幾乎每個行業的

發表于 08-09 11:41 ?112次閱讀

NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型（LLM）的訓練和調優，簡化了幾乎每個行業的

發表于 08-09 11:38 ?718次閱讀

mlc-llm對大模型推理的流程及優化方案

在 MLC-LLM 部署RWKV World系列模型實戰（3B模型Mac M2解碼可達26tokens/s）中提到要使用mlc-llm

發表于 09-26 12:25 ?465次閱讀

Hugging Face被限制訪問

目前尚不清楚 Hugging Face 何時出現訪問限制問題。雅虎的報道稱，早在今年 5 月起，就已經有用戶在 HF 的論壇上抱怨連接問題。另外有報道稱，至少從 9 月 12 日起，Hugging

發表于 10-22 15:51 ?1210次閱讀

怎樣使用Accelerate庫在多GPU上進行LLM推理呢？

大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長，推理的

發表于 12-01 10:24 ?619次閱讀

亞馬遜云科技推出五項Amazon SageMaker新功能

Inference通過優化加速器的使用，平均降低50%的基礎模型部署成本，并平均縮短了20%的延遲時間； Amazon SageMaker Clarify能夠讓客戶更輕松地根據支持負

發表于 12-06 14:04 ?499次閱讀

ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM，助力開發者運用生成式 AI 構建企業應用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日發布 StarCoder2，其為一系列用于代碼生成的開放獲取大語言

發表于 02-29 11:12 ?162次閱讀

Mistral Large模型現已在Amazon Bedrock上正式可用

的 Mistral 7B 和 Mixtral 8x7B模型。今天，Mistral AI最新且最前沿的大語言模型（LLM）Mistral Large又在

發表于 04-08 16:26 ?285次閱讀

科技新思路
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 虎賁芯片什么水平?展銳的虎賁T610碾壓高通665
Hot 愛普特加速推進全國產MCU產業戰略布局

New 2024 TI DLP技術創新應用盛會開幕，大眼橙攜全新自研4K光機產品亮相
New re:Invent大會，亞馬遜云科技為用戶提供端到端的AI服務

精選推薦
更多

文章

資料

帖子

晶體（Crystal Unit）的規格和特性

揚興科技
2小時前

118 閱讀

鴻蒙開發接口Ability框架：【(uriPermissionManager)】

jf_46214456
2小時前

179 閱讀

鴻蒙OpenHarmony開發板解析：【芯片解決方案】

jf_46214456
4小時前

177 閱讀

HarmonyOS開發案例：【生活健康app之實現打卡功能】（2）

jf_46214456
5小時前

158 閱讀

圖像顯示驅動芯片ZDP1440系列小技巧如何使用多國語言互譯

立功科技
5小時前

236 閱讀

雙極晶體管的基礎知識

石玉蘭
3490

免費

112下載

各類開關電源變壓器設計大全

6.70 MB

免費

290下載

一個高仿新版的加載動畫控件

ah此生不換
0.23 MB

免費

0下載

Purchases iOS購買和訂閱跟蹤系統的客戶端

劉高
1.39 MB

免費

0下載

KSWebView基于WKWebview進行二次封裝的WebView

jjll652
0.47 MB

免費

1下載

Labview通過綠聯的HDMI采集卡采集相機畫面，但是max中videomode出現Unknown

4564513
20小時前

239 閱讀

請問這個電路圖是有錯誤么，這是一個鑒幅器但是輸出的波形不對，有償解決

jf_79251031
20小時前

170 閱讀

HarmonyOS實戰開發-Flex布局性能提升使用指導

jf_71304091
20小時前

115 閱讀

關于使用全志芯片進行PCB字符設計要點

文小二
20小時前

178 閱讀

嵌入式學習-飛凌ElfBoard ELF 1板卡 - 在開發板上生成二維碼圖像

jf_25331175
20小時前

246 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看