<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

科技新思路 ? 來源:科技新思路 ? 作者:科技新思路 ? 2023-11-01 17:48 ? 次閱讀

本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜科技Amazon SageMaker進行推理的示例。我們將部署12B Open Assistant Model,這是一款由開放助手計劃訓練的開源Chat LLM。

這個示例包括:

設置開發環境

獲取全新Hugging Face LLM DLC

將開放助手12B部署到亞馬遜云科技Amazon SageMaker

進行推理并與我們的模型聊天

清理環境

什么是Hugging Face LLM Inference DLC?

Hugging Face LLM DLC是一款全新的專用推理容器,可在安全的托管環境中輕松部署LLM。DLC由文本生成推理(TGI)提供支持,這是一種用于部署和服務大型語言模型(LLM)的開源、專門構建的解決方案。TGI使用張量并行和動態批處理為最受歡迎的開源LLM(包括StarCoder、BLOOM、GPT-Neox、Llama和T5)實現高性能文本生成。文本生成推理已被IBM、Grammarly等客戶使用,Open-Assistant計劃對所有支持的模型架構進行了優化,包括:

張量并行性和自定義cuda內核

在最受歡迎的架構上使用flash-attention優化了用于推理的變形器代碼

使用bitsandbytes進行量化

連續批處理傳入的請求以增加總吞吐量

使用safetensors加速重量加載(啟動時間)

Logits扭曲器(溫度縮放、topk、重復懲罰…)

用大型語言模型的水印添加水印

停止序列,記錄概率

使用服務器發送事件(SSE)進行Token流式傳輸

官方支持的模型架構目前為:

BLOOM/BLOOMZ

MT0-XXL

Galactica

SantaCoder

gpt-Neox 20B(joi、pythia、lotus、rosey、chip、redPajama、open Assistant)

FLAN-T5-XXL(T5-11B)

Llama(vicuna、alpaca、koala)

Starcoder/santaCoder

Falcon 7B/Falcon 40B

借助亞馬遜云科技Amazon SageMaker上推出的全新Hugging Face LLM Inference DLC,亞馬遜云科技客戶可以從支持高度并發、低延遲LLM體驗的相同技術中受益,例如HuggingChat、OpenAssistant和Hugging Face Hub上的LLM模型推理API。

1.設置開發環境

使用SageMaker python SDK將OpenAssistant/pythia-12b-sft-v8-7k-steps部署到亞馬遜云科技Amazon SageMaker。需要確保配置一個亞馬遜云科技賬戶并安裝SageMaker python SDK。

wKgZomVCHvaAbhP6AAA5d7O5Fws111.png

如果打算在本地環境中使用SageMaker。需要訪問具有亞馬遜云科技Amazon SageMaker所需權限的IAM角色??梢栽谶@里找到更多關于它的信息。

wKgaomVCHvaAJAqEAAC68T4u3EA031.png

2.獲取全新Hugging Face LLM DLC

與部署常規的HuggingFace模型相比,首先需要檢索容器URI并將其提供給HuggingFaceModel模型類,并使用image_uri指向該鏡像。要在亞馬遜云科技Amazon SageMaker中檢索新的HuggingFace LLM DLC,可以使用SageMaker SDK 提供的get_huggingface_llm_image_uri方法。此方法允許根據指定的 “后端”、“會話”、“區域” 和 “版本”檢索所需的Hugging Face LLM DLC 的 URI。

wKgZomVCHveAJaLYAABAo2uUmOc916.png

要將[Open Assistant Model](openAssistant/Pythia-12b-sft-v8-7K-steps)部署到亞馬遜云科技Amazon SageMaker,創建一個HuggingFaceModel模型類并定義終端節點配置,包括hf_model_id、instance_type等。使用g5.4xlarge實例類型,它有1個NVIDIA A10G GPU和64GB的GPU內存。

wKgaomVCHveADTaWAAC_MdCodQY826.png

亞馬遜云科技Amazon SageMaker現在創建端點并將模型部署到該端點。這可能需要10-15分鐘。

4.進行推理并與模型聊天

部署終端節點后,可以對其進行推理。使用predictor中的predict方法在端點上進行推理??梢杂貌煌?a target="_blank">參數進行推斷來影響生成。參數可以設置在parameter中設置。

溫度:控制模型中的隨機性。較低的值將使模型更具確定性,而較高的值將使模型更隨機。默認值為0。

max_new_tokens:要生成的最大token數量。默認值為20,最大值為512。

repeption_penalty:控制重復的可能性,默認為null。

seed:用于隨機生成的種子,默認為null。

stop:用于停止生成的代幣列表。生成其中一個令牌后,生成將停止。

top_k:用于top-k篩選時保留的最高概率詞匯標記的數量。默認值為null,它禁用top-k過濾。

top_p:用于核采樣時保留的參數最高概率詞匯標記的累積概率,默認為null。

do_sample:是否使用采樣;否則使用貪婪的解碼。默認值為false。

best_of:生成best_of序列如果是最高標記logpros則返回序列,默認為null。

details:是否返回有關世代的詳細信息。默認值為false。

return_full_text:是返回全文還是只返回生成的部分。默認值為false。

truncate:是否將輸入截斷到模型的最大長度。默認值為true。

typical_p:代幣的典型概率。默認值null。

水?。荷蓵r使用的水印。默認值為false。

可以在swagger文檔中找到TGI的開放api規范。

openAssistant/Pythia-12b-sft-v8-7K-steps是一種對話式聊天模型,這意味著我們可以使用以下提示與它聊天:

wKgZomVCHviAE-lAAAAQqU4QjKc607.png

先試一試,問一下夏天可以做的一些很酷的想法:

wKgaomVCHviAQnPuAABQPury5fQ789.png

現在,使用不同的參數進行推理,以影響生成。參數可以通過輸入的parameters屬性定義。這可以用來讓模型在“機器人”回合后停止生成。

wKgZomVCHvmAElpXAACaE-pUodY766.png

現在構建一個快速gradio應用程序來和它聊天。

wKgZomVCHvmATJ_BAAC52SpVk0g497.pngwKgaomVCHvmAIi4cAAEHWf9rfs0704.png

程序運行成功后,顯示如下聊天窗口:

wKgZomVCHvqAQXxvAAGom2TeVss859.png

現在已經成功地將Open Assistant模型部署到亞馬遜云科技Amazon SageMaker并對其進行了推理。此外,還構建了一個快速的gradio應用程序,可以與模型聊天。

現在,可以使用亞馬遜云科技Amazon SageMaker上全新Hugging Face LLM DLC構建世代人工智能應用程序的時候了。

5.清理環境

刪除模型和端點。

wKgaomVCHvqAVlcQAAAJ15R1HD8880.png

6.總結

從上面的部署過程,可以看到整個部署大語言模型的過程非常簡單,這個主要得益于SageMaker Hugging Face LLM DLC的支持,還可以通過將Amazon SageMaker部署的端點與應用集成,滿足實際的業務需求。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    439

    瀏覽量

    10064
  • 亞馬遜
    +關注

    關注

    8

    文章

    2493

    瀏覽量

    82433
  • LLM
    LLM
    +關注

    關注

    0

    文章

    207

    瀏覽量

    240
收藏 人收藏

    評論

    相關推薦

    機智Amazon Alexa平臺發布Smarthome和Custom Skill,實現亞馬遜Echo直接控制Gokit

    本帖最后由 機智小編 于 2017-3-31 14:09 編輯 機智Amazon Alexa平臺率先發布了Smarthome Skill和Custom Skill,實現了亞馬遜Echo直接
    發表于 03-31 11:54

    通過Cortex來非常方便的部署PyTorch模型

    ,Hugging Face 生成的廣泛流行的自然語言處理(NLP)庫,是建立在 PyTorch 上的。Selene,生物前沿 ML 庫,建在 PyTorch 上。CrypTen,這個熱門的、新的、關注隱私
    發表于 11-01 15:25

    中科創達成為Amazon SageMaker服務就緒計劃首批認證合作伙伴

    近日,亞馬遜云科技于其年度盛會re:Invent上正式推出了Amazon SageMaker服務就緒計劃。中科創達作為亞馬遜云科技合作伙伴應邀出席峰會并正式加入
    的頭像 發表于 12-06 11:41 ?1037次閱讀

    ?使用AWS Graviton降低Amazon SageMaker推理成本

    Amazon SageMaker(https://aws.amazon.com/sagemaker/)提供了多種機器學習(ML)基礎設施和模型
    的頭像 發表于 05-28 09:31 ?484次閱讀
    ?使用AWS Graviton降低<b class='flag-5'>Amazon</b> <b class='flag-5'>SageMaker</b><b class='flag-5'>推理</b>成本

    大型語言模型LLM)的自定義訓練:包含代碼示例的詳細指南

    近年來,像 GPT-4 這樣的大型語言模型LLM) 因其在自然語言理解和生成方面的驚人能力而受到廣泛關注。但是,要根據特定任務或領域定制LLM
    發表于 06-12 09:35 ?1936次閱讀

    基于Transformer的大型語言模型LLM)的內部機制

    本文旨在更好地理解基于 Transformer 的大型語言模型LLM)的內部機制,以提高它們的可靠性和可解釋性。 隨著大型語言模型
    的頭像 發表于 06-25 15:08 ?1054次閱讀
    基于Transformer的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內部機制

    Hugging Face更改文本推理軟件許可證,不再“開源”

    據悉,TGI 已成為 Hugging Face 商業產品(如推理端點)及其商業合作伙伴(如 Amazon SageMaker、Azure 機
    的頭像 發表于 07-31 14:42 ?420次閱讀

    NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

    NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型LLM)的訓練和調優,簡化了幾乎每個行業的
    發表于 08-09 11:41 ?112次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數百萬開發者與生成式 AI 超級計算

    NVIDIA 與 Hugging Face 將連接數百萬開發者與生成式 AI 超級計算

    NVIDIA DGX Cloud 集成到 Hugging Face 平臺將加速大語言模型LLM)的訓練和調優,簡化了幾乎每個行業的
    的頭像 發表于 08-09 11:38 ?718次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數百萬開發者與生成式 AI 超級計算

    mlc-llm對大模型推理的流程及優化方案

    在 MLC-LLM 部署RWKV World系列模型實戰(3B模型Mac M2解碼可達26tokens/s) 中提到要使用mlc-llm
    發表于 09-26 12:25 ?465次閱讀
    mlc-<b class='flag-5'>llm</b>對大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>的流程及優化方案

    Hugging Face被限制訪問

    目前尚不清楚 Hugging Face 何時出現訪問限制問題。雅虎的報道稱,早在今年 5 月起,就已經有用戶在 HF 的論壇上抱怨連接問題。另外有報道稱,至少從 9 月 12 日起,Hugging
    的頭像 發表于 10-22 15:51 ?1210次閱讀
    <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b>被限制訪問

    怎樣使用Accelerate庫在多GPU上進行LLM推理呢?

    大型語言模型(llm)已經徹底改變了自然語言處理領域。隨著這些模型在規模和復雜性上的增長,推理
    的頭像 發表于 12-01 10:24 ?619次閱讀
    怎樣使用Accelerate庫在多GPU上進行<b class='flag-5'>LLM</b><b class='flag-5'>推理</b>呢?

    亞馬遜云科技推出五項Amazon SageMaker新功能

    Inference通過優化加速器的使用,平均降低50%的基礎模型部署成本,并平均縮短了20%的延遲時間; Amazon SageMaker Clarify能夠讓客戶更輕松地根據支持負
    的頭像 發表于 12-06 14:04 ?499次閱讀

    ServiceNow、Hugging Face 和 NVIDIA 發布全新開放獲取 LLM,助力開發者運用生成式 AI 構建企業應用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日發布 StarCoder2,其為一系列用于代碼生成的開放獲取大語言
    發表于 02-29 11:12 ?162次閱讀
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 發布全新開放獲取 <b class='flag-5'>LLM</b>,助力開發者運用生成式 AI 構建企業應用

    Mistral Large模型現已在Amazon Bedrock上正式可用

    的 Mistral 7B 和 Mixtral 8x7B模型。今天,Mistral AI最新且最前沿的大語言模型LLM)Mistral Large又在
    的頭像 發表于 04-08 16:26 ?285次閱讀
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>