<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

NVIDIA AI Foundation Models：使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

大語言模型（LLM）正在徹底變革數據科學，帶來自然語言理解、AI 和機器學習的高級功能。為洞悉特定領域而定制的自定義 LLM 在企業應用中越來越受到青睞。

NVIDIA Nemotron-3 8B系列基礎模型是一套功能強大的全新工具，可用于為企業構建生產就緒生成式 AI 應用，從而推動從客服 AI 聊天機器人到尖端 AI 產品的各種創新。

這些新的基礎模型現已加入NVIDIA NeMo。這個端到端框架用于構建、自定義和部署專為企業定制的 LLM。企業現在可以使用這些工具快速且經濟高效地大規模開發 AI 應用。這些應用可在云端、數據中心以及 Windows PC 和筆記本電腦上運行。

Nemotron-3 8B 系列現已在 Azure AI Model 目錄、HuggingFace 和NVIDIA NGC 目錄上的NVIDIA AI Foundation Model中心提供。該系列包含基本模型、聊天模型和問答（Q&A）模型，可解決各種下游任務。表 1 列出了該系列的所有模型。

表 1. Nemotron-3 8B 系列基礎模型支持多種 LLM 用例

設計用于生產的基礎模型

基礎模型是強大的構建模塊，它減少了構建實用的自定義應用所需的時間和資源。然而，企業機構必須確保這些模型符合其具體需求。

NVIDIA AI Foundation Models 基于來源可靠的數據集訓練而成，集合了無數聲音和體驗。嚴格監控確保了數據的真實性，并符合不斷變化發展的法律規定。任何出現的數據問題都會迅速得到解決，確保企業的 AI 應用既符合法律規范，又能保護用戶隱私。這些模型既能吸收公開數據集，也能兼容專有數據集。

Nemotron-3-8B 基本模型

Nemotron-3-8B 基本模型是一種用于生成類人文本或代碼的緊湊型高性能模型。該模型的 MMLU 5 樣本平均值為 54.4。該基本模型還精通 53 種語言，包括英語、德語、俄語、西班牙語、法語、日語、中文、意大利語和荷蘭語，因此能滿足跨國企業對多語言能力的需求。該基本模型還經過 37 種不同編碼語言的訓練。

Nemotron-3-8B 聊天模型

該套件還添加了 Nemotron-3-8B 聊天模型，用于 LLM 驅動的聊天機器人交互。Nemotron-3-8B 聊天模型有三個版本，每個版本均針對特定用戶的獨特調整而設計：

監督微調（SFT）
人類反饋強化學習（RLHF）
NVIDIA SteerLM（https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/）

Nemotron-3-8B-SFT 模型是指令微調的第一步，我們在此基礎上建立了 RLHF 模型，該模型是 8B 類別中 MT-Bench 分數最高的模型（MT-Bench 是最常用的聊天質量指標）。用戶可以從使用 8B-chat-RLHF 開始，以獲得最佳的即時聊天互動效果。但對于希望與最終用戶的偏好保持一致的企業，可以在使用 SFT 模型的同時，應用自己的 RLHF。

最后，最新的對齊方法 SteerLM 為訓練和自定義推理 LLM 提供了新的靈活性。借助 SteerLM，用戶可以定義其所需的所有屬性，并將其嵌入單個模型中，然后就可以在該模型運行時為特定用例選擇其所需的組合。

這種方法支持持續的改進周期。自定義模型響應可以作為未來訓練的數據，從而將模型的實用性提升到新的水平。

Nemotron-3-8B 問答模型

Nemotron-3-8B-QA 模型是一個問答（QA）模型，該模型在大量數據基礎上針對目標用例進行微調。

Nemotron-3-8B-QA 模型的性能一流，在 Natural Questions 數據集（https://ai.google.com/research/NaturalQuestions/）上實現了 41.99% 的零樣本 F1 分數。該指標用于衡量生成的答案與問答中真實答案的相似程度。

Nemotron-3-8B-QA 模型已與其他參數規模更大的先進語言模型進行了對比測試。測試是在 NVIDIA 創建的數據集以及 Natural Questions 和 Doc2Dial 數據集上進行的。結果表明，該模型具有良好的性能。

使用 NVIDIA NeMo 框架

構建自定義 LLM

NVIDIA NeMo 通過為多種模型架構提供端到端功能和容器化方案，簡化了構建自定義企業生成式 AI 模型的路徑。借助 Nemotron-3-8B 系列模型，開發者就可以使用 NVIDIA 提供的預訓練模型，這些模型可以輕松適應特定用例。

快速模型部署

使用 NeMo 框架時，無需收集數據或設置基礎架構。NeMo 精簡了這一過程。開發者可以自定義現有模型，并將其快速部署到生產中。

最佳模型性能

此外，它還與NVIDIA TensorRT-LLM開源庫和NVIDIA Triton 推理服務器無縫集成，前者可優化模型性能，后者可加速推理服務流程。這種工具組合實現了最先進的準確性、低延遲和高吞吐量。

數據隱私和安全

NeMo 可實現安全、高效的大規模部署，并符合相關安全法規規定。例如，如果數據隱私是業務的關鍵問題，就可以使用NeMo Guardrails在不影響性能或可靠性的情況下安全存儲客戶數據。

總之，使用 NeMo 框架構建自定義 LLM 是在不犧牲質量或安全標準的情況下、快速創建企業 AI 應用的有效方法。它為開發者提供了自定義靈活性，同時提供了大規?？焖俨渴鹚璧膹姶蠊ぞ?。

開始使用 Nemotron-3-8B

您可以使用 NeMo 框架在 Nemotron-3-8B 模型上輕松運行推理，該框架充分利用 TensorRT-LLM 開源庫，可在NVIDIA GPU上為高效和輕松的 LLM 推理提供高級優化。它內置了對各種優化技術的支持，包括：

KV caching
Efficient Attention modules (including MQA, GQA, and Paged Attention)
In-flight (or continuous) batching
支持低精度（INT8/FP8）量化以及其他優化

NeMo 框架推理容器包含在 NeMo 模型（如 Nemotron-3-8B 系列）上應用 TensorRT-LLM 優化所需的所有腳本和依賴項，并將它們托管在 Triton 推理服務器上。部署完成后，它可以開放一個端點，供您發送推理查詢。

在 Azure ML 上的部署步驟

Nemotron-3-8B 系列模型可在 Azure ML 模型目錄中獲得，以便部署到 Azure ML 管理的端點中。AzureML 提供了易于使用的“無代碼部署”流程，使部署 Nemotron-3-8B 系列模型變得非常容易。該平臺已集成了作為 NeMo 框架推理容器的底層管道。

圖 1. 在 Azure ML 中選擇實時端點

如要在 Azure ML 上部署 NVIDIA 基礎模型并進行推理，請按照以下步驟操作：

登錄 Azure 賬戶：https://portal.azure.com/#home
導航至 Azure ML 機器學習工作室
選擇您的工作區，并導航至模型目錄

NVIDIA AI Foundation 模型可在 Azure 上進行微調、評估和部署，還可以在 Azure ML 中使用 NeMo 訓練框架對這些模型進行自定義。NeMo 框架由訓練和推理容器組成，已集成在 AzureML 中。

如要微調基本模型，請選擇您喜歡的模型變體，單擊“微調”，填寫任務類型、自定義訓練數據、訓練和驗證分割以及計算集群等參數。

如要部署該模型，請選擇您喜歡的模型變體，單擊“實時端點”，選擇實例、端點和其他用于自定義部署的參數。單擊“部署”，將推理模型部署到端點。

Azure CLI 和 SDK 支持也可用于在 Azure ML 上運行微調作業和部署。詳細信息請參見“Azure ML 中的 Foundation Models”文檔。

在本地或其他云上的部署步驟

Nemotron-3-8B 系列模型具有獨特的推理請求提示模板，建議將其作為最佳實踐。但由于它們共享相同的基本架構，因此其部署說明很相似。

有關使用 NeMo 框架推理容器的最新部署說明，參見：https://registry.ngc.nvidia.com/orgs/ea-bignlp/teams/ga-participants/containers/nemofw-inference。

為了演示，讓我們部署 Nemotron-3-8B-Base-4k。

1. 登錄 NGC 目錄，獲取推理容器。

# log in to your NGC organization
docker login nvcr.io


# Fetch the NeMo framework inference container
docker pull nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10

2. 下載 Nemotron-3-8B-Base-4k 模型。8B 系列模型可在 NGC 目錄和 Hugging Face 上獲得，您可以選擇其中一個下載模型。

NVIDIA NGC

從 NGC 下載模型最簡單的方法是使用 CLI。如果您沒有安裝 NGC CLI，請按照入門指南（https://docs.ngc.nvidia.com/cli/cmd.html#getting-started-with-the-ngc-cli）進行安裝和配置。

# Downloading using CLI. The model path can be obtained from it’s page on NGC
ngc registry model download-version "dztrnjtldi02/nemotron-3-8b-base-4k:1.0"

Hugging Face Hub

以下指令使用的是 git-lfs，您也可以使用 Hugging Face 支持的任何方法下載模型。

git lfs install
git clone https://huggingface.co/nvidia/nemotron-3-8b-base-4knemotron-3-8b-base-4k_v1.0

3.在交互模式下運行 NeMo 推理容器，安裝相關路徑

# Create a folder to cache the built TRT engines. This is recommended so they don’t have to be built on every deployment call. 
mkdir -p trt-cache


# Run the container, mounting the checkpoint and the cache directory
docker run --rm --net=host 
                     --gpus=all 
                     -v $(pwd)/nemotron-3-8b-base-4k_v1.0:/opt/checkpoints/  
                     -v $(pwd)/trt-cache:/trt-cache  
                     -w /opt/NeMo 
                     -it nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10 bash

4. 在 Triton 推理服務器上使用 TensorRT-LLM 后端轉換并部署該模型。

python scripts/deploy/deploy_triton.py 
                     --nemo_checkpoint /opt/checkpoints/Nemotron-3-8B-Base-4k.nemo 
                     --model_type="gptnext" 
                     --triton_model_name Nemotron-3-8B-4K 
                     --triton_model_repository /trt-cache/ 
                     --max_input_len 3000 
                     --max_output_len 1000 
                     --max_batch_size 2

當該指令成功完成后，就會顯示一個可以查詢的端點。讓我們來看看如何做到這一點。

運行推理的步驟

有幾種運行推理的方法可供選擇，取決于您希望如何集成該服務：

1. 使用 NeMo 框架推理容器中的 NeMo 客戶端 API

2. 使用 PyTriton 在您的環境中創建一個客戶端應用

3. 鑒于所部署的服務會開放一個 HTTP 端點，使用任何可以發送 HTTP 請求的程序資源庫/工具。

選項 1（使用 NeMo 客戶端 API）的示例如下。您可以在同一臺設備上的 NeMo 框架推理容器中使用，也可以在能訪問服務 IP 和端口的不同設備上使用。

from nemo.deploy import NemoQuery


# In this case, we run inference on the same machine
nq = NemoQuery(url="localhost:8000", model_name="Nemotron-3-8B-4K")


output = nq.query_llm(prompts=["The meaning of life is"], max_output_token=200, top_k=1, top_p=0.0, temperature=0.1)
print(output)

其他選項示例可以在該推理容器的 README 中找到。

8B 系列模型指令

NVIDIA Nemotron-3-8B 系列中的模型：所有 NVIDIA Nemotron-3-8B 數據集共享預訓練基礎，但用于調優聊天（SFT、RLHF、SteerLM）和問答模型的數據集是根據其特定目的自定義的。此外，構建上述模型還采用了不同的訓練技術，因此這些模型在使用與訓練模板相似的定制指令時最為有效。

這些模型的推薦指令模板位于各自的模型卡上。

例如，以下是適用于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型的單輪和多輪格式：

指令和回復字段與輸入內容相對應。下面是一個使用單輪模板設置輸入格式的示例。

PROMPT_TEMPLATE = """System
{system}
User
{prompt}
Assistant
"""
system = ""
prompt = "Write a poem on NVIDIA in the style of Shakespeare"


prompt = PROMPT_TEMPLATE.format(prompt=prompt, system=system)
print(prompt)

注意：對于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型，我們建議保持系統提示為空。

進一步訓練和自定義

NVIDIA Nemotron-3-8B 模型系列適用于針對特定領域數據集的進一步定制。對此有幾種選擇，例如繼續從檢查點進行預訓練、SFT 或高效參數微調、使用 RLHF 校準人類演示或使用 NVIDIA 全新 SteerLM 技術。

NeMo 框架訓練容器提供了上述技術的易用腳本。我們還提供了各種工具，方便您進行數據整理、識別用于訓練和推理的最佳超參數，以及在您選擇的硬件（本地 DGX 云、支持 Kubernetes 的平臺或云服務提供商）上運行 NeMo 框架的工具。

更多信息，參見 NeMo 框架用戶指南（https://docs.nvidia.com/nemo-framework/user-guide/latest/index.html）或容器 README（https://registry.ngc.nvidia.com/orgs/ea-bignlp/containers/nemofw-training）。

Nemotron-3-8B 系列模型專為各種用例而設計，不僅在各種基準測試中表現出色，還支持多種語言。

GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行，線上大會也將同期開放。點擊“閱讀原文”或掃描下方海報二維碼，立即注冊 GTC 大會。

原文標題：NVIDIA AI Foundation Models：使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

文章出處：【微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

英偉達

英偉達

+關注

關注
22

文章
3480

瀏覽量
88862

原文標題：NVIDIA AI Foundation Models：使用生產就緒型 LLM 構建自定義企業聊天機器人和智能副駕

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

評論

相關推薦

AI聊天機器人Grok向歐洲X平臺Premium會員開放

社交平臺X的首席執行官琳達·亞卡里諾宣布，全新研發的Grok人工智能聊天機器人正式向歐洲的X Premium會員提供服務。Grok是X平臺精心打造的一款AI聊天機器人，旨在提升歐洲會員

的頭像

發表于 05-17 09:38 ?123次閱讀

使用Ryzen ? AI處理器構建聊天機器人

人工智能處理器和軟件將個人計算的強大功能帶到人工智能PC上，將工作、協作和創新的效率提升到一個全新的水平。???生成式AI應用程序（如AI聊天機器人

發表于 05-11 14:22 ?1459次閱讀

英偉達推出全新AI聊天機器人

近日，英偉達（Nvidia）宣布推出其全新的AI聊天機器人——“Chat With RTX”。這款聊天機器人被視為英偉達版的ChatGPT，為用戶提供了一個全新的、本地化的

發表于 02-19 11:09 ?541次閱讀

谷歌AI聊天機器人改名為Gemini

谷歌(Google)近日宣布，旗下備受矚目的AI聊天機器人Bard正式更名為Gemini，并推出了一款功能更加強大的付費版本——Gemini Advanced。這一戰略調整旨在與微軟、OpenAI等科技巨頭在AI

發表于 02-18 11:28 ?677次閱讀

如何用AI聊天機器人寫出萬字長文

如何用AI聊天機器人寫出萬字長文

發表于 12-26 16:25 ?671次閱讀

NVIDIA 通過企業級生成式 AI 微服務為聊天機器人、AI 助手和摘要工具帶來商業智能

微服務，支持企業將自定義大語言模型與企業數據相連接，使其 AI 應用能夠提供高度準確的響應。 NVIDIA NeMo Retriever

發表于 11-29 21:05 ?425次閱讀

NVIDIA 通過企業級生成式 AI 微服務為聊天機器人、AI 助手和摘要工具帶來商業智能

。 ? NVIDIA NeMo? Retriever 是 NVIDIA NeMo（一個用于構建、自定義和部署生成式 AI 模型的框架和工具系

發表于 11-29 14:37 ?141次閱讀

利用 NVIDIA AI Foundation Models 構建自定義企業級生成式 AI

NVIDIA AI Foundation Models ?是由精心挑選的社區模型和 NVIDIA 構建

發表于 11-17 21:30 ?488次閱讀

NVIDIA 在 Microsoft Azure 上推出面向全球企業和初創公司的生成式 AI Foundry 服務

SAP、Amdocs、Getty Images 率先使用 NVIDIA AI Foundation Models? 構建

發表于 11-16 21:15 ?331次閱讀

NVIDIA 加快企業自定義生成式 AI 模型開發

的業務數據進行自定義。如今，免費、開源的大語言模型對企業來說就像是一頓“自助餐”。但對于構建自定義生成式 AI 應用的開發者來說，這頓“大

發表于 11-16 21:15 ?387次閱讀

NVIDIA 在 Microsoft Azure 上推出面向全球企業和初創公司的生成式 AI Foundry 服務

SAP、Amdocs、Getty Images 率先使用 NVIDIA AI Foundation Models 構建

發表于 11-16 14:13 ?181次閱讀

全球與中國AI聊天機器人市場：增長趨勢、競爭格局與前景展望

與人類用戶進行對話。它可以使用自然語言處理（NLP）和機器學習（ML）等各種技術和方法來構建。 聊天機器人有多種類型，包括基于規則的聊天機器人和自學習

發表于 08-01 18:07 ?1297次閱讀

印度Dukaan推出應用生成式AI聊天機器人

? ? ? 近日印度電子商務初創公司Dukaan宣布采用生成式人工智能(AI)聊天機器人來改善其客服工作。據了解這一舉措大大提高了客服效率，并顯著降低了成本。 Dukaan公司在應用生成式AI

發表于 07-17 10:21 ?458次閱讀

教程 3：構建自定義配置文件

教程 3：構建自定義配置文件

發表于 07-06 18:49 ?1次下載

聊天機器人開源分享

電子發燒友網站提供《聊天機器人開源分享.zip》資料免費下載

發表于 06-20 15:07 ?1次下載

NVIDIA英偉達企業解決方案
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot NVIDIA將深度學習引入計算機圖形領域以推動行業發展
Hot 一文講述Quadro RTX 5000帶來的性能提升

New NVIDIA Omniverse 將為全新 OpenPBR 材質模型提供原生支持
New 電子制造商采用NVIDIA AI和 Omniverse助力工廠提高運營效率并降低成本

精選推薦
更多

文章

資料

帖子

使用理想二極管控制器的汽車應用冗余電源拓撲

德州儀器
32分鐘前

60 閱讀

電力電子中的電大、電小尺寸？

英飛凌工業半導體
2天前

121 閱讀

EMC大揭秘 PCB設計必備指南

凡億PCB
1天前

648 閱讀

華為PCBA檢查規范設計總結

凡億PCB
1天前

742 閱讀

第一批人機戀的“AI前任”已經死了

腦極體
1天前

817 閱讀

示波器使用教程

378743652
281 KB

免費

0下載

德州儀器模擬器件選型指南

lanlanw
39.4 MB

免費

191下載

Overwatch RPC監控系統

張娟
0.29 MB

2積分

1下載

GitDigger為開源項目而生的交流社區

神之小風
0.15 MB

2積分

4下載

LibSourcey C++高性能網絡開發庫

李藝銀
27.68 MB

2積分

3下載

無線鼠標主板，可以自己照著做嗎？

angel725
1天前

303 閱讀

【Vision Board創客營連載體驗】基于Vision Board的垃圾分類

大菠蘿Alpha
1天前

140 閱讀

【Vision Board創客營連載體驗】使用 Vision Board 做一個 UVC Camera

ouxiaolong
2天前

143 閱讀

【Vision Board創客營連載體驗】TinyMaix進行手寫數字識別

ouxiaolong
2天前

456 閱讀

【Vision Board創客營連載體驗】RA8D1-Vision Board使用7寸屏設置為RGB666大端模式模式成功顯示攝像頭圖案

donatello1996
3天前

427 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看