<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

亞馬遜云科技智能2D數字人方案為教育行業賦能

科技新思路 ? 來源:科技新思路 ? 作者:科技新思路 ? 2023-08-30 14:28 ? 次閱讀

早在大語言模型如GPT-3.5等的興起和被日漸廣泛的采用之前,教育行業已經在AI輔助教學領域有過各種各樣的嘗試。在教育行業,人工智能技術的采用幫助教育行業更好地實現教學目標,提高教學質量、學習效率、學習體驗、學習成果。例如,人工智能技術可以幫助教師更好地管理課堂,更好地識別學生的學習需求,更好地提供個性化的學習內容,更好地評估學生的學習成果,更好地提供學習支持。此外,人工智能技術還可以幫助教育行業更好地實現自動化,提高教育行業的效率和效果??傊?,人工智能技術在教育行業的采用將會帶來巨大的變化,為教育行業帶來更多的發展機遇。

亞馬遜科技也一直致力于提供更方便快捷,功能更強大的AI服務來支持教育行業客戶的技術創新和業務創新。特別是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等產品分別從自然語言處理、圖形圖像處理、模型研發部署等方面為教育行業提供了強有力的技術支持。

本文結合Amazon Transcribe、Amazon Polly,以及OpenAI的大語言模型和D-ID.com公司的2D數字人生成技術,介紹實現一個演示用的可語音對話的智能2D數字人設計的服務和具體的實現過程。

方案架構

為了能在一個統一的用戶界面呈現語音輸入、語音輸出,以及2D數字人視頻播放的整體效果,本方案選擇Gradio框架實現WebUI的功能。呈現的WebUI如下:

用戶可以通過直接輸入文字內容或者使用麥克風輸入語音,文字內容會使用Langchain附加上一定的上下文后送給OpenAI的GPT接口調用,語音輸入會先調用Amazon Transcribe服務進行語音到文字的轉換。經過GPT接口返回的文字內容,會調用AWS Polly形成語音文件,同時語音文件會作為D-ID.com提供的API渲染出2D的動態視頻在前端自動展示和播放。

本方案中語音輸入,語音輸出,文字響應生成,以及數字人視頻生成的功能都可以做自由的組合和替換。特別是對于OpenAI接口的調用可以置換為對自部署的大語言模型的調用,同時2D數字人視頻的生成也可以考慮其他類似服務,如Heygen等。

具體實現

語音輸入部分

Amazon Transcribe支持實時轉錄語音(流式傳輸),也可以轉錄Amazon S3存儲桶中的語音文件(批處理)。Transcribe支持多達幾十種的不同國家的語言。

Transcribe的實時轉錄能力非常的強大,處理流數據的同時,不斷的利用之前的上下文進行結果的實時矯正,可以通過下面這個截圖看到Transcribe實時轉錄輸出的效果:

應答內容生成部分

在本方案里,應答內容的生成借助Langchain這個開源框架,調用基于OpenAI的coversation接口,同時使用memory庫對對話的上下文做了5輪保存。在實際的客戶場景里,可以考慮更豐富的方式來規范回復的內容的有效性和客觀性。

比如可以使用Langchain的對話模版來對大模型的角色進行預設,或者使用Amazon Kendra,Amazon Opensearch這樣的知識庫構建和檢索引擎,來進一步限制大模型應答的內容范圍。

語音輸出部分

Amazon Polly可以將文本轉化為逼真的語音。它支持多種語言并且包含各種逼真的聲音模擬,也包含中文普通話語音的模擬。

可以構建支持語音并能用于各種位置的應用程序,并選擇適合客戶的聲音。Amazon Polly也支持語音合成標記語言(SSML),它是一種基于XML的W3C標準標記語言,適用于語音合成應用程序,且支持使用通用SSML標簽進行斷句、重音和語調。自定義Amazon SSML標簽提供了獨特的選項,例如,能夠以新聞播音員說話風格發出某些聲音。這種靈活性能夠幫助您創建逼真的語音,從而吸引并維持聽眾的注意力。

在本方案中,可以使用Polly的實時語音生成接口,使用了中文普通話發音的VoiceID:Zhiyu,同時對特定的字符的發音做了定制化,這也是Polly一個非常有用的功能(Lexion)。

2D數字人視頻的生成部分

這里可以使用一個外部第三方的SaaS服務。該服務由D-ID.com公司提供,對應的API可以直接接收文本輸入和一張人臉圖片來生成對應的動態播報視頻,也可以接受語音文件加圖片作為輸入。

當你輸入文本的時候,該API接口可以選擇制定AWS的Polly服務中的不同的Voice ID來自動為你合成語音。

在本方案中,想體現中文的語音輸出的效果,但是D-ID的API接口中暫時無法直接為中文文本指定中文的Voice ID。所以選擇了先用Polly的API生成語音,再把語音和圖片傳送給D-ID的接口生成視頻。

總結

今年是AIGC爆發的一年,也是教育行業所在的客戶看到行業拐點的一年。在這個關鍵的歷史性節點上,亞馬遜云科技愿意和客戶一起面對這些新的機會和挑戰,以客戶的需求為導向,幫助客戶抓住AI浪潮帶來的紅利。

目前除了本文展示的2D數字人的方案,亞馬遜云科技也可以幫助客戶提供基于3D數字人或者其他3D數字形象的直播,互動等方案。同時亞馬遜云科技也會引入更多的技術合作伙伴如躍遷引擎來豐富整個數字人,數字形象直播、點播、互動等場景的解決方案,助力更多的教育行業客戶加速AI技術的采用和落地。

原發標題:近實時智能應答 2D 數字人搭建

審核編輯 黃宇


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    26909

    瀏覽量

    264697
  • 人工智能
    +關注

    關注

    1780

    文章

    44560

    瀏覽量

    231303
  • 亞馬遜
    +關注

    關注

    8

    文章

    2523

    瀏覽量

    82476
  • 數字人
    +關注

    關注

    0

    文章

    97

    瀏覽量

    1804
收藏 人收藏

    評論

    相關推薦

    老子:移動實物數字智能時代來臨!

    時代的來臨。1.強大的壓縮技術為什么老子技術深受行業人士期待?特別是設計、3D游戲建模行業,眸瑞科技研發——老子技術,兩個自動化(
    發表于 04-17 10:10

    “視網膜”重裝來襲 AI技術視頻業務場景

    、工業優化、航空調度等全局能力一體的ET大腦,將人工智能于生活中的各處場景。阿里解決方案
    發表于 01-09 15:12

    基于人工智能的創新教學平臺建設

    技能教育。然而,在人工智能時代,不僅需要“技”,更需要“”。那些易于教授和檢驗的技能,正在或者將要被數字化。人工智能在孕育國內眾多新興產業
    發表于 04-16 15:15

    AI教育 ROOBO“童秘”平臺及布丁迷你豆同期發布

    揭開了童秘兒童智能平臺(以下簡稱“童秘”)的神秘面紗。在兒童教育機器業務量越來越大的同時,童秘從ROS.AI中孕育出來。該平臺能夠為兒童教育機器
    發表于 08-05 09:27

    筷捷SaaS平臺:助力企業上,數字經濟

    特色產業園區項目。并且,筷捷的年用戶量正保持30%以上的增速發展?! 】杲?,助力企業上,數字經濟?! EC筷捷產品介紹:  辦公S
    發表于 08-28 13:54

    機智提供的智能照明方案簡單介紹

    、wifi、GPRS等常見通訊方式進行智能照明產品連接2. 硬件方案:機智可提供照明硬件方案(含通信)3. 軟件開發:可使用機智
    發表于 09-03 10:42

    如何同時獲取2d圖像序列和相應的3d?

    如何同時獲取2d圖像序列和相應的3d?以上來自于谷歌翻譯以下為原文How to obtain the sequence of 2d image and corresponding
    發表于 11-13 11:25

    ZWS-CAN智慧如何工程機械?

    ZWS-CAN智慧如何工程機械?ZWS-CAN智慧云系統演示
    發表于 03-01 07:49

    OpenHarmony技術日探討教育發展,聚焦開源人才培養

    ,結合課程教材、實驗實訓以及企業實踐,將行業應用中的智能家居、智慧辦公、智慧農業等多種解決方案場景轉化為教學案例,以企業實踐教學培養。(
    發表于 04-29 10:52

    AI“電子哨兵”推動城市的智能化和數字化進程(附“電子哨兵”方案

    機器等,通過視頻采集和數據處理完成監控和預警的作用。 AI的“電子哨兵” AI的 “電子哨兵”,又稱“
    發表于 06-28 16:42

    天使,科技智造:華秋第八屆硬創賽與亞馬遜科技達成戰略合作

    、技術領先、服務豐富、應用廣泛而享譽業界。亞馬遜科技可以支持幾乎上任意工作負載。亞馬遜科技目前提供超過 200 項全功能的服務,涵蓋計
    發表于 07-01 15:33

    2D執行器在X/Y 2D空間中移動微型機器

    描述2D 執行器在 X/Y 2D 空間中移動微型機器有區別:- 我正在使用另一個移動軌道配置- 控制是三相單極對四相雙極- 我的機械手 (mBot) 使用 4 個磁鐵并且不懸浮- 對于一維移動,我
    發表于 07-25 06:33

    安全、快速、穩定,華為CDN中小企業數字化發展

    安全、快速、穩定,華為CDN中小企業數字化發展安全、快速、穩定,華為CDN
    發表于 10-25 14:40

    千行百業數字化轉型,OpenHarmony生態新成果即將亮相HDC2022

    、76款開發板/模組和74款商用設備,已經成為全球智能終端操作系統領域中一股不可忽視的開源力量?多元行業論壇 精彩前沿對話 豐富生態展區,OpenHarmony各行各業
    發表于 11-02 12:03

    智慧教育解決方案創百智能科技

    ,滿足現代智能教育的需求。4、內嵌WIFI、藍牙等無線通訊,可進行互聯網連接,可實現移動教育。5、支持USB3.0,提供高速數據傳輸。6、支持直接存儲和SSD閃存,保證多媒體數據的快速加載。二、軟件
    發表于 02-14 10:04
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>