<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

汽車多模態交互研究:大模型及多模態融合,推進AI Agent上車

佐思汽車研究 ? 來源:佐思汽車研究 ? 2023-11-24 16:12 ? 次閱讀

佐思汽研發布《2023年中國汽車多模態交互發展研究報告》,主要梳理了主流座艙交互方式、2023年上市的重點車型交互方式應用、供應商座艙交互方案,以及多模交互融合趨勢。

通過梳理最近一年新上市車型的交互方式和功能來看,主動式、擬人化、自然化交互成為主要方向。從交互方式來看:單一模態交互,如觸覺、語音等主流交互的控制范圍從車內拓展至車外,指紋、肌電等新型交互方式的上車案例開始增多;多模態融合交互下,語音+頭姿/人臉/唇語、面部+情緒/嗅覺等多種融合交互不斷上車,旨在打造更加主動、自然的人車交互。

單一模態的縱深發展

觸覺交互方面:座艙大屏化、多屏化趨勢加劇,同時智能表面材料在艙內的擴展應用,讓觸覺感知范圍向車門、車窗、座椅等部件擴展,并逐步引入觸覺反饋技術;

語音交互方面:語音交互在AI大模型的賦能下,功能愈加智能化、情感化。唇動識別、聲紋識別等技術的上車,使語音交互精準度得到進一步提升,控制范圍也從車內拓展至車外;

視覺交互方面:基于視覺技術的面部/手勢識別范圍開始逐漸向肢體識別擴展,包括頭部姿勢、手臂動作,以及身體行為等;

嗅覺交互方面:原主要用于凈化空氣、祛除異味的嗅覺交互功能,現今可實現座艙殺菌消毒、并支持香氛系統與座艙場景/季節時令聯動。

案例1

語音控車實現車內向車外延伸

代表車型:長安啟源A07、極越01

代表功能:車外語音開啟車門、車窗、輔助泊車等

長安啟源A07采用科大訊飛最新XTTS 4.0 技術,車載語音助手聲音更加自然擬人化,具備高興、抱歉、疑惑等多情感表達。支持向車外喊話(內容可自定義);此外,還可在車外通過語音實現對后備箱、車窗、音樂、空調、出庫/泊車等功能的控制。

極越01搭載“SIMO”語音助手,支持全域全離線語音,無網弱網也可全程在線語音交互;可實現500毫秒識別,700毫秒內響應。在車外,駕乘人員可通過聲紋識別技術實現語音操作空調、音響、燈光、車窗、車門、后尾門、充電蓋的開啟/關閉等功能,以及支持車外語音泊車。

案例2

聲紋識別擴大應用

代表車型:理想L7、合創A06/V09

代表功能:識別駕乘人員身份,提供針對性服務

理想L系列車型均支持聲紋識別功能。在乘客聲紋注冊后,“理想同學”可分辨乘客是誰,叫出不同乘客指定的昵稱,并結合聲紋記憶對不同乘客位置執行車控。

合創A06/V09的聲紋識別VOICE ID,能清楚識別有效用戶身份以及指令,并將成為HYCAN ID的入口,為用戶接入豐富智慧生態,使用100+款娛樂應用。另外基于聲紋識別技術,系統將主動屏蔽其他干擾聲音,提高主駕識別精準度。

9a96ea44-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:合創汽車

案例3

肌電交互實現車載商業化落地

代表車型:嵐圖追光

代表功能:車內外隔空微手勢控車

2023年4月,嵐圖追光與柔靈科技推出肌電交互融合方案。該方案主要通過肌電手環實現。手環內部安裝多通道肌電傳感器和高精度放大器,可以實時采集豐富的肌肉電信號并生成算法,傳導計算終端,從而生成個性化的AI手勢模型,之后再和嵐圖的車載平臺整合。使用者將手環與車內藍牙連接,即可實現以微手勢控制車輛,包括開關后備箱、升降車窗等60+種手勢動作。此外,手環還可以和車內游戲系統無縫連接。借助肌電手環的手勢識別,用戶可以更自然、直觀地操控游戲角色,如地鐵跑酷等。

9ae2b03c-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:柔靈科技

多模態融合,打造主動交互

目前車企已實現的多模態融合包括但不限于語音+唇動識別、語音+面部識別、語音+手勢識別、語音+頭姿、面部+情緒識別、面部+眼球追蹤、香氛+面部+語音識別等。其中語音多模態交互方式為當下主流,應用車型包括上文提到的長安啟源A07、極越01、理想L7、合創A06/V09等車型。

多模態融合代表功能(僅列舉部分)

9b005e84-8a8e-11ee-939d-92fbcf53809c.jpg

來源:佐思汽研《2023年中國汽車多模態交互發展研究報告》

案例1

語音+頭姿交互:魏牌藍山DHT PHEV將語音和頭姿進行結合,交互方式簡單直觀

當駕駛員進行語音對話時,藍山座艙利用車載攝像頭捕捉駕駛員的頭部動作,通過點頭/搖頭進行確定/否定答復。例如語音控制導航時,可通過點頭/搖頭選擇路線規劃方案。

案例2

面部+情緒識別:睿藍7、極狐考拉等車型在面部識別功能上融入情緒識別技術,提供主動交互,增強交互體驗

睿藍7的多模智識Face-ID系統支持唇動識別、情緒識別,能記憶關聯賬戶對應語音、座椅、后視鏡、氛圍燈、后備箱設置等車輛功能個性化信息,還可根據車主的“臉色”來選擇合適的音樂。

極狐考拉位于B柱的攝像頭正對后排,可實時監控孩子狀態。例如孩子在微笑時將自動抓拍傳送至中控屏;哭鬧時將自動播放安撫音樂/智能座椅表面呼吸律動,平復孩子情緒。另外,攝像頭還可與車內毫米波雷達聯動,判斷孩子是否睡著,睡著則自動打開睡眠模式,開啟座椅通風,空調溫度適當調整,音響、氛圍燈進行聯動,產生律動效果。

案例3

面部+嗅覺:蔚來EC7、睿藍7等車型實將駕駛員監控系統與香氛系統聯動,提升駕車安全性

蔚來EC7監測到駕駛員的疲勞狀態時,將自動釋放提神醒腦的香氛,以確保駕駛安全;

睿藍7位于A柱的攝像頭監控到駕駛員犯困時,將自動釋放提神香氛,并進行語音提醒。

大模型及多模態融合,將推進AI Agent上車

AI大模型正從單模態走向多模態、多任務融合的趨勢。相較于單模態只能處理一種類型的數據,例如文本、圖像、語音等,多模態則可以處理和理解多種類型的數據,包括視覺、聽覺、語言等,從而能夠更好地理解和生成復雜的信息。 隨著多模態大模型的持續發展,其能力也將得到顯著提升。這種提升賦予AI Agent(人工智能體)更強大的感知和環境理解能力,以實現更智能、自主的決策和行動。同時也為汽車領域的應用開拓了新的可能性,為未來的智能化發展提供了更廣闊的前景。

9b78ccac-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:紅杉資本

科大訊飛基于星火大模型開發的星火座艙OS,支持語音、手勢、人眼追蹤、DMS/OMS等多種交互模態,星火汽車助理通過深度上下文理解實現多意圖識別,提供更加自然的人機交互。訊飛星火大模型首搭車型星途星紀元ES,將帶來五大全新的體驗:車輛功能導師、冷暖共情伙伴、知識百科全書、旅行規劃專家、身體健康顧問。

9b9f1cc2-8a8e-11ee-939d-92fbcf53809c.png

來源:科大訊飛

將于2023年12月上市的AITO問界M9內置HarmonyOS 4車機系統。鴻蒙4中智慧助手小藝已經接入了盤古大模型。華為盤古大模型,包括自然語言大模型、視覺大模型、多模態大模型等。鴻蒙4+小藝+盤古大模型,設備協同、AI場景等生態能力將再度增強,借助多模態交互技術,提供多樣化的交互方式,包括語音識別、手勢控制、觸摸屏操作等。

9bbc981a-8a8e-11ee-939d-92fbcf53809c.png

圖片來源:華為

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音交互
    +關注

    關注

    3

    文章

    275

    瀏覽量

    27840
  • 聲紋識別
    +關注

    關注

    3

    文章

    137

    瀏覽量

    21369
  • 大模型
    +關注

    關注

    2

    文章

    1653

    瀏覽量

    1278

原文標題:汽車多模態交互研究:大模型及多模態融合,推進AI Agent上車

文章出處:【微信號:zuosiqiche,微信公眾號:佐思汽車研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenHarmony實戰開發-如何實現模態轉場

    模態轉場是新的界面覆蓋在舊的界面上,舊的界面不消失的一種轉場方式。 表1 模態轉場接口 接口 說明 使用場景 bindContentCover 彈出全屏的模態組件。 用于自定義全屏的模態
    發表于 04-28 14:47

    李未可科技正式推出WAKE-AI模態AI模型

    李未可科技多模態 AI模型正式發布,積極推進 AI 在終端的場景應用 ? 4月18日,2024中國生成式
    發表于 04-18 17:01 ?324次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b>多<b class='flag-5'>模態</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    AI機器人迎來多模態模型

    配備 GR00T 模型的機器人由于需要“吸收消化”外界的多模態信息,還要快速完成理解、決策、行動等一系列動作,因此對于算力的需求是巨量的。
    發表于 04-12 10:39 ?103次閱讀

    未來已來,傳感器融合感知是自動駕駛破局的關鍵

    模態精準感知信息,使自動駕駛系統可以實時精準地感知道路上的各種狀況。 昱感微融合感知產品方案創新性地 將可見光攝像頭、紅外攝像頭以及4D毫米波雷達的探測數據在前端(數據獲取時)交互,將各傳感器的探測
    發表于 04-11 10:26

    MWC2024:高通推出全新AI Hub及前沿多模態模型

    2024年世界移動通信大會(MWC)上,高通再次展現其技術領導力,通過發布全新的高通AI Hub和展示前沿的多模態模型技術,推動了5G和AI技術的
    的頭像 發表于 02-26 16:59 ?785次閱讀

    從Google多模態模型看后續大模型應該具備哪些能力

    前段時間Google推出Gemini多模態模型,展示了不凡的對話能力和多模態能力,其表現究竟如何呢?
    的頭像 發表于 12-28 11:19 ?528次閱讀
    從Google多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>看后續大<b class='flag-5'>模型</b>應該具備哪些能力

    語音識別技術最新進展:視聽融合的多模態交互成為主要演進方向

    多種模態(聲學、語言模型、視覺特征等)進行聯合建模,基于深度學習的多模態語音識別取得了新進展。 ? 多模態交互的原理及優勢 ? 多
    的頭像 發表于 12-28 09:06 ?1670次閱讀
    語音識別技術最新進展:視聽<b class='flag-5'>融合</b>的多<b class='flag-5'>模態</b><b class='flag-5'>交互</b>成為主要演進方向

    模型+多模態的3種實現方法

    我們知道,預訓練LLM已經取得了諸多驚人的成就, 然而其明顯的劣勢是不支持其他模態(包括圖像、語音、視頻模態)的輸入和輸出,那么如何在預訓練LLM的基礎上引入跨模態的信息,讓其變得更強大、更通用呢?本節將介紹“大
    的頭像 發表于 12-13 13:55 ?832次閱讀
    大<b class='flag-5'>模型</b>+多<b class='flag-5'>模態</b>的3種實現方法

    千億參數多模態模型,“紫東太初”規?;瘧眉铀?/a>

    電子發燒友網報道(文/李彎彎)過去近一年時間,國內外大模型技術越來越成熟,并逐步在不同場景中實現實現應用。在國內,作為早早布局多模態模型的科研機構,中國科學院自動化研究所自2019年
    的頭像 發表于 12-08 00:09 ?1430次閱讀

    探究編輯多模態大語言模型的可行性

    不同于單模態模型編輯,多模態模型編輯需要考慮更多的模態信息。文章出發點依然從單模態
    發表于 11-09 14:53 ?288次閱讀
    探究編輯多<b class='flag-5'>模態</b>大語言<b class='flag-5'>模型</b>的可行性

    耀世星輝發布多模態模型AI創作平臺悅靈犀

    模態模型AI創作平臺悅靈犀。悅靈犀是一款多模態模型的AGI創作平臺,依托悅享人工智能大模型"北
    的頭像 發表于 07-18 21:17 ?458次閱讀
    耀世星輝發布多<b class='flag-5'>模態</b><b class='flag-5'>模型</b><b class='flag-5'>AI</b>創作平臺悅靈犀

    更強更通用:智源「悟道3.0」Emu多模態模型開源,在多模態序列中「補全一切」

    當前學界和工業界都對多模態模型研究熱情高漲。去年,谷歌的 Deepmind 發布了多模態視覺語言模型 Flamingo ,它使用單一視覺語
    的頭像 發表于 07-16 20:45 ?421次閱讀
    更強更通用:智源「悟道3.0」Emu多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>開源,在多<b class='flag-5'>模態</b>序列中「補全一切」

    VisCPM:邁向多語言多模態模型時代

    隨著 GPT-4 和 Stable Diffusion 等模型模態能力的突飛猛進,多模態模型已經成為大模型邁向通用人工智能(AGI)目標
    的頭像 發表于 07-10 10:05 ?489次閱讀
    VisCPM:邁向多語言多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>時代

    單張消費級顯卡微調多模態模型

    把大模型的訓練門檻打下來!我們在單張消費級顯卡上實現了多模態模型(LaVIN-7B, LaVIN-13B)的適配和訓練
    的頭像 發表于 06-30 10:43 ?1493次閱讀
    單張消費級顯卡微調多<b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    用圖像對齊所有模態,Meta開源多感官AI基礎模型,實現大一統

    最近,很多方法學習與文本、音頻等對齊的圖像特征。這些方法使用單對模態或者最多幾種視覺模態。最終嵌入僅限于用于訓練的模態對。因此,視頻 - 音頻嵌入無法直接用于圖像 - 文本任務,反之亦然。學習真正的聯合嵌入面臨的一個主要障礙是缺
    的頭像 發表于 05-26 15:45 ?596次閱讀
    用圖像對齊所有<b class='flag-5'>模態</b>,Meta開源多感官<b class='flag-5'>AI</b>基礎<b class='flag-5'>模型</b>,實現大一統
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>