<acronym id="s8ci2"><small id="s8ci2"></small></acronym>
<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
<acronym id="s8ci2"></acronym>
<acronym id="s8ci2"><center id="s8ci2"></center></acronym>
0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度解析依圖行為識別的AI技術

454398 ? 來源:雷鋒網 ? 作者:雷鋒網 ? 2021-03-19 10:34 ? 次閱讀

江湖三十年鏖戰,AI 即出,多方勢力涌入讓這個世界重新異彩紛呈,也經歷了新一輪洗牌。

在這場戰役中留下姓名的企業,皆因技術、產品、服務等硬實力,成為了行業中的佼佼者。

在同樣起跑線,有些企業總是能獨占鰲頭,以不卑不亢的姿態,成為“別人家的孩子”。

AI 獨角獸依圖也是這樣一位“別人家的孩子”。

最近,在國際權威機構 ACM MM(ACM MM’20 Grand Challenge)主辦的“大規模復雜場景下人體視頻解析”挑戰賽(Large-scale Human-centric Video Analysis in Complex Events)的核心賽道——行為識別中,依圖科技再奪一冠。

ACM MM 被認為是多媒體技術領域奧運級別的頂級盛會,也是中國計算機學會(CCF)認證和多媒體研究領域評級中唯一的 A 類國際頂級會議。此次挑戰賽集結了國內外約 100 支參賽隊伍,包括亞馬遜、大華、騰訊、中山大學等知名企業和院校。

同時,此次競賽是該方向最接近真實場景的大規模挑戰賽,主要基于各類人群和復雜事件(如地震逃生、食堂用餐、下火車等)來分析人的行為,包括多人追蹤、姿態估計、姿態追蹤、行為識別等四大任務;目的在于考察算法在復雜場景下對人體的解析能力,鼓勵研究者在以人為中心的分析中解決非常具有挑戰性和現實的問題。

更為關鍵的一點是,與其他舉辦過多次的國際競賽不同,作為首屆競賽,參賽隊伍在賽前無法了解識別的類別、數據集的大小和識別的具體需求,也就是說,對即將面對的行為類別、數據模型、比賽需求一無所知,這意味著沒有經驗可借鑒,沒有路徑可學習。依圖是如何在短短兩個月的挑戰時間內,實現最優的算法性能,拿下世界第一?

挑戰不可能

顧名思義,大規模復雜場景挑戰賽必然需要大規模和復雜場景。大規模即豐富的場景、大額的數據量(一般情況下,100 萬以上的數據量在學術界會被稱為大規模)。

作為首屆比賽,HiEve 數據集標注超 100 萬個,內容以真實視頻場景為主,囊括了當前姿態數量最多的數據集。其中,有超 56000 個復雜事件下的人體行為,包括但不限于排隊、打架、俯身、同行、跑動等;平均軌跡長度超過 480,是軌跡數量最多的數據集之一。

結合到比賽的具體任務而言,行為識別,簡單場景指的是一個視頻里只分析一個行為的主體;復雜場景指的是視頻里有多個人,在密集、擁擠的場景下,分析的行為還需要包含人和人之間的互動。

1)數據量大,但有效數據少

比賽中,考察的行為種類非常多,且每種行為可以有多種表達方式,例如出拳、拉扯、扇巴掌等都屬于打架,而訓練集很難覆蓋所有可能的組合。

雖然數據總量達到 100 萬,但由于視頻數據幀之間的相似性很高,包含了大量冗余數據。這些數據對算法提升泛化性的作用有限。如果去除這些極為相似的連續幀冗余數據,整個訓練數據中的數據也只有幾萬個,僅僅覆蓋 20 個左右的視頻場景。這意味著有效的數據且測試分布一致的數據量并不多, 極大的增加了泛化難度。

換句話說,在訓練過程中,大量測試的場景,并沒有被算法系統直接學習過。這就需要算法具備強大的泛化性能,讓算法學會“舉一反三”

2)場景復雜

此外,場景的復雜性無法一言以概。例如,攝像頭的拍攝質量(清晰、抖動、模糊、扭曲)不一, 不同場景的布局不同 (例如:商場、走廊、馬路、大廳、餐廳、公園等), 場景光線受到室內、室外、晴天、陰天的影響也比較大;甚至還存在攝像頭俯拍、平拍、斜拍各個角度的差異、人體框的大小和遠近不同、乃至人之間(人與物之間)還會經常發生相互遮擋。

解決了算法的泛化能力問題,克服了場景的復雜性,還有其他待解難題。

3)行為差異大

要知道,實際中行為分析是非常復雜的。即使是同一類行為,在不同時刻、不同場景也具有很大差異性。比如不同的人在不同時刻行走,速度、姿態和場景遮擋都會不同?;蛘咄恍袨榫哂卸喾N不同的表現形式,比如單“打架”一個行為,可能包含踢人、扇耳光、拉扯等不同形式。

在多人場景甚至是密集場景下,除了要準確識別個人行為,還要標出人與人之間的互動,需要對每個人,在任何一個時間點上,給出此刻的行為判斷。

4)連續動作和長時間動作捕捉難

通俗的說,讀懂一個動作,需要長期、連續跟進,還需要結合上下文,才能做“閱讀理解”。這就需要同時具備時間和空間的感知能力,準確的捕捉到人在前幾秒每幀的動作, 并集合時間上動作發生的變化推測出行為。

以“揮拳”為例,整個過程經歷了開始的靠近階段、揮動拳腳的高潮階段以及結束階段。只有結合了人體每個時刻的姿態,才能更準確地判別出動作。

更重要的是,需要在短短兩個月的時間內解決以上問題并奪冠,做到世界第一,沒有極其深厚的技術積累、行業經驗以及快速解決問題的能力,難之又難。

算法“鑿山”, 算力“開路”,解鎖智能未來

當然,也有一些業界人士毫不諱言:相較于人臉領域這種算法流程已經相對確定、算法框架的技術水準也趨于穩定的成熟領域而言,行為識別,尤其是人的行為識別,還處于學術界的摸索階段,正因如此,很可能成為 AI 界的下一掘金地。

學術界的探索意味著沒有多少前人指路,依圖能在囊括如此復雜難題的行為識別賽道奪冠,并非偶然,除了對場景的深度理解、創新融合,還有硬實力的支撐。

學術界常用 frame mAP (f-mAP@avg)來作為行為識別的評價指標,f-mAP@avg 代表的含義是以關鍵幀為單位,評判行為的位置與分類是否準確;與學術界對行為識別的考察指標不同,此次競賽的評價標準是 wf-mAP@avg,這意味著更注重對難度較大的擁擠場景的考察,以及比較少見的動作的識別,同時對于人體框的定位的精確性要求也更高。

在短短兩個月的挑戰時間內,依圖算法的指標達到了 wf-mAP@avg0.26,將以往學術界中的基準算法提升了近 3 倍。

掘金不易,鑿山開路更不易。何況視頻相較于圖像的行為識別更加復雜,如何建模、視頻幀之間的相關性仍是學術界一直存在的難題。

依圖深諳這一點,優化算法來“鑿山”。

研發團隊透露,當應用場景明確后,在已知分析的對象是人體且明確知道要識別的類別后,就可以針對性的進行算法優化,通過算法定制化來提升算法性能,解決以往不能很好解決的問題。

此外,依圖還創新性地將算法與場景進行了深度結合——一方面創新性的從視頻中自動提取到豐富準確的場景信息,結合先進的行人檢測、行人重識別算法,全面構建了人與人、人與場景、人與物之間在視頻中的關系;另一方面,借助長期在智能城市場景下的算法積淀和對行業場景的理解,從需求出發,對比賽中要求的特定的 14 類任務進行了深度算法優化。

與其他隊伍追求復雜的多模態融合策略不同,依圖在此次競賽中竟然是用單模型奪冠。也就是說,他們借助背景提取和分割算法,將行為的解析與場景結合,大大降低了問題難度。

敢在比賽中用單模型與其他多模型融合策略 PK,不外乎自信中帶著點跟自己較真的狠勁,又一次展現了在有限的時間內依圖算法可以做到極致。

算法“鑿山”的依圖,在開拓 AI 新領域的版圖上一直策馬長驅,離不開算力的“開路”。

此前,依圖科技自主研發的全球首款云端視覺智能芯片求索(questcore?),可以提供強大算力,單路攝像頭功耗不到 1W,開啟了算法設計與芯片設計相結合的時代。

集合了高性能 AI 算法和芯片耦合設計優化的芯片平臺,結合世界領先的行為識別算法的依圖,將更有利于賦能智能城市、安全生產、智能商業等領域,打造新一代 AI 基礎設施。

細觀依圖半年來的動態,在疫情爆發初期快速研發出業界首個新冠肺炎輔助診斷系統并投入全國的醫院,同時,頻頻刷新頂級賽事的世界紀錄,分別在貴陽和福州落地千萬量級規模的城市級人工智能應用、通過全球權威隱私認證管理國際認證,發布語音超級本、入選工信部知識圖譜案例集……技術愈加成熟、落地經驗愈加豐富。

這些會給未來帶來什么?借用依圖科技創始人朱瓏近期在《人民日報》署名文章中所說:未來 10 年,低階感知智能將向高階決策智能躍遷;人工智能將向具有高度不確定性、多任務融合、復雜推理等特點的高階智能突破,有望實現看、聽、理解、規劃和控制等能力的重大躍升。

編輯:hfy

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4468

    瀏覽量

    91032
  • AI
    AI
    +關注

    關注

    87

    文章

    26909

    瀏覽量

    264695
  • 依圖科技
    +關注

    關注

    0

    文章

    43

    瀏覽量

    9707
收藏 人收藏

    評論

    相關推薦

    人臉識別之智能行為檢測技術

    運用非常多。在家居、小區、教育、門店、交通、公安等許多地方都可以涉及到。我今天主要給大家講的就是人臉識別的智能行為檢測技術。行為就是比如你走路、腳步邁開就是一個
    發表于 07-07 13:30

    一文讀懂語言識別技術原理1

    ` 本帖最后由 訊飛開放平臺 于 2018-7-2 08:55 編輯 語音識別是十年來發展最快的技術之一,隨著AI的不斷發展,深度學習讓語音識別
    發表于 06-28 11:27

    1小時玩轉AI語音識別

    `報名鏈接:http://t.elecfans.com/live/563.html直播主題及亮點本次直播講解AI語音識別核心技術知識以及語音識別系統架構,現場實操寫代碼實現語音采集、語
    發表于 09-19 13:40

    直播福利:1小時玩轉AI語音識別

    `報名鏈接:http://t.elecfans.com/live/563.html直播主題及亮點本次直播講解AI語音識別核心技術知識以及語音識別系統架構,現場實操寫代碼實現語音采集、語
    發表于 09-19 13:46

    【免費直播】AI芯片專家陳小柏博士,帶你解析AI算法及其芯片操作系統。

    。并且跟大家從多個視角暢聊展望人工智能芯片的未來發展趨勢。適合各類對AI芯片感興趣的學員們,歡迎大家屆時來聽。直播主題:【第2期】AI芯片技術解析-
    發表于 11-07 14:03

    一種對通信信息詐騙行為進行識別和對深度受害人進行防控雙重防護的方法

    研判和處置?! ? 系統技術架構  整體系統技術架構如圖1所示。系統主要包含詐騙電話識別、受害程度判定規則及易感人群識別等三大模塊。利用信令數據中異常主叫
    發表于 12-03 14:14

    【CC3200AI實驗教程11】瘋殼·AI語音人臉識別-AI語音系統架構

    CC3200AI實驗教程——瘋殼·開發板系列AI語音系統架構AI語音識別系統的系統架構如圖1.0.1所示。1.0.1
    發表于 08-30 14:54

    基于深度圖形與骨骼數據的多特征行為識別方法

    處理。隨著圖像技術與硬件的發展,利用微軟Kinect或華碩Xtion等設備,學者可以實時獲取人體的深度圖像信息。與傳統的圖像相比,深度圖像不受光照影響,能夠提供三維空間信息。利用深度
    發表于 12-09 11:47 ?0次下載
    基于<b class='flag-5'>深度</b>圖形與骨骼數據的多特征<b class='flag-5'>行為</b><b class='flag-5'>識別</b>方法

    技術 | 基于深度學習圖像識別的變電站監控系統

    基于計算機網絡技術以及無線通信技術和視頻監控技術,研究深度學習圖像識別的變電站基建安全行為監控系
    的頭像 發表于 07-22 08:29 ?5112次閱讀

    語音識別的技術歷程

    深度學習技術自 2009 年興起之后,已經取得了長足進步。語音識別的精度和速度取決于實際應用環境,但在安靜環境、標準口音、常見詞匯場景下的語音識別率已經超過 95%,意味著具備了與人類
    的頭像 發表于 08-22 14:21 ?4222次閱讀

    AI行為識別分析技術在智慧養老行業的應用

    AI行為識別分析技術,是一款基于AI神經網絡的深度學習算法,通過實時分析視頻流,從視頻流中勾勒出
    發表于 05-13 15:53 ?1w次閱讀

    基于深度學習的行為識別算法及其應用

    基于深度學習的行為識別算法及其應用
    發表于 06-16 14:56 ?20次下載

    深度解析多模態數據行為識別技術的研究發展

    行為識別在一些數據集上的識別率已經很高,在日常生活中也有一些應用。但是行為識別仍然存在許多挑戰。
    發表于 12-19 17:43 ?1666次閱讀

    用科技改變生活:帕克西手勢識別技術解析

    帕克西手勢識別是通過普通PC/手機攝像頭,快速檢測并返回圖片或視頻中的手勢/動作,深度解析用戶的行為信息,提供基于普通攝像頭的全新手勢交互無限可能。
    的頭像 發表于 11-27 15:05 ?309次閱讀

    AI視覺識別有哪些工業應用

    AI視覺識別涵蓋多種應用,如人臉識別、目標檢測和識別、圖像分割、行為識別、視頻分析等。本篇就簡單
    的頭像 發表于 11-27 18:05 ?655次閱讀
    <b class='flag-5'>AI</b>視覺<b class='flag-5'>識別</b>有哪些工業應用
    亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看
    <acronym id="s8ci2"><small id="s8ci2"></small></acronym>
    <rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>
    <acronym id="s8ci2"></acronym>
    <acronym id="s8ci2"><center id="s8ci2"></center></acronym>