<acronym id="s8ci2"><small id="s8ci2"></small></acronym>

<rt id="s8ci2"></rt><rt id="s8ci2"><optgroup id="s8ci2"></optgroup></rt>

<acronym id="s8ci2"></acronym>

<acronym id="s8ci2"><center id="s8ci2"></center></acronym>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

深度解析依圖行為識別的AI技術

江湖三十年鏖戰，AI 即出，多方勢力涌入讓這個世界重新異彩紛呈，也經歷了新一輪洗牌。

在這場戰役中留下姓名的企業，皆因技術、產品、服務等硬實力，成為了行業中的佼佼者。

在同樣起跑線，有些企業總是能獨占鰲頭，以不卑不亢的姿態，成為“別人家的孩子”。

AI 獨角獸依圖也是這樣一位“別人家的孩子”。

最近，在國際權威機構 ACM MM（ACM MM’20 Grand Challenge）主辦的“大規模復雜場景下人體視頻解析”挑戰賽（Large-scale Human-centric Video Analysis in Complex Events）的核心賽道——行為識別中，依圖科技再奪一冠。

ACM MM 被認為是多媒體技術領域奧運級別的頂級盛會，也是中國計算機學會（CCF）認證和多媒體研究領域評級中唯一的 A 類國際頂級會議。此次挑戰賽集結了國內外約 100 支參賽隊伍，包括亞馬遜、大華、騰訊、中山大學等知名企業和院校。

同時，此次競賽是該方向最接近真實場景的大規模挑戰賽，主要基于各類人群和復雜事件（如地震逃生、食堂用餐、下火車等）來分析人的行為，包括多人追蹤、姿態估計、姿態追蹤、行為識別等四大任務；目的在于考察算法在復雜場景下對人體的解析能力,鼓勵研究者在以人為中心的分析中解決非常具有挑戰性和現實的問題。

更為關鍵的一點是，與其他舉辦過多次的國際競賽不同，作為首屆競賽，參賽隊伍在賽前無法了解識別的類別、數據集的大小和識別的具體需求，也就是說,對即將面對的行為類別、數據模型、比賽需求一無所知，這意味著沒有經驗可借鑒，沒有路徑可學習。依圖是如何在短短兩個月的挑戰時間內，實現最優的算法性能，拿下世界第一？

挑戰不可能

顧名思義，大規模復雜場景挑戰賽必然需要大規模和復雜場景。大規模即豐富的場景、大額的數據量（一般情況下，100 萬以上的數據量在學術界會被稱為大規模）。

作為首屆比賽，HiEve 數據集標注超 100 萬個，內容以真實視頻場景為主，囊括了當前姿態數量最多的數據集。其中,有超 56000 個復雜事件下的人體行為，包括但不限于排隊、打架、俯身、同行、跑動等；平均軌跡長度超過 480，是軌跡數量最多的數據集之一。

結合到比賽的具體任務而言，行為識別，簡單場景指的是一個視頻里只分析一個行為的主體；復雜場景指的是視頻里有多個人，在密集、擁擠的場景下，分析的行為還需要包含人和人之間的互動。

1）數據量大，但有效數據少

比賽中，考察的行為種類非常多，且每種行為可以有多種表達方式，例如出拳、拉扯、扇巴掌等都屬于打架，而訓練集很難覆蓋所有可能的組合。

雖然數據總量達到 100 萬，但由于視頻數據幀之間的相似性很高,包含了大量冗余數據。這些數據對算法提升泛化性的作用有限。如果去除這些極為相似的連續幀冗余數據，整個訓練數據中的數據也只有幾萬個，僅僅覆蓋 20 個左右的視頻場景。這意味著有效的數據且測試分布一致的數據量并不多, 極大的增加了泛化難度。

換句話說，在訓練過程中，大量測試的場景，并沒有被算法系統直接學習過。這就需要算法具備強大的泛化性能，讓算法學會“舉一反三”

2）場景復雜

此外，場景的復雜性無法一言以概。例如，攝像頭的拍攝質量(清晰、抖動、模糊、扭曲)不一, 不同場景的布局不同 (例如：商場、走廊、馬路、大廳、餐廳、公園等), 場景光線受到室內、室外、晴天、陰天的影響也比較大；甚至還存在攝像頭俯拍、平拍、斜拍各個角度的差異、人體框的大小和遠近不同、乃至人之間(人與物之間)還會經常發生相互遮擋。

解決了算法的泛化能力問題，克服了場景的復雜性，還有其他待解難題。

3）行為差異大

要知道，實際中行為分析是非常復雜的。即使是同一類行為，在不同時刻、不同場景也具有很大差異性。比如不同的人在不同時刻行走，速度、姿態和場景遮擋都會不同?；蛘咄恍袨榫哂卸喾N不同的表現形式，比如單“打架”一個行為，可能包含踢人、扇耳光、拉扯等不同形式。

在多人場景甚至是密集場景下，除了要準確識別個人行為，還要標出人與人之間的互動，需要對每個人，在任何一個時間點上，給出此刻的行為判斷。

4）連續動作和長時間動作捕捉難

通俗的說，讀懂一個動作，需要長期、連續跟進，還需要結合上下文，才能做“閱讀理解”。這就需要同時具備時間和空間的感知能力，準確的捕捉到人在前幾秒每幀的動作, 并集合時間上動作發生的變化推測出行為。

以“揮拳”為例，整個過程經歷了開始的靠近階段、揮動拳腳的高潮階段以及結束階段。只有結合了人體每個時刻的姿態，才能更準確地判別出動作。

更重要的是，需要在短短兩個月的時間內解決以上問題并奪冠，做到世界第一，沒有極其深厚的技術積累、行業經驗以及快速解決問題的能力，難之又難。

算法“鑿山”，算力“開路”，解鎖智能未來

當然，也有一些業界人士毫不諱言：相較于人臉領域這種算法流程已經相對確定、算法框架的技術水準也趨于穩定的成熟領域而言，行為識別，尤其是人的行為識別，還處于學術界的摸索階段，正因如此，很可能成為 AI 界的下一掘金地。

學術界的探索意味著沒有多少前人指路，依圖能在囊括如此復雜難題的行為識別賽道奪冠，并非偶然，除了對場景的深度理解、創新融合，還有硬實力的支撐。

學術界常用 frame mAP (f-mAP@avg)來作為行為識別的評價指標，f-mAP@avg 代表的含義是以關鍵幀為單位，評判行為的位置與分類是否準確；與學術界對行為識別的考察指標不同，此次競賽的評價標準是 wf-mAP@avg，這意味著更注重對難度較大的擁擠場景的考察，以及比較少見的動作的識別，同時對于人體框的定位的精確性要求也更高。

在短短兩個月的挑戰時間內，依圖算法的指標達到了 wf-mAP@avg0.26，將以往學術界中的基準算法提升了近 3 倍。

掘金不易，鑿山開路更不易。何況視頻相較于圖像的行為識別更加復雜，如何建模、視頻幀之間的相關性仍是學術界一直存在的難題。

依圖深諳這一點，優化算法來“鑿山”。

研發團隊透露，當應用場景明確后，在已知分析的對象是人體且明確知道要識別的類別后，就可以針對性的進行算法優化，通過算法定制化來提升算法性能，解決以往不能很好解決的問題。

此外，依圖還創新性地將算法與場景進行了深度結合——一方面創新性的從視頻中自動提取到豐富準確的場景信息，結合先進的行人檢測、行人重識別算法，全面構建了人與人、人與場景、人與物之間在視頻中的關系；另一方面，借助長期在智能城市場景下的算法積淀和對行業場景的理解，從需求出發，對比賽中要求的特定的 14 類任務進行了深度算法優化。

與其他隊伍追求復雜的多模態融合策略不同，依圖在此次競賽中竟然是用單模型奪冠。也就是說，他們借助背景提取和分割算法，將行為的解析與場景結合，大大降低了問題難度。

敢在比賽中用單模型與其他多模型融合策略 PK，不外乎自信中帶著點跟自己較真的狠勁，又一次展現了在有限的時間內依圖算法可以做到極致。

算法“鑿山”的依圖，在開拓 AI 新領域的版圖上一直策馬長驅，離不開算力的“開路”。

此前，依圖科技自主研發的全球首款云端視覺智能芯片求索（questcore?），可以提供強大算力，單路攝像頭功耗不到 1W，開啟了算法設計與芯片設計相結合的時代。

集合了高性能 AI 算法和芯片耦合設計優化的芯片平臺，結合世界領先的行為識別算法的依圖，將更有利于賦能智能城市、安全生產、智能商業等領域，打造新一代 AI 基礎設施。

細觀依圖半年來的動態，在疫情爆發初期快速研發出業界首個新冠肺炎輔助診斷系統并投入全國的醫院，同時，頻頻刷新頂級賽事的世界紀錄，分別在貴陽和福州落地千萬量級規模的城市級人工智能應用、通過全球權威隱私認證管理國際認證，發布語音超級本、入選工信部知識圖譜案例集……技術愈加成熟、落地經驗愈加豐富。

這些會給未來帶來什么？借用依圖科技創始人朱瓏近期在《人民日報》署名文章中所說：未來 10 年，低階感知智能將向高階決策智能躍遷；人工智能將向具有高度不確定性、多任務融合、復雜推理等特點的高階智能突破，有望實現看、聽、理解、規劃和控制等能力的重大躍升。

編輯：hfy

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4468

瀏覽量
91032
AI

AI

+關注

關注
87

文章
26909

瀏覽量
264695
依圖科技

依圖科技

+關注

關注
0

文章
43

瀏覽量
9707

評論

相關推薦

人臉識別之智能行為檢測技術

運用非常多。在家居、小區、教育、門店、交通、公安等許多地方都可以涉及到。我今天主要給大家講的就是人臉識別的智能行為檢測技術。行為就是比如你走路、腳步邁開就是一個

發表于 07-07 13:30

一文讀懂語言識別技術原理1

` 本帖最后由訊飛開放平臺于 2018-7-2 08:55 編輯語音識別是十年來發展最快的技術之一，隨著AI的不斷發展，深度學習讓語音識別

發表于 06-28 11:27

1小時玩轉AI語音識別

`報名鏈接：http://t.elecfans.com/live/563.html直播主題及亮點本次直播講解AI語音識別核心技術知識以及語音識別系統架構，現場實操寫代碼實現語音采集、語

發表于 09-19 13:40

直播福利：1小時玩轉AI語音識別

`報名鏈接：http://t.elecfans.com/live/563.html直播主題及亮點本次直播講解AI語音識別核心技術知識以及語音識別系統架構，現場實操寫代碼實現語音采集、語

發表于 09-19 13:46

【免費直播】AI芯片專家陳小柏博士，帶你解析AI算法及其芯片操作系統。

。并且跟大家從多個視角暢聊展望人工智能芯片的未來發展趨勢。適合各類對AI芯片感興趣的學員們，歡迎大家屆時來聽。直播主題：【第2期】AI芯片技術解析-

發表于 11-07 14:03

一種對通信信息詐騙行為進行識別和對深度受害人進行防控雙重防護的方法

研判和處置?！　? 系統技術架構　　整體系統技術架構如圖1所示。系統主要包含詐騙電話識別、受害程度判定規則及易感人群識別等三大模塊。利用信令數據中異常主叫

發表于 12-03 14:14

【CC3200AI實驗教程11】瘋殼·AI語音人臉識別-AI語音系統架構

CC3200AI實驗教程——瘋殼·開發板系列AI語音系統架構AI語音識別系統的系統架構如圖1.0.1所示。圖1.0.1

發表于 08-30 14:54

基于深度圖形與骨骼數據的多特征行為識別方法

處理。隨著圖像技術與硬件的發展，利用微軟Kinect或華碩Xtion等設備，學者可以實時獲取人體的深度圖像信息。與傳統的圖像相比，深度圖像不受光照影響，能夠提供三維空間信息。利用深度圖

發表于 12-09 11:47 ?0次下載

技術 | 基于深度學習圖像識別的變電站監控系統

基于計算機網絡技術以及無線通信技術和視頻監控技術，研究深度學習圖像識別的變電站基建安全行為監控系

發表于 07-22 08:29 ?5112次閱讀

語音識別的技術歷程

深度學習技術自 2009 年興起之后，已經取得了長足進步。語音識別的精度和速度取決于實際應用環境，但在安靜環境、標準口音、常見詞匯場景下的語音識別率已經超過 95%，意味著具備了與人類

發表于 08-22 14:21 ?4222次閱讀

AI行為識別分析技術在智慧養老行業的應用

AI行為識別分析技術，是一款基于AI神經網絡的深度學習算法，通過實時分析視頻流，從視頻流中勾勒出

發表于 05-13 15:53 ?1w次閱讀

基于深度學習的行為識別算法及其應用

基于深度學習的行為識別算法及其應用

發表于 06-16 14:56 ?20次下載

深度解析多模態數據行為識別技術的研究發展

行為識別在一些數據集上的識別率已經很高，在日常生活中也有一些應用。但是行為識別仍然存在許多挑戰。

發表于 12-19 17:43 ?1666次閱讀

用科技改變生活：帕克西手勢識別技術解析

帕克西手勢識別是通過普通PC/手機攝像頭，快速檢測并返回圖片或視頻中的手勢/動作，深度解析用戶的行為信息，提供基于普通攝像頭的全新手勢交互無限可能。

發表于 11-27 15:05 ?309次閱讀

AI視覺識別有哪些工業應用

AI視覺識別涵蓋多種應用，如人臉識別、目標檢測和識別、圖像分割、行為識別、視頻分析等。本篇就簡單

發表于 11-27 18:05 ?655次閱讀

精選推薦
更多

文章

資料

帖子

ELF 1技術貼|如何在Ubuntu中編譯OpenCV庫

ElfBoard
1天前

472 閱讀

【項目展示】基于CW32的遙控循跡小車

CW32生態社區
1天前

406 閱讀

精進嵌入式開源開發技能，RT-Thread?SMP培訓即將來襲！

RT-Thread官方賬號
2天前

122 閱讀

手把手教你如何在Purple Pi OH上開發板安裝Opencv

觸覺智能
2天前

220 閱讀

鴻蒙開發接口媒體：【@ohos.multimedia.image (圖片處理)】

jf_46214456
1天前

516 閱讀

隨身聽收音機電路及制作

jsqueh
610

免費

30下載

電子工程師必備基礎知識手冊（七）常用元器件的識別

kasdlak
326

免費

2239下載

Buster Firefox驗證碼助手

劉娟
0.27 MB

免費

1下載

jam-systems Clubhouse開源替代品

陳游斗
1.03 MB

免費

0下載

Limus基于Typescript的圖片處理工具

申根換
11.14 MB

免費

3下載

有關PL端利用AXI總線控制PS端DDR進行讀寫（從機wready信號一直不拉高）

jf_86841278
2天前

666 閱讀

LDO電源模塊如何快速設計布局

鄒夢雨
2天前

502 閱讀

全志H616（BIGTREETECH CB1）和博通BCM2711（樹莓派4B）CPU對比測試

corkia
2天前

475 閱讀

請教一個三極管推Pmos管的電路問題

雪舞風華
2天前

860 閱讀

用全志XR806開發板輕松連上華為云實現物聯網

corkia
2天前

469 閱讀

推薦專欄
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：wangwanzhu@elecfans.com

內容合作

黃晶晶：huangjingjing@elecfans.com

內容合作（海外）

張迎輝：mikezhang@elecfans.com

供應鏈服務 PCB/IC/PCBA

江良華：lanhu@huaqiu.com

投資合作

曾海銀：zenghaiyin@huaqiu.com

社區合作

劉勇：liuyong@huaqiu.com

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司
電子發燒友 （電路圖） 湘公網安備43011202000918 電信與信息服務業務經營許可證：合字B2-20210191 工商網監湘ICP備 2023018690 號

亚洲欧美日韩精品久久_久久精品AⅤ无码中文_日本中文字幕有码在线播放_亚洲视频高清不卡在线观看