為了進一步評估研究方法在下游任務上(即分割、檢測和實例分割)的效率,本文將骨干網與常用的特征金字塔網....
CVer 發表于 01-31 14:14
?1636次閱讀
因此,本文研究者的目標是實現快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D....
CVer 發表于 01-30 16:20
?461次閱讀
我們主要探索了3D視覺中scale up模型參數量和統一模型架構的可能性。在NLP / 2D vis....
CVer 發表于 01-30 15:56
?403次閱讀
如上圖所示,不再采用嚴格的一對一匹配,而是促使模型專注于一對多匹配,即從細粒度過渡到粗粒度。因此,首....
CVer 發表于 01-25 16:53
?309次閱讀
為了解決這些挑戰,我們提出了第一個大規模醫學分割領域的公平性數據集, Harvard-FairSeg....
CVer 發表于 01-25 16:52
?278次閱讀
另一個極端是,監督學習方法(即SupCE)會將所有這些圖像視為單一類(如「金毛獵犬」)。這就忽略了這....
CVer 發表于 01-15 15:40
?289次閱讀
Density-based方法:基于密度的方法通常采用預訓練的模型來提取輸入圖像的有意義嵌入向量,測....
CVer 發表于 01-11 16:02
?337次閱讀
之前,將圖像轉換為3D的方法通常采用Score Distillation Sampling (SDS....
CVer 發表于 01-08 16:13
?274次閱讀
現有的基于計算機視覺的工業異常檢測技術包括基于特征的、基于重構的和基于合成的技術。最近,擴散模型因其....
CVer 發表于 01-08 14:55
?526次閱讀
盡管3D和視頻生成取得了飛速的發展,由于缺少高質量的4D數據集,4D生成始終面臨著巨大的挑戰。
CVer 發表于 01-04 15:57
?392次閱讀
LGT Adapter由局部關系Transformer和全局關系圖卷積串聯組成??紤]到常規的Tran....
CVer 發表于 01-02 15:20
?369次閱讀
一類常見的 Refinement 方法是 Model-Specific 的,其通過在已有分割模型中引....
CVer 發表于 12-28 11:24
?683次閱讀
最經典的原始NeRF為例,局部隱蔽場通過NeRF的MLP網絡產生,與原始NeRF的兩個輸出color....
CVer 發表于 12-21 16:43
?448次閱讀
委員會說:「一些樣品在 100 攝氏度時的電阻率發生了急劇變化,然而,我們認為相變是由(樣品中的)雜....
CVer 發表于 12-19 11:38
?570次閱讀
然而CLIP必須以整張圖片作為輸入并進行特征提取,無法關注到指定的任意區域。然而,自然的2D圖片中往....
CVer 發表于 12-10 10:28
?558次閱讀
它有望超越條件圖像生成,并推動諸如分子設計或藥物發現這種不需要人類給注釋的應用往前發展(這也是為什么....
CVer 發表于 12-10 10:24
?588次閱讀
在損失函數上,研究者從自然語言社區汲取靈感,即掩碼 token 建模已經「讓位給了」序列自回歸預測方....
CVer 發表于 12-05 15:34
?588次閱讀
一是缺乏泛化能力。為了實現更好的超分效果,通常需要針對特定場景使用特定傳感器采集到的數據來進行模型訓....
CVer 發表于 12-04 16:22
?420次閱讀
下圖展示了Monkey的卓越性能,在 18 個不同的數據集上進行測試的結果表明,Monkey能夠很好....
CVer 發表于 12-04 15:33
?911次閱讀
在時空超分中,除了 I0.5{HR}, 我們還要得到 I0{HR}, I1{HR},如果把它們看成三....
CVer 發表于 11-29 16:31
?367次閱讀
相比于常規的三通道 RGB 圖像,高光譜圖像包含幾十上百個波段,從而捕獲了關于成像場景更豐富的信息。....
CVer 發表于 11-29 15:43
?269次閱讀
場景文本識別(Scene Text Recognition)的目標是將圖像中的文本內容提取出來。實際....
CVer 發表于 11-27 16:28
?583次閱讀
一個直接的解決方案是設計一個特定的訓練方案,可以在不可利用的數據上進行訓練。這是不太理想的,因為它只....
CVer 發表于 11-25 14:46
?325次閱讀
在深度學習領域,網絡上充斥著大量可自由訪問的數據,其中包括像ImageNet和MS-Celeb-1M....
CVer 發表于 11-25 14:45
?328次閱讀
最近,大型多模態(即視覺和語言)模型(LMM)在圖像描述、視覺理解、視覺推理等多種視覺任務上表現出了....
CVer 發表于 11-21 16:08
?819次閱讀
擴散模型和 GAN 的混合模型最早是英偉達的研究團隊在 ICLR 2022 上提出的 DDGAN(《....
CVer 發表于 11-21 16:02
?384次閱讀
神經輻射場作為近期一個廣受關注的隱式表征方法,能合成照片級真實的多視角圖像。但因為其隱式建模的性質,....
CVer 發表于 11-20 16:56
?313次閱讀
在機器視覺和機器人領域的許多前沿應用中,學習準確且高效的三維形狀表達是十分重要的。然而,現有的基于三....
CVer 發表于 11-17 16:23
?460次閱讀
本周四,一些媒體首次報道了英偉達特供芯片的消息。報道稱,這三款新產品是在 H100 GPU 的基礎版....
CVer 發表于 11-13 16:44
?524次閱讀
不同領域的數據集包含各種數據類型和類別,如圖像、視頻、點云、時間序列等。每種數據類型可能需要不同的異....
CVer 發表于 11-13 16:25
?488次閱讀