新技術(shù)讓人工智能利用二維攝像機(jī)繪制三維空間地圖研究人員開發(fā)出一種技術(shù),能讓人工智能(AI)程序利用多臺攝像機(jī)拍攝的二維圖像更好地繪制三維空間地圖。由于該技術(shù)能有效利用有限的計(jì)算資源,因此有望改善自動駕駛汽車的導(dǎo)航能力。 相關(guān)論文的通訊作者、北卡羅來納州立大學(xué)電氣與計(jì)算機(jī)工程系副教授Tianfu Wu說:“大多數(shù)自動駕駛汽車都使用名為視覺轉(zhuǎn)換器的強(qiáng)大人工智能程序來獲取多個(gè)攝像頭拍攝的二維圖像,并創(chuàng)建車輛周圍三維空間的表示,然而,雖然這些人工智能程序各自采用了不同的方法,但仍有很大的改進(jìn)空間! Tianfu Wu說:“我們的技術(shù)被稱為多視圖注意語境化(MvACon),是一種即插即用的補(bǔ)充技術(shù),可以與這些現(xiàn)有的視覺轉(zhuǎn)換器人工智能結(jié)合使用,提高它們繪制三維空間地圖的能力。"視覺轉(zhuǎn)換器并沒有從攝像頭獲得任何額外的數(shù)據(jù),它們只是能夠更好地利用這些數(shù)據(jù)! MvACon 通過修改一種名為 "Patch-to-Cluster attention"(PaCa)的方法來有效工作,吳和他的合作者去年發(fā)布了這種方法。PaCa 允許變換器人工智能更高效、更有效地識別圖像中的物體。 Wu說:“這里的關(guān)鍵進(jìn)展是將我們在 PaCa 上展示的技術(shù)應(yīng)用到使用多臺相機(jī)繪制三維空間的挑戰(zhàn)中! 為了測試 MvACon 的性能,研究人員將其與三種領(lǐng)先的視覺轉(zhuǎn)換器--BEVFormer、BEVFormer DFA3D 變體和 PETR 結(jié)合使用。在每種情況下,視覺轉(zhuǎn)換器都從六個(gè)不同的攝像頭收集二維圖像。在所有三種情況下,MvACon 都顯著提高了每個(gè)視覺轉(zhuǎn)換器的性能。 Wu說:“在定位物體以及這些物體的速度和方向方面,性能尤其得到了提高。"將 MvACon 添加到視覺轉(zhuǎn)換器中對計(jì)算需求的增加幾乎可以忽略不計(jì)。我們下一步的工作包括根據(jù)其他基準(zhǔn)數(shù)據(jù)集測試 MvACon,以及根據(jù)自動駕駛車輛的實(shí)際視頻輸入進(jìn)行測試。如果 MvACon 的性能繼續(xù)優(yōu)于現(xiàn)有的視覺轉(zhuǎn)換器,我們樂觀地認(rèn)為它將被廣泛采用。” 這篇題為 "Multi-View Attentive Contextualization for Multi-View 3D Object Detection "的論文將于 6 月 20 日在華盛頓州西雅圖舉行的 IEEE/CVF 計(jì)算機(jī)視覺與模式識別會議上發(fā)表。 |