懂3D的語言模型來了!UCLA、上交、MIT等聯(lián)合提出3D-LLM:性能大漲9%
就在最近,有研究人員提出了全新的3D-LLM任務(wù),即將3D世界的知識注入到大型語言模型中,進而執(zhí)行相關(guān)任務(wù)。具體如何理解這個“懂3D”的大語言模型?研究人員又是如何訓練3D-LLM的?一起來看看本文的解讀。
大型語言模型(LLM)和視覺語言模型(VLM)在各種評測基準中都展現(xiàn)出了強大的性能,比如可以看圖說話、進行常識推理。
但這些模型的訓練過程并沒有引入3D物理世界,也就無法理解更豐富的現(xiàn)實概念,包括空間關(guān)系、布局、物體反饋等。
最近,加州大學洛杉磯分校、上海交大、華南理工大學、麻省理工學院等機構(gòu)的研究人員聯(lián)合提出了一個全新的3D-LLM任務(wù),把3D世界的知識注入到大型語言模型中,以3D點云及其特征作為輸入,從而可以執(zhí)行各種3D相關(guān)的任務(wù),包括描述生成、3D問題回答、任務(wù)分解、3D輔助對話、導航等。
論文鏈接:https://arxiv.org/pdf/2307.12981.pdf
基于這個思路,研究人員設(shè)計了三種類型的提示機制,收集了超過30萬的3D語言數(shù)據(jù)來支持上述任務(wù)。
為了有效地訓練3D-LLM,首先使用從渲染的多視圖圖像獲得3D特征的3D特征提取器,再用2D VLMs作為模型的骨干來訓練3D-LLM網(wǎng)絡(luò);通過引入3D定位機制,3D-LLM可以更好地捕獲3D空間信息。
在ScanQA上的實驗結(jié)果表明,該模型顯著優(yōu)于最先進的基線模型,例如,BLEU-1指標上的性能提升達到9%。
此外,在3D描述生成、3D輔助對話等數(shù)據(jù)集上的實驗表明,該模型優(yōu)于2D VLMs。
定性結(jié)果也表明,該模型可以執(zhí)行超出現(xiàn)有的LLM和VLM能力范圍的一些任務(wù)。
三維語言數(shù)據(jù)生成:
從互聯(lián)網(wǎng)上可以輕松獲取海量的二維圖像和相應文本的數(shù)據(jù)對,不過三維多模態(tài)數(shù)據(jù)的獲取卻非常困難,網(wǎng)絡(luò)上的三維資產(chǎn)非常稀缺,而且提供文本標注也更有挑戰(zhàn)。
現(xiàn)有的三維語言數(shù)據(jù),如ScanQA、ScanRefer等在數(shù)量和多樣性方面都很有限,而且每個數(shù)據(jù)集都僅限于一項任務(wù),如何自動生成一個可用于各種三維相關(guān)任務(wù)的三維語言數(shù)據(jù)集非常值得深入研究。
受GPT等大型語言模型的啟發(fā),研究人員提出利用此類模型來收集3D語言數(shù)據(jù)。
具體來說,主要有三種方法來提示純文本GPT模型來生成數(shù)據(jù):
1. 基于boxes-demonstration-instruction的提示。
輸入三維場景中房間和物體的軸對齊包圍框(AABB),提供場景的語義和空間位置信息,然后向GPT模型提供具體指令,以生成多樣化的數(shù)據(jù)。
研究人員給GPT模型提供0-3個少樣本演示示例,用來指示生成的數(shù)據(jù)類型。
2. 基于ChatCaptioner的提示。
使用ChatGPT輸入提示詢問一系列關(guān)于圖像的有信息量的問題(informative questions),然后用BLIP-2模型回答這些問題。
為了收集三維相關(guān)數(shù)據(jù),研究人員將不同視角的圖像輸入 BLIP-2,然后要求ChatGPT提問并收集不同區(qū)域的信息,從而形成整個場景的全局三維描述。
3. 基于revision的提示,可用于將一種三維數(shù)據(jù)遷移到到另一種類型的三維數(shù)據(jù)。
經(jīng)過上述流程,GPT能夠生成各種類型的三維語言數(shù)據(jù),主要基于下列三維資產(chǎn):
- Objaverse,包含80萬個三維物體,不過由于語言描述是從在線資源中提取的,未經(jīng)人工檢查,因此大多數(shù)對象的描述都包括大量噪聲,比如網(wǎng)址等,或是無法生成描述。研究人員利用基于 ChatCaptioner 的提示功能為場景生成高質(zhì)量的 3D 相關(guān)描述。
- Scannet,包含約1000個3D室內(nèi)場景的富標注數(shù)據(jù)集,提供了場景中物體的語義和邊界框。-
- Habitat-Matterport (HM3D) ,具身人工智能(embodied AI)的三維環(huán)境數(shù)據(jù)集。HM3DSem為HM3D的200多個場景進一步添加了語義注釋和邊界框。
一、3D-LLM
1. 3D特征抽取器
訓練3D-LLM的第一步是建立有意義的3D特征,使之可以與語言特征相匹配,但由于缺乏大規(guī)模三維資產(chǎn)數(shù)據(jù)集,所以無法采用預訓練的方式學習表征。
受到從二維多視角圖像中提取三維特征的方法啟發(fā),研究人員提出通過渲染多個不同視角的三維場景來提取三維點的特征,并從渲染的圖像特征中構(gòu)建三維特征。
首先提取渲染圖像的像素對齊密集特征,然后針對不同類型的三維數(shù)據(jù),設(shè)計了三種方法從渲染圖像特征中構(gòu)建三維特征:
1)直接重建(direct reconstruction)
基于3D數(shù)據(jù),使用真實相機矩陣,直接從三維數(shù)據(jù)渲染的rgbd圖像中重建點云,將特征直接映射到重建的三維點。
這種方法適用于具有完美相機姿勢和內(nèi)在特征的 rgbd 渲染數(shù)據(jù)。
2)特征融合(feature fusion)
使用gradslam將二維特征融合到三維映射中,與稠密映射方法不同的是,除了深度和顏色之外,模型還融合了其他特征。
這種方法適用于具有噪聲深度圖渲染或噪聲相機姿勢和內(nèi)在特征的三維數(shù)據(jù)。
3)神經(jīng)場(neural field)
利用神經(jīng)voxel場構(gòu)建三維緊湊表征,具體來說,除了密度和顏色外,神經(jīng)場中的每個voxel都有一個特征,可以利用 MSE 損失對射線中的三維特征和像素中的二維特征進行對齊。
這種方法適用于有 RGB 渲染但無深度數(shù)據(jù)的三維數(shù)據(jù),以及有噪聲的相機姿態(tài)和本征。
2. 訓練3D-LLMs
考慮到使用三維特征提取器可以將三維特征映射到與二維圖像相同的特征空間,因此使用這些二維視覺語言模型作為3D-LLM的骨干是合理的。
鑒于三維特征與三維特征抽取器提取的二維特征處于相同的特征空間,而且感知器能夠處理相同特征維度的任意輸入大小,因此任意大小的點云特征也可以輸入到感知機中。
因此,研究人員使用三維特征提取器在與凍結(jié)圖像編碼器特征相同的特征空間中提取三維特征,然后使用預訓練二維視覺語言模型作為骨干網(wǎng)絡(luò),輸入對齊的三維特征和收集的3D語言數(shù)據(jù)集來訓練3D語言模型。
3. 3D定位機制
除了建立與語言語義相匹配的三維特征外,捕捉三維空間信息也至關(guān)重要。
研究人員提出了一種三維定位機制,以提高三維LLMs吸收空間信息的能力。
該機制由兩部分組成:
- 用位置嵌入增強三維特征,將所有嵌入串聯(lián)起來作為最終特征;
- 將三維位置放入嵌入詞匯表,用AABB的形式表示邊界框,連續(xù)角坐標被統(tǒng)一離散為voxel整數(shù),在語言模型的輸入和輸出嵌入中解凍這些token的權(quán)重。
二、實驗部分
從ScanQA驗證集和測試集的實驗結(jié)果中可以看到,幾乎所有的評估指標都得到了明顯提升。
例如,對于BLEU-1指標,該模型在驗證集上比最先進的ScanQA模型高出約9%,在測試集上高出約7%。
這些結(jié)果表明,通過將3D注入LLM,模型生成的答案與真實答案更為相似。
此外,基于3D的基線使用對象檢測器(如 VoteNet)來分割對象,然后將每個對象的特征發(fā)送到它們的模型中,而文中提出的模型輸入是整體3D特征,沒有顯式的對象表征。
結(jié)果表明,即使沒有明確的對象表征,該模型也能對物體及其關(guān)系進行視覺推理。
還可以發(fā)現(xiàn),以單視角圖像或多視角圖像作為輸入,二維VLM的性能會比三維VLM下降很多,也就是說多視角圖像也包含整個場景的信息,但與3D-LLM相比,3D VLM的性能仍然要低得多,可能是因為多視角圖像的特征是無序的,從而丟失了與3D有關(guān)的信息。
參考資料:
https://arxiv.org/pdf/2307.12981.pdf
編輯:LRS
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!