久久无码国产视频，国产免费AV片在线无码免费看，久久免费毛片视频播放，丝袜人妻无码13p，午夜电影福利无码网，在线观看高清无码大片，一区二区精品性色，日韩欧美国产专区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

GPT-4V連小學(xué)生都不如？最新基準(zhǔn)測(cè)試錯(cuò)誤率竟高達(dá)90%：紅綠燈認(rèn)錯(cuò)、勾股定理也不會(huì)

新智元

2023-10-31

0 評(píng)論 1451 瀏覽 1 收藏

15 分鐘

具備視覺能力的GPT-4版本——GPT-4V，一定程度上被大眾寄予了期待，但最近有研究人員基于他們對(duì)于視覺能力的測(cè)試，發(fā)現(xiàn)GPT-4V在回答視覺問題組的錯(cuò)誤率竟高達(dá)近90%。而導(dǎo)致這類錯(cuò)誤發(fā)生的原因，可能在于視覺錯(cuò)覺和語(yǔ)言幻覺。

GPT-4被吹的神乎其神，作為具備視覺能力的GPT-4版本——GPT-4V，也被大眾寄于了厚望。

但如果告訴你，初中生都知道的勾股定理，只適用于直角三角形。

然而GPT-4V卻自信將其用于鈍角三角形中計(jì)算斜邊長(zhǎng)度。

還有更離譜的，GPT-4V直接犯了致命的安全錯(cuò)誤，竟然認(rèn)為紅燈可以行駛。

這到底是怎么回事呢？

馬里蘭大學(xué)的研究團(tuán)隊(duì)在探索過(guò)程中發(fā)現(xiàn)了這些問題，并在此基礎(chǔ)上提出了兩種主要的錯(cuò)誤類型：語(yǔ)言幻覺和視覺錯(cuò)覺，以此來(lái)闡釋這些錯(cuò)誤的原因。

論文鏈接：https://arxiv.org/abs/2310.14566

項(xiàng)目主頁(yè)：https://github.com/tianyi-lab/HallusionBench

研究人員依據(jù)上述分析，創(chuàng)建了一個(gè)名為HallusionBench的圖像-語(yǔ)境推理基準(zhǔn)測(cè)試，旨在深入探討圖像與語(yǔ)境推理的復(fù)雜性。

基于他們的對(duì)于視覺能力的測(cè)試，GPT4V在回答視覺問題組的錯(cuò)誤率高達(dá)近90%。

研究者們還對(duì)新發(fā)布的GPT-4V(ision)和LLaVA-1.5進(jìn)行了詳細(xì)的研究，深入分析了它們?cè)谝曈X理解方面的能力。

HallusionBench是第一個(gè)專為VLM設(shè)計(jì)的基準(zhǔn)測(cè)試，主要關(guān)注視覺錯(cuò)覺和知識(shí)幻覺。這個(gè)測(cè)試包括約200組視覺問答，其中近一半是由人工專家創(chuàng)作的。

目前數(shù)據(jù)已經(jīng)開源, 并且還在更新中。

涉及的圖片類型多樣，包括原始的錯(cuò)覺圖片、圖表、地圖、海報(bào)、視頻及手動(dòng)制作或修改的圖片，涵蓋數(shù)學(xué)、計(jì)數(shù)、文化、動(dòng)漫、體育和地理等多個(gè)領(lǐng)域。

論文中，作者初步闡述了HallusionBench中的兩種視覺問題分類：視覺依賴型（Visual Dependent）和視覺補(bǔ)充型（Visual Supplement），并討論了實(shí)驗(yàn)對(duì)照組的設(shè)計(jì)方法。

隨后，他們分析了可能導(dǎo)致答案錯(cuò)誤的兩大主要原因：視覺錯(cuò)覺（Visual Illusion）和語(yǔ)言幻覺（Language Hallucination）。

在文末，作者通過(guò)不同的子類別詳細(xì)展示了各主要類別中的失敗案例，并進(jìn)行了深入的分析。

關(guān)鍵點(diǎn)：

「語(yǔ)言幻覺」：在GPT-4V和LLaVA-1.5中會(huì)誤導(dǎo)90%的樣本推理。視覺與語(yǔ)言之間的微妙平衡至關(guān)重要！
「視覺錯(cuò)覺」：LVLMs中的視覺模塊容易受到復(fù)雜視覺上下文的影響，語(yǔ)言模型的錯(cuò)誤被夸大。
簡(jiǎn)單的圖像修改就能欺騙GPT-4V和LLaVA-1.5，暴露了對(duì)更強(qiáng)大的圖像分析能力的需求。
GPT-4V在推理多個(gè)圖像之間的時(shí)間關(guān)系方面存在困難。
LLaVA-1.5有時(shí)會(huì)在常識(shí)查詢上犯錯(cuò)，需要改進(jìn)其語(yǔ)言模型先驗(yàn)。

一、視覺問題類型

視覺依賴型問題（Visual Dependent）：

這類問題的答案完全依賴于視覺內(nèi)容，缺乏圖像信息時(shí)無(wú)法確切回答。

這些問題通常關(guān)聯(lián)到圖像本身或其顯示的內(nèi)容。例如，在沒有圖像的情況下，無(wú)法準(zhǔn)確回答諸如「圖中右側(cè)的橙色圓圈是否與左側(cè)的同樣大??？」之類的問題。

視覺補(bǔ)充型問題（Visual Supplement）：

這些問題即使在沒有視覺內(nèi)容的情況下也能得到回答。在這種類型的問題中，視覺元素僅提供附加信息。

比如，即便沒有圖片輔助，GPT-4V仍能回答「新墨西哥州是否比德克薩斯州大？」等問題。

測(cè)試的核心在于判斷GPT-4V和LLaVA-1.5能否利用圖像內(nèi)容來(lái)作答，而不是僅憑它們的參數(shù)化記憶。

二、錯(cuò)誤分類

作者對(duì)錯(cuò)誤回答進(jìn)行了分析，并將其原因分為兩大類：

視覺錯(cuò)誤（Language Hallucination）：

這類錯(cuò)誤產(chǎn)生于對(duì)輸入圖像的錯(cuò)誤視覺識(shí)別和解釋。模型未能從圖像中提取準(zhǔn)確信息或?qū)ζ溥M(jìn)行正確推斷。

語(yǔ)言幻覺（Visual Illusion）：

模型基于其參數(shù)化知識(shí)庫(kù)，對(duì)問題輸入和圖像背景作出不恰當(dāng)?shù)南热霝橹鞯募僭O(shè)。模型應(yīng)當(dāng)針對(duì)問題的具體環(huán)境作出反應(yīng)，而不是忽略問題本身或?qū)D像作出錯(cuò)誤解讀。

三、范例

從圖1所展示的經(jīng)典視覺錯(cuò)覺案例中可見，GPT-4V在識(shí)別各種錯(cuò)覺圖像及其名稱上顯示出比LLaVA-1.5更豐富的知識(shí)儲(chǔ)備。

圖1

然而，在回答經(jīng)過(guò)編輯處理的圖像相關(guān)問題時(shí)，GPT-4V未能提供精確答案。

這種現(xiàn)象可能源于GPT-4V更多地依賴于其參數(shù)化存儲(chǔ)的知識(shí)，而不是實(shí)際對(duì)圖像進(jìn)行分析。

與此相反，無(wú)論是處理原始圖像還是編輯后的圖像，LLaVA-1.5的表現(xiàn)都相對(duì)較差，這反映出LLaVA-1.5在視覺識(shí)別方面的能力較為有限。

觀察圖2提供的樣本，可以發(fā)現(xiàn)GPT-4V和LLaVA-1.5均未能正確識(shí)別平行線、正三角形、多邊形及其他數(shù)學(xué)定理。

這一現(xiàn)象揭示了，對(duì)GPT-4V而言，在處理幾何和數(shù)學(xué)問題方面仍面臨較大挑戰(zhàn)。

圖2

在圖3的展示中，作者指出了幾則海報(bào)，展示的是一些知名的地方美食，但這些美食的地理特征遭到了改動(dòng)。

面對(duì)這樣的場(chǎng)景，GPT-4V和LLaVA-1.5都未能充分考慮上下文信息，忽略了圖像內(nèi)容，繼續(xù)根據(jù)文本中提及的知名產(chǎn)地來(lái)回答相關(guān)問題。

圖3

在圖4的案例中，作者進(jìn)一步探討了對(duì)多張圖片序列的處理能力。

圖片的順序排列和倒序排列在語(yǔ)義上常表現(xiàn)出對(duì)立的意義，例如「出現(xiàn)與消失」和「后退與前進(jìn)」。

圖4

研究比較表明，盡管這些圖片序列描繪了不同的動(dòng)態(tài)，GPT-4V依然未能區(qū)分這些圖片的順序和逆序排列。

這一發(fā)現(xiàn)指出，在視頻序列推理方面，GPT-4V仍需大幅度的優(yōu)化和提高。

圖5展示了一個(gè)案例，其中在缺乏圖像背景信息的情境下，GPT-4V提供了一個(gè)斷定性的回答。

圖5

相對(duì)地，LLaVA-1.5，由于對(duì)文本的理解不足，提出了一個(gè)技術(shù)上無(wú)誤但與問題無(wú)關(guān)的答回答。

當(dāng)以修改后的π值作為視覺輸入，兩個(gè)模型均未能從圖像中正確識(shí)別和解釋這個(gè)值。

圖6中的情形顯示，當(dāng)缺少視覺輸入時(shí)，GPT-4V和LLaVA-1.5都能準(zhǔn)確且斷定地作出回答。

圖6

然而，在表格作為視覺輸入的情況下，GPT-4V嘗試依據(jù)視覺信息解答，卻誤取了錯(cuò)誤數(shù)據(jù)。

例如，GPT-4V錯(cuò)誤地答道「中國(guó)贏得了36枚金牌」，盡管圖表實(shí)際顯示的是美國(guó)獲得了這些金牌。

相比之下，LLaVA-1.5更依賴于其參數(shù)化記憶，在分別處理問題和表格時(shí)表現(xiàn)不同。

在圖7的場(chǎng)景中，即使沒有視覺輔助，GPT-4V和LLaVA-1.5都作出了斷定性的答復(fù)，其中GPT-4V的答案更為準(zhǔn)確和精確。

圖7

當(dāng)引入圖表作為視覺輸入，GPT-4V能精準(zhǔn)地根據(jù)圖表中的數(shù)據(jù)給出答案，而LLaVA-1.5則依賴于其參數(shù)化知識(shí)進(jìn)行回答。

但是，一旦圖表被翻轉(zhuǎn)，GPT-4V對(duì)答案的預(yù)測(cè)發(fā)生了根本性變化。這個(gè)錯(cuò)誤可以被解釋為由視覺錯(cuò)覺引起的。

根據(jù)圖8，在缺乏圖像支持的情形下，GPT-4V和LLaVA-1.5均提供了確定的回答，但正確答案僅由GPT-4V給出。

圖8

由此可以推斷，GPT-4V在知識(shí)層面上優(yōu)于LLaVA-1.5。

然而，當(dāng)?shù)貓D的視覺呈現(xiàn)發(fā)生改變時(shí)，兩種模型由于其強(qiáng)大的參數(shù)記憶能力，均未能正確推斷出四個(gè)州的相對(duì)位置。

四、總結(jié)

近年來(lái)，隨著大規(guī)模語(yǔ)言模型和多模態(tài)研究的快速發(fā)展，人工智能領(lǐng)域經(jīng)歷了重大的變革。

自然語(yǔ)言處理（NLP）和計(jì)算機(jī)視覺（CV）的結(jié)合，不僅促成了大型視覺語(yǔ)言模型（LVLM）的誕生，而且顯著提高了圖像推理任務(wù)的性能。

但是，LVLM仍面臨著一些挑戰(zhàn)，如語(yǔ)言幻覺和視覺錯(cuò)覺等問題。

本研究通過(guò)推出HallusionBench，旨在為VLM提供一個(gè)基準(zhǔn)測(cè)試，特別是在那些容易因語(yǔ)言幻覺或視覺錯(cuò)覺而失敗的復(fù)雜情況下。

我們對(duì)GPT-4V和LLaVA-1.5的不同示例和失敗案例進(jìn)行了深入探討，包括：

1. 在HallusionBench中，GPT-4V和LLaVA-1.5在處理含有先驗(yàn)知識(shí)的問題時(shí)，往往會(huì)受到語(yǔ)言幻覺的影響。這些模型更傾向于依賴先驗(yàn)知識(shí)，導(dǎo)致在我們的分析的例子中，超過(guò)90%的答案是錯(cuò)誤的。因此，模型需要在參數(shù)化記憶和輸入文本圖片之間找到一個(gè)平衡點(diǎn)。

2. 即便是在GPT-4V和LLaVA-1.5缺乏參數(shù)化記憶或先驗(yàn)知識(shí)的情況下，它們?nèi)匀蝗菀资艿揭曈X錯(cuò)覺的影響。這些模型常常在處理幾何圖形、數(shù)學(xué)圖像、視頻（多圖像場(chǎng)景）、復(fù)雜圖表等問題時(shí)給出錯(cuò)誤答案。目前，視覺語(yǔ)言模型在視覺處理方面的能力還很有限。

3. GPT-4V和LLaVA-1.5在HallusionBench中容易被一些基本的圖像操作所誤導(dǎo)，如圖像翻轉(zhuǎn)、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語(yǔ)言模型尚未能有效處理這些圖像操作。

4. 雖然GPT-4V支持處理多圖，但在分析涉及時(shí)間線索的多圖像問題時(shí)，它未能展現(xiàn)出有效的時(shí)間推理能力，在HallusionBench中表現(xiàn)欠佳。

5. 在HallusionBench的測(cè)試中，LLaVA-1.5由于知識(shí)庫(kù)相對(duì)較少，有時(shí)會(huì)犯下一些基本的錯(cuò)誤。

作者表示，他們的數(shù)據(jù)集已經(jīng)開源，并正在繼續(xù)擴(kuò)展數(shù)據(jù)庫(kù)。最新的數(shù)據(jù)會(huì)在Github （https://github.com/tianyi-lab/HallusionBench）上不斷更新。

這項(xiàng)研究為未來(lái)更加強(qiáng)大、平衡和精準(zhǔn)的LVLM奠定了基礎(chǔ)，并期待通過(guò)這些詳細(xì)的案例研究，為未來(lái)研究提供一些可能方向。

參考資料：

https://arxiv.org/abs/2310.14566

編輯：LRS，好困

來(lái)源公眾號(hào)：新智元（ID：AI_era），“智能+”中國(guó)主平臺(tái)，致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。