Gemini的展示是剪輯造假?我們親測了一下,發(fā)現(xiàn)…
近日,谷歌深夜炸場,推出了原生多模態(tài)大模型Gemini,并在視頻中展示了Gemini的強(qiáng)大功能。不過,有網(wǎng)友對視頻發(fā)出質(zhì)疑,認(rèn)為視頻是多次嘗試和挑選后“精心剪輯”的節(jié)目效果,谷歌也表明實現(xiàn)這樣的多模態(tài)交互過程需要經(jīng)過多步圖片和提示詞調(diào)試。那么,谷歌所擺出的Gemini的能力,是否真的站得住腳?不妨來看看本文的親測結(jié)果。
谷歌深夜炸場,隆重推出他們史上“規(guī)模最大、能力最強(qiáng)”的原生多模態(tài)大模型Gemini 1.0。并稱已在多項基準(zhǔn)測試中打敗GhatGPT,綜合能力稱霸目前市面上所有AI大模型。
官方放出的一段6分22秒演示視頻更是震撼:Gemini能流暢而準(zhǔn)確地識別出視頻中出現(xiàn)的事物、教授中文發(fā)音、玩猜謎游戲、根據(jù)畫的樂器播放音樂….一波互動簡直無限接近于人。
不過很快,這支視頻就被人說并非實時錄制,而是多次嘗試和挑選后“精心剪輯”的節(jié)目效果。
谷歌后續(xù)自己放出的博客文章中也顯示,實現(xiàn)這樣的多模態(tài)交互過程需要經(jīng)過多步圖片和提示詞調(diào)試。
比如“喂”了多張手勢圖片后,讓Gemini回答這是在做什么,提示思路是游戲。而視頻中僅面對手勢動作,Gemini就主動表示“我知道你在玩剪刀石頭布”。
再比如排出太陽、地球和土星照片問Gemini是否為正確順序,同樣提示要考慮到太陽的距離并要求解釋原因??梢曨l里的 Gemini又是在沒有任何參考的情況下糾正了排序。
除此之外,對于谷歌自豪亮出的,Gemini Ultra在MMLU( 大規(guī)模多任務(wù)語言理解 )測試中跑分超過 GPT-4和人類專家這件事,人們冷靜下來仔細(xì)一看,也發(fā)現(xiàn)了些小心思:
在Gemini Ultra 90.0%的分?jǐn)?shù)下面,非常不起眼地標(biāo)著CoT@32,意思是“使用了思維鏈提示技巧、嘗試32次選最好結(jié)果”;而GPT-4 86.4%分?jǐn)?shù)下卻是5-shot,表面只進(jìn)行“5次示例且無提示詞”——谷歌給自己和對家安排的標(biāo)準(zhǔn)都不一樣,根本無法公平公正地比較。
Hugging Face 技術(shù)主管Philipp Schmid直接用谷歌60頁Gemini 技術(shù)報告中的數(shù)據(jù)重新作圖。并在X發(fā)文指出,如果同樣采用5-shot,Gemini Ultra的分?jǐn)?shù)只有83.7%,實則是不如GPT-4的。
不過好在如果也給GPT-4來個32次嘗試+思維鏈提示,還是Gemini勝。
谷歌耍了些揚(yáng)長避短的小花樣,但也不至于完全撒謊。
在上圖中也可以看出,這次發(fā)布的 Gemini1.0全系列里,除了“超大杯”Gemini Ultra外,“大杯”Gemini Pro也在八項基準(zhǔn)測試的六項中打敗了對標(biāo)的GPT-3.5。
現(xiàn)在,用戶能玩到的Google Bard里接入的就是Gemini Pro。
于是硅星人也趕緊上手操作了一下,實測它和最新版本的GPT-4V到底哪個更厲害。
由于Google官方表示目前Gemini Pro只能為170個國家和地區(qū)提供英語服務(wù),所以咱們先用英文提問。
首先熱個身,試試最簡單的文本生成能力:讓Bard和ChatGPT分別寫一段夸獎自己的Rap,并且和對方battle,來個下馬威。
Bard一頓猛烈輸出,主歌、副歌、橋接、結(jié)尾幾大說唱歌曲元素一個不落。表示自己是真正的OG,擁有更龐大的知識庫還能訪問網(wǎng)絡(luò),但GPT只是“困在過去”。(不過現(xiàn)在GPT-4已經(jīng)集成了微軟Bing搜索,也可以訪問實時信息。)
ChatGPT這邊相對精簡,主打自己是一個快速沖刺的人工智能,“Google有名氣,但我有真本事”。
好吧,都挺會說的。不過既然Gemini最標(biāo)榜的是自己的原生多模態(tài)能力,那就在多模態(tài)上讓它倆比比。
拿一張今年9月剛上市的iPhone 15 Pro Max圖片,讓它們認(rèn)認(rèn)這是什么。
Bard準(zhǔn)確識別出了機(jī)型,還把優(yōu)勢、外觀、各項組件參數(shù)一一說明。
ChatGPT這邊有點拉垮,只說這些是較高級的iPhone手機(jī),描述了屏幕顯示和顏色等表面信息。
第一輪看起來,Bard的圖像識別和信息對齊表現(xiàn)更勝一籌。
再考考它們識數(shù),數(shù)數(shù)圖里總共有幾片葉子。
這次換Bard表現(xiàn)不佳,先是說確保過每片葉子只數(shù)一遍后,看到有6片。讓它再試試吧,直接數(shù)出來7片,還出現(xiàn)了“幻視”,把這7片的顏色大小列了出來。
ChatGPT相對冷靜,5片葉子一次就數(shù)對了。
下面來到小學(xué)數(shù)學(xué)題。
谷歌特別提到Gemini可以作為孩子的學(xué)習(xí)伙伴,幫助解決數(shù)學(xué)、物理等學(xué)科難題。我們就讓它和GPT簡單算一下d角度數(shù)。
Bard好像還沒從數(shù)葉子那兒回過神來,整出來個300度。邏輯是:完整內(nèi)角和360度,圖片里就標(biāo)出來一個角的數(shù)值300度,所以這鐵定就是你問的答案——忽略了d角。
咱就是說,這個“學(xué)習(xí)伙伴”有點迷糊啊……
而ChatGPT這邊繼續(xù)穩(wěn)定發(fā)揮,得出60度正確答案。
不過,我們決定再給Bard一次機(jī)會,讀圖表。
這是一張來自美國勞工部的柱狀圖,顯示截至2023年10月一年內(nèi)消費(fèi)者價格指數(shù)(CPI)在食品、能源及其它類別中的百分比變化。左邊為Bard給出的答案,右邊來自ChatGPT。
這次要好好表揚(yáng)一下Bard了,不僅解釋了CPI指數(shù)的含義,給出幾個類別百分比變化的確切數(shù)值,還簡要分析了當(dāng)下通脹情況,即給出了表格數(shù)據(jù)之上的分析結(jié)論。
相比之下,ChatGPT的答案就比較淺層,讀出的數(shù)值也僅僅是一個范圍。
最后,雖然官方稱Gemini Pro還沒準(zhǔn)備好提供中文服務(wù),但鑒于Bard中文水平一直還不錯,我們還是很想讓它和ChatGPT比拼一把。
而且準(zhǔn)備祭出最近相當(dāng)火的——“練心眼子”系列。
這一比不要緊,Bard這嘴皮子功夫簡直了,能啟發(fā)一大批職場小白,甚至感覺IP地址來自山東。
而ChatGPT的回答雖然也還可以,但此刻在Bard的襯托下,就像個老實巴交、不善言談的職場打工人。
這還沒有正式推出中文服務(wù),等官宣更多語言和地區(qū),不知道 Bard的中文水平會不會更加炸裂?
總而言之,雖然一整套實測下來,Bard在一些方面還是略有不足,但也還要記得,這只是對標(biāo)GPT-3.5的Gemini Pro版本,真正對抗GPT-4的最高階Gemini Ultra還沒有釋出。
并且,Gemini 1.0 的問世打破了ChatGPT一家獨(dú)大的局面,讓用戶們可以根據(jù)需求有更多選擇。市場的良性競爭也有助于AI大模型領(lǐng)域整體的創(chuàng)新發(fā)展。
并且,Google Bard現(xiàn)在還是免費(fèi)的!
如果繼續(xù)保持下去,等它越來越強(qiáng)的時候,你還愿意每月花20刀訂閱ChatGPT嗎?
作者:Jessica
來源公眾號:硅星人Pro(ID:Si-Planet),硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @硅星人 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!