久久99热这里只有精品23，在线观看黄色视频网站，欧美亚洲日韩三级在线，无码一级午夜福利区，人人超碰人人都爱超碰，又黄又爽免费国产视频，欧美亚洲国产aⅴ人妖，国产99re精彩视频

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

{{ userInfo.member ? '查看權(quán)益' : '開通會員' }}

發(fā)布

注冊 | 登錄

誰是視覺推理 AI 之王？一場游戲，橫評 5 大頂流模型

一澤Eze

2025-04-22

0 評論 562 瀏覽 0 收藏

14 分鐘

在人工智能領(lǐng)域，視覺推理能力是衡量AI智能水平的重要指標之一。本文通過一場別開生面的游戲——“網(wǎng)絡(luò)迷蹤”，對五大頂級多模態(tài)推理模型進行了橫向評測，以確定誰是視覺推理AI之王。

?? Hi，我想先請你只看下面這張照片，推測它的拍攝城市：

這是一類叫做「網(wǎng)絡(luò)迷蹤」的推理游戲：只看照片，判斷拍攝地點的位置，距離越近，得分越高。

太適合測試 AI 的視覺推理能力了。

完美模擬了人類玩家的視覺推理過程：

1?? 精準識別視覺元素：解讀路牌文字、辨認植被類型、分析建筑風(fēng)格特征；

2?? 調(diào)用知識儲備：判斷特定電線桿造型屬于哪個國家或地區(qū)；

3?? 以及多層次線索整合推理。

要想在這個游戲中取得好成績，AI 們必須同時發(fā)揮其視覺識別、模型知識、邏輯推理的最大潛能。

當 AI 答題結(jié)果被標注在地圖上后，它們之間的智力差距也就一目了然。

比單一維度的 Benchmark 跑分，能更有趣、直觀地看到模型的差距。

所以我拉上了國內(nèi)外 5 個頂流多模態(tài)推理模型，一起來做了這項比賽。

?? 簡單介紹「AI 網(wǎng)絡(luò)迷蹤」賽制

本次比賽的參賽選手如下：

注：DeepSeek-R1 其實不支持多模態(tài)（視覺識別），故不參加比賽。

比賽規(guī)則很簡單：

1.共 5 道題目，每題提供同一位置兩張不同拍攝方向的照片（題源：圖尋-每日挑戰(zhàn)-全球 04/20）

2.通過統(tǒng)一的比賽 Prompt，要求 AI 給出它認為最可能的經(jīng)緯度坐標你正在參與地圖迷蹤比賽，不準聯(lián)網(wǎng)。

右下角小地圖不包含任何有效信息。分析提供的圖片，推斷其拍攝的地理位置的行政區(qū)劃層級（格式：大洲，國家，行政區(qū)，城市，鄉(xiāng)鎮(zhèn)）和經(jīng)緯度（格式，如 41.40338, 2.17403），盡可能準確。使用中文回答。

3.每一題均在地圖上標注出所有 AI 的猜測點和實際位置，距離越近，排名越高

第一輪：某熱帶地區(qū)

非常典型的熱帶地區(qū)植被，棕櫚樹、闊葉樹隨處可見，現(xiàn)代化風(fēng)格的住宅樓，路面狀況良好，略微傾斜，似乎是丘陵地帶。

第一輪測試中，各模型回答如下：

ChatGPT-o3：

Gemini-2.5-pro：

Claude-3.7-sonnet-thinking：

Doubao-1.5-thinking-pro：

QVQ-Max：

把第一輪的答題結(jié)果對應(yīng)到地圖坐標位置，與實際答案距離位置如圖：

實際位置約在：1.266428, 103.823641，可在 Google 地圖查看街景

不過第一輪照片，其實還是缺乏了決定性信息。如果要完全精準，就需要對照新加坡的衛(wèi)星/街景影像，進行一一排查。

本輪排名 ?? ：

第二輪：有俄文名稱的工廠

第二輪的各 AI 的猜測結(jié)果，對應(yīng)地圖位置如下：

其中 ChatGPT 和 Gemini 表現(xiàn)出了意外的準確性，誤差均在 1 公里左右。

雖然不小心定位到海里去了，但無傷大雅。（主要是因為本輪比賽中， AI 不能通過地圖服務(wù)確認經(jīng)緯度的真實位置情況）

實際位置約在：44.727172, 37.823414，可在 Google 地圖查看街景

特別的，ChatGPT-o3 在本次推理過程中，對圖像進行了多次“縮放再識別”，類似人類識別圖像細節(jié)的過程，“當整張圖像看不出足夠的信息時，通過放大圖像，來加強對某個特征區(qū)域的細節(jié)識別”。

想來這種視覺推理方式，很快會成為各家的共識。

本輪排名 ??：

第三輪：某海邊公路

沿海的公路，遠處西方有雪山，太陽非常好，繞山公路的方向也很明顯。

第三輪的各 AI 的猜測結(jié)果，對應(yīng)地圖位置如下：

實際位置約在：38.658016, 23.967011，可在 Google 地圖查看街景

本輪排名 ??：

第四輪：零售園區(qū)

這輪其實給出的信息已經(jīng)很多，各式各樣的建筑招牌名稱、各型號的汽車、以及平坦的地貌。

第四輪結(jié)果，對應(yīng)地圖位置如下：

實際位置約在：44.867243, 13.868149，可在 Google 地圖查看街景

ChatGPT 和 Gemini 表現(xiàn)的都很“本地人”，不過 Gemini 這次更勝一籌。

值得一提的是，本次實測中，只有 QVQ-Max 和 ChatGPT-o3 識別出了圖二遠處很小的“Decathlon”迪卡儂 Logo。

（這樣來看，QVQ 沒做縮放再識別，識別精度也不錯）

如果 AI 能調(diào)用 Google 地圖，進行建筑名稱的布局、距離的真實比對，應(yīng)該更容易找到完全精確的位置。

第五輪：干燥丘陵

最后一輪的信息就相當有限了，干燥的丘陵地形，主要為低矮灌木，符合地中海氣候區(qū)或者溫帶大陸性半干旱氣候區(qū)的特征。

維護的相對良好的土路，道路大致朝西南方向。估計是在鄉(xiāng)村或偏遠地區(qū)，交通不便。推理難度確實比之前的更高。

各家 AI 推測的地圖位置如下：

實際位置約在：40.372043, 31.760780，可在 Google 地圖查看街景

?? 比賽結(jié)果：o3 第一

統(tǒng)計 5 輪比賽結(jié)果，平均名次就是最終成績：

小結(jié)

這次比賽，并沒有讓 AI 聯(lián)網(wǎng)使用地圖服務(wù)或圖像搜索，純粹考察模型基于自身的視覺識別、知識儲備、多模態(tài)推理這三大核心能力。

（模擬了真實人類玩「圖尋」的情況，沒時間用地圖查詢作弊）

但在 AI 的幫助下，我依然超過了今天 94.88% 的玩家，刷新了我自己的得分紀錄。

而這當然不是當前 AI 的能力邊界。

當我們把衛(wèi)星地圖、街景影像服務(wù)，甚至小紅書等社交平臺的權(quán)限，通過類 MCP 協(xié)議提供給 AI 后，

任何人都能用 AI 快速推測一張照片的大致范圍，再利用衛(wèi)星影像、社交平臺照片內(nèi)容精細比對，最終推測出精度極其恐怖的位置信息。

那樣，精準定位一個人的位置不再是難題。

而一個能看懂世界、調(diào)用互聯(lián)網(wǎng)海量工具、多步推理的 AI，將在地圖導(dǎo)航、生活服務(wù)、乃至安防監(jiān)控等方方面面帶來多大的變化？

本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】，微信公眾號：【一澤Eze】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

一澤Eze

公眾號：一澤Eze｜知名AI提示工程師，單條prompt全網(wǎng)10w+閱讀量

4篇作品 7645總閱讀量

10%存活率的奶茶茶飲賽道，小紅書內(nèi)容怎么玩才出彩？

07-074691 瀏覽

10%存活率的奶茶茶飲賽道，小紅書內(nèi)容怎么玩才出彩？

AIGC爆火，設(shè)計師如何應(yīng)對——設(shè)計師應(yīng)對指南

04-0412335 瀏覽

AIGC爆火，設(shè)計師如何應(yīng)對——設(shè)計師應(yīng)對指南

這屆愛養(yǎng)生的年輕人，帶火健康消費

12-112281 瀏覽

這屆愛養(yǎng)生的年輕人，帶火健康消費

為AI造“楚門世界”，人類圍觀對話機器人社交、談戀愛

05-044394 瀏覽

為AI造“楚門世界”，人類圍觀對話機器人社交、談戀愛

小紅書又又又改版！對品牌意味著什么

02-154206 瀏覽

小紅書又又又改版！對品牌意味著什么

評論

目前還沒評論，等你發(fā)揮！

導(dǎo)航不是一種信息架構(gòu)，如何證明？

10-231973 瀏覽
用AI數(shù)字人拍抖音可行嗎？

03-169070 瀏覽
貸中監(jiān)控體系中的兩大類型

11-302941 瀏覽

2021亚洲中文字幕在线第99,日韩一级无码国产精品,日韩精品无码一级毛片免费丿,免费在线观看毛片黄片亚太影院柯西贝尔-游戏赚网