国产美女一级牲交片，亚洲最大av在线，久久精品免费视频182，亚洲乱码AV乱码国产精品，精品人妻无码一区二区久久，黄色性爱网站在线观看，国产一区二区三区不卡视频手机版，国语自产拍在线观看无码精品

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

親測OpenAI o3的10個案例，20美金/月雇跨學(xué)科博士做助理

鯨選AI

2025-04-18

0 評論 266 瀏覽 0 收藏

11 分鐘

OpenAI 最新發(fā)布的 o3 模型，以其顯著提升的推理能力、多模態(tài)處理能力和工具調(diào)用能力，再次引領(lǐng)了人工智能領(lǐng)域的前沿發(fā)展。本文通過親測 10 個實(shí)際案例，深入展示了 o3 在復(fù)雜任務(wù)處理、多學(xué)科知識應(yīng)用、創(chuàng)意生成和數(shù)據(jù)分析等場景下的強(qiáng)大表現(xiàn)。從化身福爾摩斯分析圖片到生成深度研究報(bào)告，o3 的能力不僅令人印象深刻，更仿佛為用戶提供了 20 美金 / 月就能雇傭的跨學(xué)科博士助理。這些案例不僅揭示了 o3 的技術(shù)進(jìn)步，也為我們描繪了 AI 在未來工作和生活中可能扮演的角色。

一直以來，OpenAI 的o1模型都是推理模型的巔峰，其DeepResearch功能就是憑借o系列的基座能力，在市場上贏得了口碑。不過，可能生成報(bào)告的模式，讓大家始終覺得搜索升級沒啥看頭，大家很難體會AI的研究能力。在昨晚發(fā)布的o3和o4、o4 mini模型中，實(shí)現(xiàn)了以下能力的躍遷：

整體推理能力：對真實(shí)、復(fù)雜任務(wù)的專家打分顯示，o3 的重大錯誤比上一代?o1?少?≈20?%

視覺多模態(tài)：在大學(xué)水平的多學(xué)科視覺推理基準(zhǔn)?MMMU，o3 82.9?%?→?GPT?4 34.9?%，絕對提升?≈48?分，相當(dāng)于 2.4?× 的相對提升
競賽數(shù)學(xué)：AIME?2024 單次作答 o3 91.6?%，而 GPT?4o 只有 12?% 左右，提升 >7?×
上下文長度：o3 200?k 輸入窗口?vs?GPT?4 8?k，且輸入/輸出 token 價(jià)格僅為 GPT?4 的約 1/3?2/3

AI呈現(xiàn)了一定程度的研究能力，為了能讓大家更直觀感受到大模型在各個領(lǐng)域場景下，高水平處理任務(wù)的能力。

鯨哥實(shí)測了10個案例，我們能看到o3的分步推理思考過程，很多復(fù)雜的問題真正在研究，以及利用工具解決！

1、化身福爾摩斯，看圖猜測背景信息：

鯨哥在o3上傳了一張菜單，要求ChatGPT猜出來是哪家飯店。

可以看到o3分析了菜品和價(jià)格，并搜索了大眾點(diǎn)評的數(shù)據(jù)，提出指紋式的菜名+價(jià)格組合只有在四季民福出現(xiàn)，最終答對了!

2、識別圖片內(nèi)容信息，成為植物學(xué)家：

識圖能力在此前的眾多大模型中都已經(jīng)具備，但這次是給大模型加大難度，用一大束花，讓GPT識別都有哪些花束。

最終o3識別出了8種主要的花束，展現(xiàn)了對復(fù)雜內(nèi)容的理解。

3、做考公圖推題，o3當(dāng)小學(xué)題題目做

在考公題目中，經(jīng)常有圖推題出現(xiàn)。這些題目往往具有一定的難度，考驗(yàn)?zāi)Ｐ蛯D片理解以及意識推理的能力。

這道考公題并不容易，GPT用幾種形狀來找規(guī)律，最終選擇了答案D。當(dāng)然，這道題也有爭議，粉筆網(wǎng)給出的答案是D，但很多人認(rèn)為是B。

只是19秒做完這題，o3估計(jì)覺得這題沒多復(fù)雜，都是小學(xué)生題。

4、數(shù)學(xué)計(jì)算能力更強(qiáng)，重大錯誤比o1強(qiáng)20%

在數(shù)學(xué)計(jì)算中，此前o1開始計(jì)算哥德巴赫猜想，讓大家吃了一驚。當(dāng)然，也沒有計(jì)算出來，卻顯示出推理大模型的強(qiáng)悍之處。

鯨哥拿一道DeepSeeK做錯的數(shù)學(xué)題，考驗(yàn)o3的進(jìn)化能力。

這道題不太難，但是DS的幻覺率需要人為矯正。

而o3很快就得出了正確答案，數(shù)學(xué)題是推理模型的阿克琉斯之踵，o3有進(jìn)步。

5、調(diào)用OpenAI內(nèi)部工具，除了不能做視頻

在這里，我們先讓o3深度調(diào)研下『2025年北京夏天可能火的食物』這一主題。o3從全網(wǎng)內(nèi)容中獲取了最新的5款食物銷量，得出了結(jié)論。

o3最看好乳茶2.0這款產(chǎn)品，接著讓o3做一張輕乳茶2.0的宣傳海報(bào)，o3會思考任務(wù)交代中沒有明確提示要Midjourney生成，那就是不僅要生成Prompt，還需要調(diào)用4o模型直接生成圖片。

接著我們讓o3直接生成輕乳茶的電商網(wǎng)頁，以動態(tài)可視化的HTML網(wǎng)頁形式運(yùn)行。現(xiàn)在GPT還可以直接運(yùn)行代碼，實(shí)時(shí)預(yù)覽，很方便。

可以看到右下角還有修復(fù)提示，這也是本次o3的重要提升，當(dāng)它意識到程序有Bug時(shí)，就會實(shí)時(shí)提示可以修復(fù)真實(shí)代碼，這對于AI編程落地很關(guān)鍵。

6、創(chuàng)意視頻生成，后續(xù)結(jié)合Sora才有前景

o3其實(shí)作為LLM，本身不支持生成視頻，但是我們還是要求他生成視頻，考驗(yàn)它解決問題的思路，這里鯨哥給到的是飛機(jī)和魚的創(chuàng)意故事。

o3是逐幀生成了圖片，然后做成gif形式的視頻。

可以看到最終生成的視頻內(nèi)容，是一架飛機(jī)路過，伸出了魚鉤，釣起魚飛走了。這個創(chuàng)意讓我想起來一個歌：『海鳥與魚相愛，只是一場意外』

7、代碼能力和真實(shí)物理能力測試

這次公告中，官方稱在“修 bug”基準(zhǔn)?SWE中，o3 解決?69.1?% 問題，而 GPT?4o 只解決 33?%左右，代碼能力 ≈2?倍提升。

實(shí)測中，生成代碼的審美確實(shí)沒什么進(jìn)步，以下是o3生成的100個小球碰撞的物理實(shí)驗(yàn)，這個效果差強(qiáng)人意。

和下圖對比看，相比o1的還遜色不少，o系列模型確實(shí)在代碼編程方面，始終沒有超越Claude3.7。尤其前端UI這塊，水平還是差不少，GPT-4.1也不行。

8、科技商業(yè)問題推理，最終寫成文章

在這道題中，鯨哥用比較有門檻的科技商業(yè)文作為寫作題目，而且要求中間插入數(shù)據(jù)分析以及戰(zhàn)略路徑歸納，最終得出結(jié)論。

生成的分析深度還可以，只是沒學(xué)會吳曉波老師的文筆。

一直以來，ChatGPT的寫作能力都略遜Claude3.7，從目前看，語言的風(fēng)格化以及潤色程度，比3.7確實(shí)還有距離，但是數(shù)據(jù)和邏輯分析，以及概念的引用都不錯。像是個不經(jīng)常寫文章，而是經(jīng)常做研究的博士，寫出來比較硬的內(nèi)容。

9、視頻分析能力，對多媒體的理解能力

我們在Youtube上找了個萬人大合唱的合集，然后讓他分析這是什么內(nèi)容，以及為什么能爆火。

o3解讀出了都包括哪些歌，然后分析了爆火的底層邏輯。感覺對于IP孵化類博主是個福音，大家以后能用o3直接寫爆款分析課程了。

10、生成深度研究報(bào)告，o3表現(xiàn)更好

我們調(diào)用o3模型的深度思考能力，生成了一份行業(yè)報(bào)告。o3用了不到20分鐘生成了這份1萬多字的報(bào)告。

還是先思考后搜索的思路，內(nèi)容較o1版也有一定程度的提升。

報(bào)告全文在這里：https://chatgpt.com/share/6800bf78-bac8-8005-82e4-07c686e121e6

o4mini更適合批量客服回答等強(qiáng)調(diào)性價(jià)比場景，所以本文沒有測試。Altman還提到，o3 Pro版本將在未來幾周內(nèi)到達(dá)，能力應(yīng)該比本文測試的o3更強(qiáng)，但也意味著價(jià)格更貴。

在Plus賬號中，你能大范圍使用ChatGPT 的所有能力，尤其o3的20美金每月費(fèi)用，相當(dāng)于花近200多元雇傭了一個跨學(xué)科博士生在身邊做助理，大家覺得值不值呢？

本文由人人都是產(chǎn)品經(jīng)理作者【鯨選AI】，微信公眾號：【鯨選AI】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

鯨選AI

最新AI產(chǎn)業(yè)報(bào)道和產(chǎn)品分析

36篇作品 76343總閱讀量

從預(yù)約借款項(xiàng)目復(fù)盤，拆解項(xiàng)目如何從0到1

10-301341 瀏覽

還有增長機(jī)會，做好抖音生活服務(wù)的6點(diǎn)經(jīng)驗(yàn)

11-212333 瀏覽

一篇文章說清楚SRM中的尋源競價(jià)

09-134377 瀏覽

從計(jì)算器說起，談一談產(chǎn)品經(jīng)理應(yīng)該搞清楚的前后端分離

10-204030 瀏覽

01-033081 瀏覽

評論

目前還沒評論，等你發(fā)揮！

元宇宙再次打敗春晚

01-302472 瀏覽
Apple產(chǎn)品創(chuàng)新戰(zhàn)略 – 成就企業(yè)市值$3萬億獨(dú)領(lǐng)風(fēng)騷的秘器

12-192461 瀏覽
CRM | 關(guān)于獲客、營銷以及SCRM的設(shè)計(jì)思路

08-318894 瀏覽

2021亚洲中文字幕在线第99,日韩一级无码国产精品,日韩精品无码一级毛片免费丿,免费在线观看毛片黄片亚太影院柯西贝尔-游戏赚网

親測OpenAI o3的10個案例，20美金/月雇跨學(xué)科博士做助理

1、化身福爾摩斯，看圖猜測背景信息：

2、識別圖片內(nèi)容信息，成為植物學(xué)家：

3、做考公 圖推題，o3當(dāng)小學(xué)題題目做

4、數(shù)學(xué)計(jì)算能力更強(qiáng)，重大錯誤比o1強(qiáng)20%

5、調(diào)用OpenAI內(nèi)部工具，除了不能做視頻

6、創(chuàng)意視頻生成，后續(xù)結(jié)合Sora才有前景

7、代碼能力和真實(shí)物理能力測試

8、科技商業(yè)問題推理，最終寫成文章

9、視頻分析能力，對多媒體的理解能力

10、生成深度研究報(bào)告，o3表現(xiàn)更好