OpenAI發(fā)布o3/o4-mini兩大推理模型,要把Agent吞進模型里了

0 評論 1648 瀏覽 0 收藏 14 分鐘

OpenAI新發(fā)布的o3和o4-mini模型,在推理和工具使用能力上取得重大突破。o3作為旗艦推理引擎,在復雜任務處理上表現(xiàn)卓越,錯誤率顯著降低;o4-mini則以高性價比著稱,適合高吞吐量應用場景。兩者均具備強大的多模態(tài)能力和工具調(diào)用能力,能主動結(jié)合視覺信息和網(wǎng)絡搜索等手段解決問題。

距離OpenAI發(fā)布GPT-4.1僅僅過去兩天,OpenAI在本周再次投下“重磅炸彈”——正式發(fā)布了其o系列的兩個新模型:o3和 o4-mini。

這次發(fā)布的核心被OpenAI聯(lián)合創(chuàng)始人Greg Brockman和首席研究官Mark Chen形容“向未來邁出的質(zhì)的一步”。這兩個新模型不僅在傳統(tǒng)的編碼、數(shù)學、科學等領域展現(xiàn)出“迄今為止最強”的推理能力,更重要的是,它們被訓練成了能夠主動、智能地使用和組合工具來解決復雜問題的“AI系統(tǒng)”,并且首次實現(xiàn)了“用圖像思考”。

簡單來說,你可以把o3和o4-mini想象成更聰明的“大腦”,它們不僅知識儲備更豐富、邏輯更嚴謹,還學會了像人一樣,遇到難題時知道去網(wǎng)上查資料(網(wǎng)頁搜索)、用計算器(執(zhí)行Python代碼分析數(shù)據(jù)/文件)、看圖表(視覺輸入推理),甚至自己畫圖(生成圖像)。這標志著ChatGPT向著一個能更獨立自主完成任務的智能體方向邁出了關鍵一步。

新的o3、o4-mini及o4-mini-high將從即日起開始替換ChatGPT Plus、Pro和Team用戶模型選擇器中的o1、o3-mini和o3-mini-high。免費用戶也有機會通過特定的“Think”選項體驗o4-mini。開發(fā)者可通過API使用o3和o4-mini,OpenAI預計在幾周內(nèi)發(fā)布o3-pro。

那么,這兩個新模型具體強在哪里?OpenAI官網(wǎng)和直播演示給出了詳細解答。

o3:旗艦級推理引擎

具體到兩個模型,o3 定位為OpenAI當前最強大、最前沿的推理引擎。它在編碼、數(shù)學、科學和視覺感知等需要深度思考的領域表現(xiàn)尤為突出,是處理那些答案不明顯、需要多方面綜合分析的復雜查詢的理想選擇。

根據(jù)外部專家的嚴格評估,在處理困難的現(xiàn)實世界任務時,o3犯下的嚴重錯誤比其前代旗艦o1減少了20%,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思方面進步顯著。發(fā)布會上的例子令人印象深刻:o3不僅能分析物理學研究海報并推斷出未明確說明的結(jié)果,還能將其與現(xiàn)有文獻進行對比。

在另一個例子中,它甚至成功解決了構(gòu)造一個特定性質(zhì)的19次多項式這樣的高難度數(shù)學問題,其推理過程和結(jié)果的準確性遠超o1的表現(xiàn)。早期測試者也普遍反饋,o3作為“思考伙伴”時展現(xiàn)出的分析嚴謹性,以及在生物、數(shù)學、工程等領域生成和批判性評估新穎假設的能力,都令人印象深刻。在包括Codeforces、SWE-bench和MMMU等基準測試中創(chuàng)下了新的 SOTA。

o4-mini:高性價比的“小鋼炮”

o4-mini 則是一款針對速度和成本效益優(yōu)化的“小鋼炮”。雖然體量更小,但它在數(shù)學、編碼和視覺任務上實現(xiàn)了“令人矚目的性能”,堪稱“以小博大”的典范。它在AIME 2024和2025數(shù)學競賽基準上的表現(xiàn)甚至超越了更大的模型。專家評估也指出,即使在非STEM領域和數(shù)據(jù)科學方面,o4-mini也優(yōu)于其前代o3-mini。得益于更高的效率,o4-mini能夠支持比o3顯著更高的使用限制,這使其非常適合需要進行大量推理、高吞吐量的應用場景。同時,OpenAI表示,o3和o4-mini在交互時也應該感覺更自然、更像對話,能更好地利用記憶和上下文信息,并提供帶有網(wǎng)絡來源引用的、更可驗證的回應。

o3-mini 和 o4-mini的成本與性能對比

o1 和 o3的成本與性能對比

值得關注的是,智能化程度的提升并未必然帶來成本的增加。OpenAI強調(diào),在許多實際應用場景中,o3和o4-mini可能比它們的前代o1和o3-mini更高效,甚至更便宜。官網(wǎng)展示的AIME數(shù)學競賽成本-性能曲線清晰地表明,o3在相同成本下性能優(yōu)于o1,而o4-mini則優(yōu)于o3-mini。這背后,是OpenAI在強化學習規(guī)?;系某掷m(xù)投入——據(jù)透露,開發(fā)o3所使用的訓練計算量是o1的十倍以上,驗證了“更多思考時間=更好性能”的趨勢同樣適用于強化學習。

在定價方面,o3的每百萬輸入 token 收費為 10 美元,輸出 token 為 40 美元;而 o4-mini 的價格僅為其十分之一左右,分別為 1.1 美元和 4.4 美元。

不止于聰明,更在于“全能”

Agentic Tool Use是本次發(fā)布的亮點之一。過去的模型雖然也能調(diào)用工具,但往往是被動執(zhí)行指令。而o3和o4-mini則被訓練得能夠思考何時以及如何使用工具來給出詳盡、周到的答案。它們可以根據(jù)問題的復雜性,自主決定調(diào)用網(wǎng)頁搜索獲取最新信息、運行Python代碼進行數(shù)據(jù)分析和預測、理解用戶上傳的圖片內(nèi)容,甚至生成圖表或圖像來輔助說明。

當用戶提出“加州今年的夏季能源消耗與去年相比如何”這樣的問題時,模型會自動搜索公共數(shù)據(jù)源,結(jié)合實時信息編寫并執(zhí)行分析代碼,生成圖表直觀展示對比結(jié)果,并解釋其中的關鍵影響因素,整個過程通常在一分鐘內(nèi)完成,體現(xiàn)出強大的搜索、推理與多模態(tài)協(xié)同能力。

直播中Greg Brockman還提到,o3在解決一個復雜任務時,曾被觀察到連續(xù)調(diào)用了高達600次工具。

另一個突破是視覺理解能力。o3和o4-mini不再僅僅是“看到”圖片,而是能將圖像信息直接整合進它們的“思考鏈”中。用戶可以上傳白板照片、教科書圖解、手繪草圖,即使圖片模糊、顛倒或質(zhì)量不高,模型也能嘗試理解。

更進一步,結(jié)合工具使用能力,模型可以在推理過程中動態(tài)地操作圖片,比如旋轉(zhuǎn)、縮放或轉(zhuǎn)換圖像,以更好地輔助分析。這使得它們在多模態(tài)基準測試中達到了新的SOTA(State-of-the-Art)水平,能夠解決以前難以處理的視覺推理問題。例如,o3在MathVista(視覺數(shù)學推理)上準確率達到86.8%,在CharXiv-Reasoning(科學圖表推理)上達到78.6%。

在演示中,OpenAI的Brandon McKenzie向o3展示了一張關于質(zhì)子等矢標量荷的物理海報,并要求它找到研究結(jié)果并與最新文獻對比,實際上該結(jié)果并未寫在海報上。o3準確識別了相關圖表,推理出計算方法,并聯(lián)網(wǎng)查找最新估計值,指出原始數(shù)值需重整化才能與當前研究對齊,展現(xiàn)了其理解圖像、推理及使用工具完成復雜科研任務的能力,節(jié)省了時間。

發(fā)布編程工具Codex CLI

伴隨著能力的飛躍,安全問題也得到了前所未有的重視。OpenAI表示,他們?yōu)閛3和o4-mini徹底重建了安全訓練數(shù)據(jù)集,特別加強了在生物風險、惡意軟件生成、越獄企圖等敏感領域的拒絕能力。此外,還部署了系統(tǒng)級防護,引入了一個基于人類可解釋規(guī)范訓練的推理LLM監(jiān)控器,用于主動標記生物風險等前沿風險領域的危險提示,據(jù)稱在內(nèi)部紅隊測試中成功標記了約99%的相關對話。依據(jù)其最新的《準備框架》(Preparedness Framework),經(jīng)過嚴格評估,o3和o4-mini在生物化學、網(wǎng)絡安全和AI自我改進這三個關鍵風險領域的能力水平均被認定低于“高”風險閾值。

為了進一步賦能開發(fā)者社區(qū),OpenAI還推出了一個名為Codex CLI的實驗性新工具。這是一個輕量級的編碼助手,可以直接在用戶的終端命令行運行,旨在充分發(fā)揮o3、o4-mini等模型強大的推理能力,連接本地代碼環(huán)境,甚至支持處理截圖或草圖進行多模態(tài)編程。Codex CLI已在GitHub上完全開源。

在直播演示中,OpenAI Agent研究團隊成員Michael為了展示Codeex CLI的功能,截取了一張在 X上關于一個“圖像到 ASCII 風格轉(zhuǎn)換”工具的推文截圖。他將這個截圖直接拖入終端,通過Codeex并利用o4-mini的多模態(tài)推理能力,最終成功創(chuàng)建了一個簡單的ASCII風格圖像轉(zhuǎn)換工具。

新的發(fā)布之后,行業(yè)內(nèi)的初步反響并非全然是掌聲。一些觀點仍然認為這次發(fā)布更像是仍然是增量式進步,雖然迭代速度更快了,但并未帶來顛覆性的飛躍或震撼性新功能,這或許反映了整個AI行業(yè)在激烈競爭下面臨的巨大“快速交付”壓力。

同時,開源社區(qū)中也存在一些失望的聲音,指出盡管模型能力日新月異,但OpenAI仍未推出真正強大的開源模型,這讓部分期待開放生態(tài)的開發(fā)者發(fā)出了“Wake me up when they release something open”(等他們發(fā)布開源模型再叫醒我)的調(diào)侃。

在發(fā)布的技術(shù)光環(huán)之外,市場層面的動態(tài)也值得關注。發(fā)布會前后,彭博社和CNBC等媒體報道稱,OpenAI可能正就以高達30億美元收購AI編程工具初創(chuàng)公司W(wǎng)indsurf(前身為Codeium)進行談判。Windsurf的產(chǎn)品利用AI輔助開發(fā)者編寫、解釋代碼,其部分功能已集成OpenAI模型。若收購屬實,無疑將極大增強OpenAI在開發(fā)者工具和代碼生成領域的布局。

Windsurf在第一時間提供o4-mini的免費體驗

總體來看,OpenAI發(fā)布的o3和o4-mini,在Agentic能力和多模態(tài)深度融合方面繼續(xù)邁近,這不僅僅是模型變得更聰明了,更是朝著能夠真正理解并與我們復雜世界進行交互的“通用智能體”的一步。從發(fā)布節(jié)奏來看,OpenAI的再次提速,留給競爭對手和整個行業(yè)思考的時間,似乎又變少了。

作者|周一笑

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!