OpenAI這次要顛覆什么?實(shí)測(cè)案例來啦!新一代AI“小專家”來了!能看圖、寫代碼、自主決策
o3以其卓越的推理性能在多個(gè)基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄,而o4-mini則以其輕量高效的特點(diǎn)適合大規(guī)模調(diào)用場(chǎng)景。本文將通過實(shí)際案例,展示這些新一代AI模型如何在圖像理解、代碼編寫和復(fù)雜問題解決中展現(xiàn)出色的能力,以及它們?nèi)绾螢楦鱾€(gè)領(lǐng)域帶來新的可能性。
實(shí)測(cè)案例在文末,一張圖片完成推理定位,抓小三業(yè)務(wù)有了新神器????
概述
OpenAI 推出了 o3 和 o4-mini 兩個(gè)新一代推理模型,可以圖片推理
o3(更聰明)和o4-mini(更輕快)。
它們不僅能看圖、寫代碼、查資料,還能思考問題決定怎么解決問題,特別擅長(zhǎng)邏輯推理和工具組合用法。
模型特性:
目前最好的多模態(tài)推理能力
完整訪問 ChatGPT 所有工具(搜索、代碼、圖像、文件等)
深度任務(wù)思考能力(強(qiáng)化學(xué)習(xí)訓(xùn)練)
專為復(fù)雜問題設(shè)計(jì),響應(yīng)更細(xì)致、格式更合理
具備 Agent-like 智能,可以自主決定用哪些工具解決問題
多模態(tài)對(duì)比
代碼能力對(duì)比
哎,誰能想到,AI的發(fā)展竟然最先被影響的高薪工作是IT工程師。
o3:頂級(jí)推理模型
性能表現(xiàn):
在 Codeforces、SWE-bench、MMMU 等基準(zhǔn)測(cè)試上創(chuàng)下新紀(jì)錄。
相比 o1 模型,重大錯(cuò)誤減少 20%,特別在編程、商業(yè)咨詢、創(chuàng)意生成等任務(wù)中表現(xiàn)卓越。
領(lǐng)域表現(xiàn):
在圖像推理任務(wù)(如圖表、手繪草圖、照片分析)中精度極高。
能像思維伙伴一樣提出并評(píng)估創(chuàng)新假設(shè),尤其擅長(zhǎng)生物學(xué)、數(shù)學(xué)和工程場(chǎng)景。
對(duì)話風(fēng)格更自然:引入記憶引用,能參考上下文和過往聊天,使回答更連貫、個(gè)性化。
o4-mini:輕量高效模型
性價(jià)比極高:
小模型但性能突出,尤其適合大規(guī)模調(diào)用場(chǎng)景。
在 AIME 2025(數(shù)學(xué)競(jìng)賽)中使用 Python 工具后得分達(dá) 99.5%,幾乎滿分。
非STEM任務(wù)能力提升:
比 o3-mini 在數(shù)據(jù)科學(xué)、語言類任務(wù)上表現(xiàn)更好。
適合處理大批量需要推理的請(qǐng)求,如客戶服務(wù)、教育、運(yùn)營(yíng)分析等。
應(yīng)用特點(diǎn)
它們“能看、會(huì)想、懂工具”
1. 能看圖理解內(nèi)容
能識(shí)別圖表、掃描頁、截圖、手繪圖等復(fù)雜圖像。
還可以主動(dòng)放大、旋轉(zhuǎn)、裁剪圖像,作為思考的一部分。
2. 懂得“該用什么工具解決問題”
它們可以自己決定:
要不要搜索?
要不要寫代碼算一算?
要不要畫張圖解釋一下?
實(shí)操案例
問題
分析過程
參考AI內(nèi)容
OpenAI新模型,可以進(jìn)行圖片推理,更智能,可以規(guī)劃
GPT-4.1/4.1 mini/4.1 nano全面超越前代,編程能力大幅提升!?
作者:帥森森,公眾號(hào):帥森森聊AI和職場(chǎng)
本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒評(píng)論,等你發(fā)揮!