OpenAI這次要顛覆什么?實(shí)測(cè)案例來啦!新一代AI“小專家”來了!能看圖、寫代碼、自主決策

0 評(píng)論 1654 瀏覽 0 收藏 5 分鐘

o3以其卓越的推理性能在多個(gè)基準(zhǔn)測(cè)試中創(chuàng)下新紀(jì)錄,而o4-mini則以其輕量高效的特點(diǎn)適合大規(guī)模調(diào)用場(chǎng)景。本文將通過實(shí)際案例,展示這些新一代AI模型如何在圖像理解、代碼編寫和復(fù)雜問題解決中展現(xiàn)出色的能力,以及它們?nèi)绾螢楦鱾€(gè)領(lǐng)域帶來新的可能性。

實(shí)測(cè)案例在文末,一張圖片完成推理定位,抓小三業(yè)務(wù)有了新神器????

概述

OpenAI 推出了 o3 和 o4-mini 兩個(gè)新一代推理模型,可以圖片推理

o3(更聰明)和o4-mini(更輕快)。

它們不僅能看圖、寫代碼、查資料,還能思考問題決定怎么解決問題,特別擅長(zhǎng)邏輯推理和工具組合用法。

模型特性:

目前最好的多模態(tài)推理能力

完整訪問 ChatGPT 所有工具(搜索、代碼、圖像、文件等)

深度任務(wù)思考能力(強(qiáng)化學(xué)習(xí)訓(xùn)練)

專為復(fù)雜問題設(shè)計(jì),響應(yīng)更細(xì)致、格式更合理

具備 Agent-like 智能,可以自主決定用哪些工具解決問題

多模態(tài)對(duì)比

代碼能力對(duì)比

哎,誰能想到,AI的發(fā)展竟然最先被影響的高薪工作是IT工程師。

o3:頂級(jí)推理模型

性能表現(xiàn):

在 Codeforces、SWE-bench、MMMU 等基準(zhǔn)測(cè)試上創(chuàng)下新紀(jì)錄。

相比 o1 模型,重大錯(cuò)誤減少 20%,特別在編程、商業(yè)咨詢、創(chuàng)意生成等任務(wù)中表現(xiàn)卓越。

領(lǐng)域表現(xiàn):

在圖像推理任務(wù)(如圖表、手繪草圖、照片分析)中精度極高。

能像思維伙伴一樣提出并評(píng)估創(chuàng)新假設(shè),尤其擅長(zhǎng)生物學(xué)、數(shù)學(xué)和工程場(chǎng)景。

對(duì)話風(fēng)格更自然:引入記憶引用,能參考上下文和過往聊天,使回答更連貫、個(gè)性化。

o4-mini:輕量高效模型

性價(jià)比極高:

小模型但性能突出,尤其適合大規(guī)模調(diào)用場(chǎng)景。

在 AIME 2025(數(shù)學(xué)競(jìng)賽)中使用 Python 工具后得分達(dá) 99.5%,幾乎滿分。

非STEM任務(wù)能力提升:

比 o3-mini 在數(shù)據(jù)科學(xué)、語言類任務(wù)上表現(xiàn)更好。

適合處理大批量需要推理的請(qǐng)求,如客戶服務(wù)、教育、運(yùn)營(yíng)分析等。

應(yīng)用特點(diǎn)

它們“能看、會(huì)想、懂工具”

1. 能看圖理解內(nèi)容

能識(shí)別圖表、掃描頁、截圖、手繪圖等復(fù)雜圖像。

還可以主動(dòng)放大、旋轉(zhuǎn)、裁剪圖像,作為思考的一部分。

2. 懂得“該用什么工具解決問題”

它們可以自己決定:

要不要搜索?

要不要寫代碼算一算?

要不要畫張圖解釋一下?

實(shí)操案例

問題

分析過程

參考AI內(nèi)容

OpenAI新模型,可以進(jìn)行圖片推理,更智能,可以規(guī)劃

GPT-4.1/4.1 mini/4.1 nano全面超越前代,編程能力大幅提升!?

作者:帥森森,公眾號(hào):帥森森聊AI和職場(chǎng)

本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!