OpenAI新模型實操評測來啦!GPT-4.1/4.1 mini/4.1 nano全面超越前代,編程能力大幅提升!?
OpenAI近期發(fā)布了三款新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,這些模型在多個關(guān)鍵能力上全面超越了前代產(chǎn)品,特別是在編程能力、指令遵循和長上下文處理方面表現(xiàn)出色。本文將對這些新模型進行實操評測,分析其性能提升的具體表現(xiàn),并探討這些改進對實際應(yīng)用場景的意義。
OpenAI發(fā)布會重點:
- 發(fā)布了三款新模型:GPT?4.1、GPT?4.1 mini 和 GPT?4.1 nano。
- 模型在各方面均優(yōu)于 GPT?4o 和 GPT?4o mini
- 100 萬個 token上下文窗口,更強的長上下文理解能力。
- 模型知識截止日期更新至 2024 年 6 月。
- 能力提升要點:編程、指令遵循、長上下文處理能力
- 以API 的形式發(fā)布這三個新模型
- GPT-4.5 Preview 將于 2025 年 7 月 14 日停用
筆者思考:
本次發(fā)布內(nèi)容沒有和最近剛出的Gemini 2.5pro進行對比是一個遺憾,之前有發(fā)過Gemini 2.5pro文章,在本文下面有鏈接,對AI感興趣的可以文末看一下。
GPT?4.1 在以下行業(yè)標準評估中表現(xiàn)出色:
編程能力:
在 SWE-bench Verified 評測中,GPT?4.1 取得了 54.6% 的得分,比 GPT?4o 提高了 21.4 個百分點,比 GPT?4.5 提高了 26.6 個百分點,成為目前領(lǐng)先的代碼生成模型。
指令理解能力:
在 Scale 推出的 MultiChallenge 基準測試(衡量模型指令執(zhí)行能力)中,GPT?4.1 取得了 38.3% 的成績,比 GPT?4o 提高了 10.5 個百分點。
長文本理解能力:
在 Video-MME 基準測試中(該評測專注于多模態(tài)長文本理解),GPT?4.1 在“長視頻、無字幕”類別中取得了 72.0% 的成績,刷新了業(yè)界最高紀錄,比 GPT?4o 提升了 6.7 個百分點。
多模態(tài)能力:
GPT-4.1 系列在圖像理解方面非常強大,尤其是 GPT-4.1 mini 代表了重大的飛躍,在圖像基準測試中經(jīng)常擊敗 GPT-4o。
看上圖筆者個人推測:出于指標之間的變化情況思索,本次是性能的優(yōu)化,能力方面沒有突出點,GPT-4o進行工程推理優(yōu)化變身為GPT-4.1mini,然后GPT-4o經(jīng)過特定調(diào)優(yōu),能力稍有提升就是GPT-4.1。
編程能力對比
在 SWE-bench Verified 評估中,模型會獲得一個代碼倉庫和一個問題描述,并需生成一個修復(fù)補丁來解決該問題。模型表現(xiàn)高度依賴于所使用的提示詞和工具。為便于復(fù)現(xiàn)和理解我們的結(jié)果,我們在此描述了 GPT-4.1 的設(shè)置。我們的得分中排除了 500 個問題中的 23 個,因為這些問題的解決方案無法在我們的基礎(chǔ)設(shè)施上運行;如果保守地將這些題目計為 0 分,總得分將從 54.6% 降為 52.1%。
超長上下文處理能力
支持最多 100 萬個 token 的上下文處理能力。這對于需要長對話、記憶能力或深入文檔處理的應(yīng)用來說,是一次重大飛躍。而且,它對這些超長上下文的利用效率也更高了。
實例展示
最后,以下是 GPT-4.1 在真實世界中的一個應(yīng)用示例:提示詞如下:
制作一個**抽認卡(Flashcard)網(wǎng)頁應(yīng)用程序**。用戶應(yīng)能夠執(zhí)行以下操作:
– 創(chuàng)建抽認卡
– 在已有抽認卡中進行搜索
– 復(fù)習(xí)抽認卡
– 查看已復(fù)習(xí)抽認卡的統(tǒng)計數(shù)據(jù)
系統(tǒng)應(yīng)**預(yù)加載十張抽認卡**,每張包含一個印地語單詞或短語及其英文翻譯。
### 復(fù)習(xí)界面(Review Interface):
– 在復(fù)習(xí)模式下,點擊抽認卡或按下空格鍵,應(yīng)該以**平滑的 3D 翻轉(zhuǎn)動畫**顯示卡片背面的翻譯內(nèi)容。
– 按左右方向鍵可以切換瀏覽不同的卡片。
### 搜索界面(Search Interface):
– 搜索欄應(yīng)具有**動態(tài)聯(lián)想功能**,用戶輸入查詢詞時,系統(tǒng)實時顯示匹配結(jié)果列表。
### 統(tǒng)計界面(Statistics Interface):
– 統(tǒng)計頁面應(yīng)顯示一張**圖表**,展示用戶已復(fù)習(xí)卡片的數(shù)量,以及答對的百分比。
### 創(chuàng)建卡片界面(Create Cards Interface):
– 用戶可在該頁面中**自定義抽認卡正反兩面內(nèi)容**,并添加到自己的卡片集合中。
每個界面都應(yīng)能通過**側(cè)邊欄導(dǎo)航**進入。
最終應(yīng)生成一個**單頁 React 應(yīng)用程序(Single Page App)**,并將所有樣式寫為**內(nèi)聯(lián)樣式(inline styles)**。
作者:帥森森,公眾號:帥森森聊AI和職場
本文由 @帥森森 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)
- 目前還沒評論,等你發(fā)揮!