OpenAI推出o3-mini:對(duì)抗DeepSeek崛起的新利器?

0 評(píng)論 1072 瀏覽 0 收藏 11 分鐘

在DeepSeek R1開(kāi)源模型迅速崛起并引發(fā)全球關(guān)注的背景下,OpenAI推出了新的專(zhuān)有AI模型o3-mini,以應(yīng)對(duì)開(kāi)源競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn)。o3-mini作為OpenAI“推理者”系列中的第二款模型,專(zhuān)注于數(shù)學(xué)、科學(xué)和工程等領(lǐng)域的復(fù)雜推理任務(wù),其性能和成本效益均優(yōu)于之前的o1系列。本文將深入探討o3-mini的特點(diǎn)、性能優(yōu)勢(shì)以及它在與DeepSeek競(jìng)爭(zhēng)中的潛在影響,分析OpenAI如何通過(guò)這款新模型鞏固其在AI領(lǐng)域的領(lǐng)先地位。

為了應(yīng)對(duì)開(kāi)源競(jìng)爭(zhēng)對(duì)手DeepSeek-R1的迅速崛起,OpenAI發(fā)布了新的專(zhuān)有AI模型——o3-mini。然而,這款新模型是否足以削弱DeepSeek的成功,仍然是一個(gè)疑問(wèn)。

今天,OpenAI正式發(fā)布了o3-mini,這是其“推理者”系列中的第二款模型。該系列的模型需要更多時(shí)間進(jìn)行“思考”,分析自己的過(guò)程,并反思自己的“思維鏈”,然后才能回答用戶(hù)的提問(wèn)。最終,這款模型能夠在數(shù)學(xué)、科學(xué)、工程等多個(gè)領(lǐng)域提供類(lèi)似博士生或?qū)W位持有者的解答。

o3-mini現(xiàn)已在ChatGPT和OpenAI的API中提供,包括免費(fèi)的用戶(hù)也可以使用。而且,它的性能比之前的高端模型o1以及其低參數(shù)版本o1-mini更優(yōu),且價(jià)格更低。

盡管o3-mini發(fā)布的時(shí)機(jī)被認(rèn)為可能是對(duì)DeepSeek-R1的回應(yīng),但需要指出的是,o3和o3-mini早在2024年12月就已經(jīng)宣布。OpenAI的CEO Sam Altman曾表示,由于開(kāi)發(fā)者和研究人員的反饋,o3將在ChatGPT和OpenAI API上同時(shí)發(fā)布。

與DeepSeek-R1不同,o3-mini并不會(huì)以開(kāi)源形式發(fā)布——這意味著用戶(hù)無(wú)法下載代碼進(jìn)行離線(xiàn)使用,也不能像DeepSeek-R1那樣進(jìn)行高度定制,這可能會(huì)在某些應(yīng)用場(chǎng)景下限制它的吸引力。

OpenAI沒(méi)有提供關(guān)于更大版本o3模型的更多細(xì)節(jié),這款模型早在2024年12月與o3-mini一同發(fā)布。當(dāng)時(shí),OpenAI表示o3模型的測(cè)試將會(huì)有幾周的延遲,第三方測(cè)試需要等待一段時(shí)間。

一、性能與特點(diǎn)

類(lèi)似于o1,o3-mini在數(shù)學(xué)、編程和科學(xué)推理方面表現(xiàn)出色。

在使用中等推理難度時(shí),o3-mini的表現(xiàn)與o1相當(dāng),但它有以下幾大優(yōu)勢(shì):

  • 相比o1-mini,響應(yīng)速度提高了24%(例如,o1-mini的響應(yīng)時(shí)間為12.8秒,處理100個(gè)token的輸出。而o3-mini的響應(yīng)時(shí)間將縮短至約10.32秒)。
  • 準(zhǔn)確性提升,外部測(cè)試者更傾向于選擇o3-mini的回答,偏好率達(dá)到56%。
  • 復(fù)雜的現(xiàn)實(shí)問(wèn)題中,錯(cuò)誤率減少了39%。
  • 在編程和STEM任務(wù)中表現(xiàn)優(yōu)異,尤其是在高推理難度時(shí)。
  • 提供三種推理難度級(jí)別(低、中、高),使得用戶(hù)和開(kāi)發(fā)者可以在準(zhǔn)確性與速度之間找到最佳平衡。

o3-mini的上下文窗口為200,000個(gè)token,每次輸出最多為100,000個(gè)token。這一性能與o1相同,并且優(yōu)于DeepSeek-R1的上下文窗口(約128,000到130,000個(gè)token)。但這一數(shù)字仍然遠(yuǎn)低于Google Gemini 2.0 Flash Thinking的新上下文窗口,后者支持高達(dá)100萬(wàn)個(gè)token。

說(shuō)明:

  • GPQA Diamond:這是一個(gè)評(píng)估模型在通用問(wèn)題解答能力上的指標(biāo)。
  • AIME 2022-2024:這是美國(guó)數(shù)學(xué)邀請(qǐng)賽(American Invitational Mathematics Examination)的一個(gè)分?jǐn)?shù)段,用于評(píng)估模型在數(shù)學(xué)推理和解題能力上的表現(xiàn)。
  • Codeforces ELO:這是編程競(jìng)賽平臺(tái)Codeforces上的一種評(píng)分系統(tǒng),類(lèi)似于國(guó)際象棋中的Elo評(píng)級(jí)系統(tǒng),用于評(píng)估模型在編程任務(wù)上的表現(xiàn)。

雖然o3-mini專(zhuān)注于推理,但目前它還不具備視覺(jué)能力。如果開(kāi)發(fā)者和用戶(hù)需要上傳圖片或文件,仍然需要使用o1。

二、競(jìng)爭(zhēng)加劇

o3-mini的發(fā)布標(biāo)志著OpenAI首次向免費(fèi)用戶(hù)提供推理模型。此前,o1系列模型僅限于ChatGPT Plus、Pro等付費(fèi)用戶(hù)使用,或者通過(guò)OpenAI的付費(fèi)API。

通過(guò)2022年11月推出ChatGPT,OpenAI開(kāi)啟了大語(yǔ)言模型(LLM)聊天機(jī)器人的新領(lǐng)域。而在2024年9月,OpenAI推出o1系列模型,正式開(kāi)創(chuàng)了推理模型這一新類(lèi)別,采用了新的訓(xùn)練機(jī)制和架構(gòu)。

然而,OpenAI并沒(méi)有將o1開(kāi)源,這與其名稱(chēng)和最初的創(chuàng)立理念相悖。與之相對(duì),DeepSeek的R1模型采用了開(kāi)源方式,且完全免費(fèi),允許全球用戶(hù)自由使用、修改和定制。R1模型的訓(xùn)練成本遠(yuǎn)低于o1和其他頂級(jí)實(shí)驗(yàn)室的模型,因此在消費(fèi)市場(chǎng)和企業(yè)市場(chǎng)中獲得了廣泛應(yīng)用,甚至OpenAI的投資方微軟和Anthropic的支持者亞馬遜也快速將其添加到自己的云市場(chǎng)中。

DeepSeek還推出了免費(fèi)的應(yīng)用和網(wǎng)站,并允許用戶(hù)對(duì)R1模型進(jìn)行修改和定制,這使得它在消費(fèi)者和企業(yè)市場(chǎng)迅速崛起。DeepSeek的這種開(kāi)源政策以及低成本訓(xùn)練,使其成為了一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)者。

三、ChatGPT中的可用性

o3現(xiàn)在在全球范圍內(nèi)推向ChatGPT Free、Plus、Team和Pro用戶(hù),Enterprise和Education版本將在下周推出。

免費(fèi)用戶(hù)可以通過(guò)選擇聊天欄中的“reason(推理)”按鈕或重新生成回答來(lái)首次體驗(yàn)o3-mini。

Plus和Team用戶(hù)的消息限制提高了3倍,從每天50條增加到150條。

Pro用戶(hù)將能夠無(wú)限制使用o3-mini以及一個(gè)新的更高推理版本——o3-mini-high。

此外,o3-mini現(xiàn)在支持與搜索功能的集成,用戶(hù)將能夠獲得包含相關(guān)網(wǎng)頁(yè)鏈接的回答。這個(gè)功能仍處于初期階段,OpenAI正在不斷改進(jìn)推理模型中的搜索能力。

四、API集成與定價(jià)

對(duì)于開(kāi)發(fā)者,o3-mini已通過(guò)Chat Completions API、Assistants API和Batch API提供。該模型支持功能調(diào)用、結(jié)構(gòu)化輸出和開(kāi)發(fā)者消息,便于開(kāi)發(fā)者將其集成到實(shí)際應(yīng)用中。

o3-mini的最大優(yōu)勢(shì)之一是其成本效益:它比o1-mini便宜63%,比完整的o1模型便宜93%,每百萬(wàn)token的進(jìn)出費(fèi)用分別為1.10美元/4.40美元(享有50%的緩存折扣)。

盡管如此,DeepSeek的R1模型的API價(jià)格仍然更具優(yōu)勢(shì),僅為0.14美元/0.55美元每百萬(wàn)token進(jìn)出。但考慮到DeepSeek總部位于中國(guó),涉及到一些國(guó)外老生常談的“用戶(hù)數(shù)據(jù)流動(dòng)的安全與地緣政治問(wèn)題”,OpenAI可能仍將是美國(guó)和歐洲一些注重安全的客戶(hù)和企業(yè)的首選。

開(kāi)發(fā)者可以根據(jù)應(yīng)用需求調(diào)整推理難度(低、中、高),以控制延遲和準(zhǔn)確性之間的平衡。

五、安全性與隱私保護(hù)

OpenAI表示,在o3-mini中采用了“深思熟慮對(duì)齊”的方法。這意味著模型會(huì)思考并理解人類(lèi)編寫(xiě)的安全指南,理解這些指南的意圖和預(yù)防的危害,并且會(huì)提出自己的方法確保這些危害得到有效避免。OpenAI表示,這樣可以使模型在討論敏感話(huà)題時(shí)更加寬容,同時(shí)保持高安全性。

OpenAI稱(chēng),o3-mini在處理安全性和越獄挑戰(zhàn)時(shí),優(yōu)于GPT-4o。該模型在發(fā)布前進(jìn)行了廣泛的安全性測(cè)試。

最近有一些國(guó)外的第三方報(bào)道指出,DeepSeek的R1模型在50次越獄測(cè)試中“全部失敗”,這將使得一些國(guó)外媒體宣傳o3-mini在需要高安全性的場(chǎng)合更具優(yōu)勢(shì)。

六、未來(lái)展望

o3-mini的發(fā)布標(biāo)志著OpenAI進(jìn)一步努力讓先進(jìn)的推理AI變得更加普及和高效,特別是在DeepSeek R1等競(jìng)爭(zhēng)者的壓力下。Google也在推出其競(jìng)爭(zhēng)性推理模型Gemini 2 Flash Thinking,并擴(kuò)展了輸入上下文,支持高達(dá)100萬(wàn)個(gè)tokens。

OpenAI聚焦于STEM推理和成本效益,旨在擴(kuò)大AI驅(qū)動(dòng)的解決方案在消費(fèi)者和開(kāi)發(fā)者中的應(yīng)用。

然而,隨著OpenAI不斷擴(kuò)展雄心,最近宣布的一個(gè)由軟銀支持的5000億美元數(shù)據(jù)中心基礎(chǔ)設(shè)施項(xiàng)目Stargate,問(wèn)題仍然存在:它的戰(zhàn)略是否足以讓這些巨額投資獲得回報(bào)?隨著開(kāi)源模型不斷接近OpenAI的性能并在成本上超越它,OpenAI是否能憑借其安全性、強(qiáng)大的能力、易用的API和用戶(hù)友好的界面維持現(xiàn)有客戶(hù),特別是在企業(yè)市場(chǎng)上?我們將繼續(xù)關(guān)注這些發(fā)展。

作者|科技旋渦編輯部

本文由人人都是產(chǎn)品經(jīng)理作者【科技旋渦】,微信公眾號(hào):【科技旋渦】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
2021亚洲中文字幕在线第99,日韩一级无码国产精品,日韩精品无码一级毛片免费丿,免费在线观看毛片黄片