亚洲一级无码毛片在线观看，国产精品开放色视频，国产亚洲免费视频视频观看，久久人妻综合视频，波多野吉衣人妻无码潮喷av，亚洲A∨一区二区影片，香蕉视频精品小姐福利，超碰97青青久久人人澡

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

OpenAI推出o3-mini：對(duì)抗DeepSeek崛起的新利器？

科技旋渦

2025-02-02

0 評(píng)論 1072 瀏覽 0 收藏

11 分鐘

在DeepSeek R1開(kāi)源模型迅速崛起并引發(fā)全球關(guān)注的背景下，OpenAI推出了新的專(zhuān)有AI模型o3-mini，以應(yīng)對(duì)開(kāi)源競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn)。o3-mini作為OpenAI“推理者”系列中的第二款模型，專(zhuān)注于數(shù)學(xué)、科學(xué)和工程等領(lǐng)域的復(fù)雜推理任務(wù)，其性能和成本效益均優(yōu)于之前的o1系列。本文將深入探討o3-mini的特點(diǎn)、性能優(yōu)勢(shì)以及它在與DeepSeek競(jìng)爭(zhēng)中的潛在影響，分析OpenAI如何通過(guò)這款新模型鞏固其在AI領(lǐng)域的領(lǐng)先地位。

為了應(yīng)對(duì)開(kāi)源競(jìng)爭(zhēng)對(duì)手DeepSeek-R1的迅速崛起，OpenAI發(fā)布了新的專(zhuān)有AI模型——o3-mini。然而，這款新模型是否足以削弱DeepSeek的成功，仍然是一個(gè)疑問(wèn)。

今天，OpenAI正式發(fā)布了o3-mini，這是其“推理者”系列中的第二款模型。該系列的模型需要更多時(shí)間進(jìn)行“思考”，分析自己的過(guò)程，并反思自己的“思維鏈”，然后才能回答用戶(hù)的提問(wèn)。最終，這款模型能夠在數(shù)學(xué)、科學(xué)、工程等多個(gè)領(lǐng)域提供類(lèi)似博士生或?qū)W位持有者的解答。

o3-mini現(xiàn)已在ChatGPT和OpenAI的API中提供，包括免費(fèi)的用戶(hù)也可以使用。而且，它的性能比之前的高端模型o1以及其低參數(shù)版本o1-mini更優(yōu)，且價(jià)格更低。

盡管o3-mini發(fā)布的時(shí)機(jī)被認(rèn)為可能是對(duì)DeepSeek-R1的回應(yīng)，但需要指出的是，o3和o3-mini早在2024年12月就已經(jīng)宣布。OpenAI的CEO Sam Altman曾表示，由于開(kāi)發(fā)者和研究人員的反饋，o3將在ChatGPT和OpenAI API上同時(shí)發(fā)布。

與DeepSeek-R1不同，o3-mini并不會(huì)以開(kāi)源形式發(fā)布——這意味著用戶(hù)無(wú)法下載代碼進(jìn)行離線(xiàn)使用，也不能像DeepSeek-R1那樣進(jìn)行高度定制，這可能會(huì)在某些應(yīng)用場(chǎng)景下限制它的吸引力。

OpenAI沒(méi)有提供關(guān)于更大版本o3模型的更多細(xì)節(jié)，這款模型早在2024年12月與o3-mini一同發(fā)布。當(dāng)時(shí)，OpenAI表示o3模型的測(cè)試將會(huì)有幾周的延遲，第三方測(cè)試需要等待一段時(shí)間。

一、性能與特點(diǎn)

類(lèi)似于o1，o3-mini在數(shù)學(xué)、編程和科學(xué)推理方面表現(xiàn)出色。

在使用中等推理難度時(shí)，o3-mini的表現(xiàn)與o1相當(dāng)，但它有以下幾大優(yōu)勢(shì)：

相比o1-mini，響應(yīng)速度提高了24%(例如，o1-mini的響應(yīng)時(shí)間為12.8秒，處理100個(gè)token的輸出。而o3-mini的響應(yīng)時(shí)間將縮短至約10.32秒)。
準(zhǔn)確性提升，外部測(cè)試者更傾向于選擇o3-mini的回答，偏好率達(dá)到56%。
復(fù)雜的現(xiàn)實(shí)問(wèn)題中，錯(cuò)誤率減少了39%。
在編程和STEM任務(wù)中表現(xiàn)優(yōu)異，尤其是在高推理難度時(shí)。
提供三種推理難度級(jí)別(低、中、高)，使得用戶(hù)和開(kāi)發(fā)者可以在準(zhǔn)確性與速度之間找到最佳平衡。

o3-mini的上下文窗口為200,000個(gè)token，每次輸出最多為100,000個(gè)token。這一性能與o1相同，并且優(yōu)于DeepSeek-R1的上下文窗口(約128,000到130,000個(gè)token)。但這一數(shù)字仍然遠(yuǎn)低于Google Gemini 2.0 Flash Thinking的新上下文窗口，后者支持高達(dá)100萬(wàn)個(gè)token。

說(shuō)明：

GPQA Diamond：這是一個(gè)評(píng)估模型在通用問(wèn)題解答能力上的指標(biāo)。
AIME 2022-2024：這是美國(guó)數(shù)學(xué)邀請(qǐng)賽(American Invitational Mathematics Examination)的一個(gè)分?jǐn)?shù)段，用于評(píng)估模型在數(shù)學(xué)推理和解題能力上的表現(xiàn)。
Codeforces ELO：這是編程競(jìng)賽平臺(tái)Codeforces上的一種評(píng)分系統(tǒng)，類(lèi)似于國(guó)際象棋中的Elo評(píng)級(jí)系統(tǒng)，用于評(píng)估模型在編程任務(wù)上的表現(xiàn)。

雖然o3-mini專(zhuān)注于推理，但目前它還不具備視覺(jué)能力。如果開(kāi)發(fā)者和用戶(hù)需要上傳圖片或文件，仍然需要使用o1。

二、競(jìng)爭(zhēng)加劇

o3-mini的發(fā)布標(biāo)志著OpenAI首次向免費(fèi)用戶(hù)提供推理模型。此前，o1系列模型僅限于ChatGPT Plus、Pro等付費(fèi)用戶(hù)使用，或者通過(guò)OpenAI的付費(fèi)API。

通過(guò)2022年11月推出ChatGPT，OpenAI開(kāi)啟了大語(yǔ)言模型(LLM)聊天機(jī)器人的新領(lǐng)域。而在2024年9月，OpenAI推出o1系列模型，正式開(kāi)創(chuàng)了推理模型這一新類(lèi)別，采用了新的訓(xùn)練機(jī)制和架構(gòu)。

然而，OpenAI并沒(méi)有將o1開(kāi)源，這與其名稱(chēng)和最初的創(chuàng)立理念相悖。與之相對(duì)，DeepSeek的R1模型采用了開(kāi)源方式，且完全免費(fèi)，允許全球用戶(hù)自由使用、修改和定制。R1模型的訓(xùn)練成本遠(yuǎn)低于o1和其他頂級(jí)實(shí)驗(yàn)室的模型，因此在消費(fèi)市場(chǎng)和企業(yè)市場(chǎng)中獲得了廣泛應(yīng)用，甚至OpenAI的投資方微軟和Anthropic的支持者亞馬遜也快速將其添加到自己的云市場(chǎng)中。

DeepSeek還推出了免費(fèi)的應(yīng)用和網(wǎng)站，并允許用戶(hù)對(duì)R1模型進(jìn)行修改和定制，這使得它在消費(fèi)者和企業(yè)市場(chǎng)迅速崛起。DeepSeek的這種開(kāi)源政策以及低成本訓(xùn)練，使其成為了一個(gè)強(qiáng)有力的競(jìng)爭(zhēng)者。

三、ChatGPT中的可用性

o3現(xiàn)在在全球范圍內(nèi)推向ChatGPT Free、Plus、Team和Pro用戶(hù)，Enterprise和Education版本將在下周推出。

免費(fèi)用戶(hù)可以通過(guò)選擇聊天欄中的“reason(推理)”按鈕或重新生成回答來(lái)首次體驗(yàn)o3-mini。

Plus和Team用戶(hù)的消息限制提高了3倍，從每天50條增加到150條。

Pro用戶(hù)將能夠無(wú)限制使用o3-mini以及一個(gè)新的更高推理版本——o3-mini-high。

此外，o3-mini現(xiàn)在支持與搜索功能的集成，用戶(hù)將能夠獲得包含相關(guān)網(wǎng)頁(yè)鏈接的回答。這個(gè)功能仍處于初期階段，OpenAI正在不斷改進(jìn)推理模型中的搜索能力。

四、API集成與定價(jià)

對(duì)于開(kāi)發(fā)者，o3-mini已通過(guò)Chat Completions API、Assistants API和Batch API提供。該模型支持功能調(diào)用、結(jié)構(gòu)化輸出和開(kāi)發(fā)者消息，便于開(kāi)發(fā)者將其集成到實(shí)際應(yīng)用中。

o3-mini的最大優(yōu)勢(shì)之一是其成本效益：它比o1-mini便宜63%，比完整的o1模型便宜93%，每百萬(wàn)token的進(jìn)出費(fèi)用分別為1.10美元/4.40美元(享有50%的緩存折扣)。

盡管如此，DeepSeek的R1模型的API價(jià)格仍然更具優(yōu)勢(shì)，僅為0.14美元/0.55美元每百萬(wàn)token進(jìn)出。但考慮到DeepSeek總部位于中國(guó)，涉及到一些國(guó)外老生常談的“用戶(hù)數(shù)據(jù)流動(dòng)的安全與地緣政治問(wèn)題”，OpenAI可能仍將是美國(guó)和歐洲一些注重安全的客戶(hù)和企業(yè)的首選。

開(kāi)發(fā)者可以根據(jù)應(yīng)用需求調(diào)整推理難度(低、中、高)，以控制延遲和準(zhǔn)確性之間的平衡。

五、安全性與隱私保護(hù)

OpenAI表示，在o3-mini中采用了“深思熟慮對(duì)齊”的方法。這意味著模型會(huì)思考并理解人類(lèi)編寫(xiě)的安全指南，理解這些指南的意圖和預(yù)防的危害，并且會(huì)提出自己的方法確保這些危害得到有效避免。OpenAI表示，這樣可以使模型在討論敏感話(huà)題時(shí)更加寬容，同時(shí)保持高安全性。

OpenAI稱(chēng)，o3-mini在處理安全性和越獄挑戰(zhàn)時(shí)，優(yōu)于GPT-4o。該模型在發(fā)布前進(jìn)行了廣泛的安全性測(cè)試。

最近有一些國(guó)外的第三方報(bào)道指出，DeepSeek的R1模型在50次越獄測(cè)試中“全部失敗”，這將使得一些國(guó)外媒體宣傳o3-mini在需要高安全性的場(chǎng)合更具優(yōu)勢(shì)。

六、未來(lái)展望

o3-mini的發(fā)布標(biāo)志著OpenAI進(jìn)一步努力讓先進(jìn)的推理AI變得更加普及和高效，特別是在DeepSeek R1等競(jìng)爭(zhēng)者的壓力下。Google也在推出其競(jìng)爭(zhēng)性推理模型Gemini 2 Flash Thinking，并擴(kuò)展了輸入上下文，支持高達(dá)100萬(wàn)個(gè)tokens。

OpenAI聚焦于STEM推理和成本效益，旨在擴(kuò)大AI驅(qū)動(dòng)的解決方案在消費(fèi)者和開(kāi)發(fā)者中的應(yīng)用。

然而，隨著OpenAI不斷擴(kuò)展雄心，最近宣布的一個(gè)由軟銀支持的5000億美元數(shù)據(jù)中心基礎(chǔ)設(shè)施項(xiàng)目Stargate，問(wèn)題仍然存在：它的戰(zhàn)略是否足以讓這些巨額投資獲得回報(bào)?隨著開(kāi)源模型不斷接近OpenAI的性能并在成本上超越它，OpenAI是否能憑借其安全性、強(qiáng)大的能力、易用的API和用戶(hù)友好的界面維持現(xiàn)有客戶(hù)，特別是在企業(yè)市場(chǎng)上?我們將繼續(xù)關(guān)注這些發(fā)展。

作者｜科技旋渦編輯部

本文由人人都是產(chǎn)品經(jīng)理作者【科技旋渦】，微信公眾號(hào)：【科技旋渦】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App