深度思考2025大模型的發(fā)展方向
2025年,大模型技術(shù)的發(fā)展日新月異,成為人工智能領(lǐng)域的重要推動力。OpenAI、字節(jié)跳動、騰訊等科技巨頭紛紛推出新的模型更新,推動了視覺推理、多模態(tài)融合、工具調(diào)用等關(guān)鍵領(lǐng)域的進(jìn)步。本文將深入分析這些大模型的最新動態(tài),探討其迭代邏輯以及對AI應(yīng)用的潛在影響,為關(guān)注大模型發(fā)展的專業(yè)人士提供有價值的洞察。
作為一個AI應(yīng)用的從業(yè)人員,過去幾個月,三白一直都在尋找一個答案,今年大模型的發(fā)展方向會是什么樣的,大模型新的突破方向和亮點(diǎn)會是什么?最近幾天整個行業(yè)層出不窮的大模型更新,包括OpenAI、字節(jié)、騰訊等,讓我找到了一些頭緒,所以今天這篇文章就主要分享一下我認(rèn)為比較重要的幾個大模型更新的內(nèi)容,以及分享一下目前我觀測到的關(guān)于大模型發(fā)展方向的一些階段思考。
01 大模型重點(diǎn)動態(tài)概覽
OpenAI:先后發(fā)布O3和O4-mini視覺推理模型、GPT4.1模型、升級版GPT4o;
字節(jié):4月16日發(fā)布 豆包深度思考1.5推理模型、豆包文生圖3.0、豆包視覺理解模型、GUI Agent大模型、OS Agent解決方案,詳細(xì)參考豆包1.5·深度思考模型發(fā)布一文;
騰訊:公開論文實(shí)現(xiàn)長鏈路視覺推理模型、3D生成模型、視頻生成模型、數(shù)字人模型、圖像編輯模型,詳細(xì)參考騰訊混元2025CVPR論文全解讀:6篇論文速通大模型前沿
接下來我重點(diǎn)解析一下這三家比較有代表性的大模型廠商最近更新的大模型能力細(xì)節(jié),幫助大家快速理解都更新了些什么,以及各自背后大模型更新迭代的邏輯是什么樣的,對于AI應(yīng)用方面又會有哪些影響。
02 OpenAI大模型更新動態(tài)和迭代邏輯
1.發(fā)布O3和O4-mini模型
4月16日,OpenAI發(fā)布的O3和O4-mini的更新細(xì)節(jié)主要包括如下幾點(diǎn):
- 作為第一代視覺推理模型,能夠在思維鏈中使用圖像理解的能力,一邊看圖一邊思考和推理;
- 具備圖像處理能力,能夠?qū)D像旋轉(zhuǎn)、裁剪、放大,從而更加準(zhǔn)確的理解和獲取圖像的內(nèi)容,即使很細(xì)小的信息,也能夠被分析到;
- 具備工具調(diào)用的能力:OpenAI通過強(qiáng)化學(xué)習(xí)訓(xùn)練了這兩個模型使用工具——不僅教會它們?nèi)绾问褂霉ぞ?,還教會它們推理何時使用工具
2.發(fā)布GPT4.1模型,僅提供API,不上架ChatGPT
4月14日,OpenAI發(fā)布GPT4.1模型,該模型為基礎(chǔ)模型,本次的更新也沒有特別多,主要是一些基礎(chǔ)能力的強(qiáng)化,包括:
- 編碼能力提升;
- 指令遵循能力提升:更加準(zhǔn)確并且嚴(yán)格遵循提示詞的要求生成;
- 支持上下文長度支持100萬token;
- 它們的知識截止日期已更新至 2024 年 6 月。
3.升級GPT4o多模態(tài)大模型
3月25日,OpenAI推出升級版GPT4o多模態(tài)大模型,進(jìn)一步增強(qiáng)了模型的能力,更新內(nèi)容包括:
1. GPT-4o首次將文本、圖像、語音生成能力整合至統(tǒng)一神經(jīng)網(wǎng)絡(luò)框架,形成一個綜合文本、圖像語音一體的多模態(tài)模型,能直接端到端的理解和輸出多種模態(tài)內(nèi)容;
2. 在生圖這個領(lǐng)域,相比之前的DALL·E模型,差異包括生成圖像的時候具備直接理解上下文,不需要通過基礎(chǔ)模型輔助,原來的DALL·E等圖像生成模型,用戶需要提供非常精確的提示詞才能讓模型準(zhǔn)確的生成相關(guān)的視覺內(nèi)容,并且生成模型不具備記憶能力,單次生成之后,繼續(xù)提指令需求的時候,模型生成的結(jié)果可能跟原來的沒有關(guān)系,而多模態(tài)的模型可以解決這個問題,真正意義的實(shí)現(xiàn)通過對話的方式生成、編輯圖片;
3.圖像生成性能優(yōu)化,包括如下:
- 精準(zhǔn)文字渲染:復(fù)雜設(shè)計素材(如Logo、菜單)的文字排版準(zhǔn)確率超95%,支持中文等多語言,也就是說,4o也支持了類似豆包的文字海報生成的功能; ?
- 視覺一致性:通過聯(lián)合表征學(xué)習(xí)和上下文感知技術(shù),確保多輪對話中圖像風(fēng)格統(tǒng)一。
- 生成速度:4K圖像生成耗時約30秒,較前代縮短50%。
OpenAI的模型迭代總結(jié)
- 在推理模型上,支持視覺推理,這個是OpenAI這次模型更新最大的亮點(diǎn),也是最技驚四座的能力;
- 在基礎(chǔ)模型上,重點(diǎn)優(yōu)化模型以編碼為主的邏輯推理能力、上下文長度、嚴(yán)格按照指令生成的能力,這些都還是模型基礎(chǔ)能力的進(jìn)一步提升;
- 在多模態(tài)模型上,把文本、語音、圖像融合在一起,支持更多的模態(tài),在圖像生成領(lǐng)域支持更加精細(xì)準(zhǔn)確、高清的內(nèi)容生成,以及解決生圖場景中上下文遺失的問題。
03 字節(jié)豆包大模型更新動態(tài)和迭代邏輯
4月17日,字節(jié)公布了近期更新的幾個模型,因?yàn)楦聝?nèi)容比較豐富且技術(shù)含量很大,值得重點(diǎn)關(guān)注一下,具體內(nèi)容如下:
1.發(fā)布豆包1.5·深度思考模型:成本低、視覺推理
- 采用 MoE 架構(gòu),總參數(shù)為200B,激活參數(shù)僅20B,具備顯著的訓(xùn)練和推理成本優(yōu)勢?;诟咝惴ǎ拱?.5·深度思考模型在提供行業(yè)極高并發(fā)承載能力的同時,實(shí)現(xiàn)20毫秒極低延遲。
- 豆包1.5·深度思考模型支持邊想邊搜,還具備視覺理解能力,也是一個視覺推理模型;
2.發(fā)布豆包·文生圖模型3.0
- 能夠?qū)崿F(xiàn)更好的文字排版表現(xiàn)、實(shí)拍級的圖像生成效果,以及2K 的高清圖片生成方式。
- 可以廣泛應(yīng)用于影視、海報、繪畫、玩偶設(shè)計等營銷、電商、設(shè)計場景。
3.視覺理解模型:支持更精細(xì)的圖像理解和視頻理解能力
- 豆包·視覺理解模型具備更強(qiáng)的視覺定位能力,支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位,并支持定位計數(shù)、描述定位內(nèi)容、3D 定位??蓱?yīng)用于線下門店的巡檢場景、GUI agent、機(jī)器人訓(xùn)練、自動駕駛訓(xùn)練等。意味著豆包支持更加精細(xì)目標(biāo)的定位,支持多個目標(biāo)的定位,意味著可以精準(zhǔn)的識別和理解更精細(xì)的內(nèi)容;
- 新版本在視頻理解能力上也有大幅提升,比如記憶、總結(jié)理解、速度感知、長視頻理解等。豆包·視覺理解模型結(jié)合向量搜索,可直接對視頻進(jìn)行語義搜索,廣泛適用于安防、家庭看護(hù)等商業(yè)化場景。
4.OS Agent解決方案:支持computer use和Agent調(diào)用能力
發(fā)布一套實(shí)現(xiàn)computer USE和Agent調(diào)用的解決方案,能夠支持操作系統(tǒng)級別的Agent,OS Agent 則擁有跨場景的通用性和靈活性,能夠直接操作瀏覽器、電腦、手機(jī)或其他 Agent,完成復(fù)雜任務(wù),未來兩周將陸續(xù)上線火山引擎官網(wǎng);
5.GUI Agent 大模型——豆包1.5·UI-TARS 模型
OS Agent解決方案底層的大模型是采用豆包1.5-UI-TRAS模型,基于這個模型可以實(shí)現(xiàn)OS Agent的應(yīng)用效果; 該模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在單一模型中,突破了傳統(tǒng)自動化工具依賴預(yù)設(shè)規(guī)則的局限。目前,豆包1.5·UI-TARS 模型已在火山方舟平臺上線。
字節(jié)豆包大模型模型迭代邏輯總結(jié)
從前面這些模型的更新上可以看到,目前字節(jié)大模型更新迭代的方向上,存在如下幾個特點(diǎn):
1)在基礎(chǔ)模型方向,主推深度推理模型,主打的亮點(diǎn)是訓(xùn)練和推理的成本更低,時延更快;
2)在視覺模型方向,主要的迭代方向包括如下幾點(diǎn):
- 支持視覺推理能力:從文本推理領(lǐng)域,開始拓展到視覺推理領(lǐng)域;
- 支持更強(qiáng)大的視覺理解能力:包括支持更加精細(xì)的圖像理解和定位能力,以及支持視頻理解能力;
3)在應(yīng)用模型方面,主要迭代包括:
- 基于強(qiáng)大的視覺理解、視覺推理的能力,推出了豆包1.5-UI-TRAS模型,能夠支持在電腦和手機(jī)操作系統(tǒng)入口,實(shí)時的獲取設(shè)備屏幕內(nèi)容并用于AI應(yīng)用;
- 基于豆包1.5-UI-TRAS模型,再加上瀏覽器、電腦、手機(jī)或 Agent調(diào)用的能力,提供一套實(shí)現(xiàn)類似Manus的產(chǎn)品,并且在操作系統(tǒng)入口完整自動化任務(wù)應(yīng)用的解決方案,也就是OS Agent解決方案;
從豆包大模型的更新看豆包未來應(yīng)用的更新方向
1)基于豆包深度思考模型,未來豆包的應(yīng)用迭代方向包括
- 支持更強(qiáng)大的DeepSearch(深度搜索)和DeepReSearch(深度研究)應(yīng)用;
- 基于視覺推理模型,未來可以支持更多依賴圖像分析的應(yīng)用,比如醫(yī)療影像分析、圖文數(shù)據(jù)分析、圖像比對、圖像定位、等應(yīng)用;
2)基于圖像和視頻理解模型能力,未來應(yīng)用迭代的反向包括:
- 更精準(zhǔn)、更精細(xì)的圖片編輯能力:比如針對一些元素復(fù)雜的圖片,可以精確的識別到很細(xì)小的元素,并對該元素做定向編輯;
- 支持實(shí)時環(huán)境信息、人物情緒的分析;
3)OS Agent解決方案和豆包1.5-UI-TRAS模型,實(shí)現(xiàn)類似Manus類產(chǎn)品支持工具和API自動調(diào)用的應(yīng)用;或者是支持在電腦、手機(jī)等操作系統(tǒng)級別,支持實(shí)時獲取屏幕內(nèi)容并用于AI應(yīng)用,甚至是支持自動操作操作系統(tǒng)設(shè)備,完成自動化任務(wù)的應(yīng)用,這個將在電商、辦公、生活等應(yīng)用場景會有很好的應(yīng)用結(jié)合場景;
04 騰訊混元大模型更新動態(tài)和迭代邏輯
4月15日,騰訊對外公開了6篇關(guān)于騰訊混元大模型相關(guān)的論文,揭示其大模型最新的進(jìn)展,具體如下:
發(fā)布大模型論文,揭示混元大模型最近的動態(tài)更新:
- 長鏈路視覺推理模型:解決復(fù)雜的多模態(tài)任務(wù)場景的問題
- 3D生成模型:支持精細(xì)細(xì)節(jié)的捕捉和生成;
- 視頻生成模型:根據(jù)參考視頻中的人體動作,生成動作一致的視頻;可以用于表情包生成等場景;
- 數(shù)字人模型:根據(jù)音頻和參考圖片,對數(shù)字人的口型;
- 圖像編輯模型:支持更細(xì)粒度的圖像編輯能力;
對騰訊應(yīng)用更新方向的思考
- 基于視覺推理模型,未來可以支持更多依賴圖像分析的應(yīng)用;
- 圖像AI編輯,可能也是接下來的應(yīng)用結(jié)合方向;
- 支持基于參考視頻生成相似視頻場景應(yīng)用,以及基于語音和文字,生成對口型的數(shù)字人視頻;
05 從各個大模型廠商迭代的角度,總結(jié)大模型的迭代方向
在推理模型方面,目前整個行業(yè)的迭代方向都是聚焦在視覺推理模型領(lǐng)域
不管是OpenAI的O3,字節(jié)豆包1.5深度思考模型,騰訊混元推理模型,都不約而同的朝著視覺推理模型這個方向發(fā)展,支持在思維鏈中使用圖像理解的能力,邊看圖像邊思考;
強(qiáng)化模型的工具調(diào)用能力
其中,O3通過強(qiáng)化學(xué)習(xí)訓(xùn)練了最新模型使用工具的能力,不僅教會它們?nèi)绾问褂霉ぞ?,還教會它們推理何時使用工具;字節(jié)豆包1.5深度思考模型,也增強(qiáng)了computer use和Agent調(diào)用的能力;
視覺理解方面,支持更加精細(xì)的內(nèi)容識別和視頻理解能力
一方面,O3模型、豆包視覺理解模型、騰訊混元生圖模型都陸續(xù)支持更加細(xì)小粒度的視覺內(nèi)容的識別能力;另一方面,視頻理解也是新的迭代方向之一;
圖像生成模型方面,支持上下文理解、更精準(zhǔn)的文字排版能力、更精細(xì)細(xì)節(jié)的捕捉和生成
06 應(yīng)用層的一些機(jī)會思考
- 依賴視覺推理的應(yīng)用場景,將獲得更好的能力提升,包括深度搜索、深度研究、影像分析、視頻聊天、在線教育、AI硬件等;
- 更多的應(yīng)用將支持工具調(diào)用、computer use和Agent調(diào)用的能力,Manus類型的應(yīng)用將越來越多;
- 依賴更精細(xì)和細(xì)小的視覺識別和理解的應(yīng)用場景,將得到更好的滿足;
- AI生圖和AI編輯能力,將能夠有更好的產(chǎn)品體驗(yàn),可以支持到更加精細(xì)的元素編輯,以及元素生成的能力,比如細(xì)小的字體,紐扣級別元素等;
OK,以上分享一下最近三白關(guān)注的AI大模型領(lǐng)域的信息,以及個人的一些隨筆思考,希望對于研究和關(guān)注大模型領(lǐng)域的朋友有些幫助。
作者:三白有話說,公眾號:三白有話說
本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!