后Transformer時(shí)代,AI將何去何從?(下)|【十萬字】深度研報(bào)

0 評(píng)論 1428 瀏覽 6 收藏 197 分鐘

在人工智能的浪潮中,Transformer模型以其革命性的影響力改變了AI的發(fā)展軌跡。但隨著技術(shù)的進(jìn)步,我們正站在后Transformer時(shí)代的門檻上,探索AI的未來方向。

本文深入探討了AI算法與人類神經(jīng)系統(tǒng)的差異、Transformer后時(shí)代的技術(shù)觀點(diǎn)、大模型產(chǎn)業(yè)鏈的價(jià)值規(guī)則,以及AI在各個(gè)領(lǐng)域的應(yīng)用前景。

展望AI未來

目前AI算法和人類神經(jīng)系統(tǒng)的區(qū)別

數(shù)量上

人類的大腦估計(jì)已經(jīng)包含860億個(gè)(10^11次方)神經(jīng)元,這些細(xì)胞信號(hào)傳遞到對(duì)方通過多達(dá)100萬億(10^15)突觸連接。

GPT-4是8個(gè)2200億參數(shù)組成的混合專家模型,8 x 220B = 1.76萬億連接,與真實(shí)人腦仍然差50多倍。

功耗上

人腦功耗10w。

?一張NVIDIA A100功耗250w,更別說萬卡集群,簡(jiǎn)單計(jì)算相差25萬倍。

機(jī)制上

人腦神經(jīng)元種類多樣、神經(jīng)遞質(zhì)多樣,多為化學(xué)信號(hào),維度信息高。

人工神經(jīng)元結(jié)構(gòu)簡(jiǎn)單單一,傳遞為簡(jiǎn)單電信號(hào),維度信息低。

結(jié)構(gòu)上

人工神經(jīng)元之間的連接則是一開始就被固定好了的,比如根據(jù)實(shí)際需求需要設(shè)計(jì)一個(gè)多大的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)模型,那么這個(gè)網(wǎng)絡(luò)模型的參數(shù)和連接方式就基本已經(jīng)被固定了。雖然可以通過神經(jīng)元之間的隨機(jī)失活等方法可以局部的改變神經(jīng)網(wǎng)絡(luò)內(nèi)部的連接,但是這種改變?nèi)匀粺o法讓人工神經(jīng)元像生物神經(jīng)元一樣根據(jù)外界輸入的數(shù)據(jù)信息而選擇性的提取需要的特征信息。

生物的神經(jīng)元之間是沒有任何順序的,可以隨時(shí)根據(jù)外界傳入的信息有條件的隨意連接,但是人工神經(jīng)網(wǎng)絡(luò)內(nèi)部的神經(jīng)元之間是有順序排列的,也就是神經(jīng)網(wǎng)絡(luò)的層數(shù),人工神經(jīng)元只能在神經(jīng)網(wǎng)絡(luò)的不同層之間發(fā)生連接,由于數(shù)學(xué)矩陣運(yùn)算的規(guī)律,在同一層神經(jīng)網(wǎng)絡(luò)之間的神經(jīng)元是無法連接的。

而且無論從目前效果和上述的巨大區(qū)別上,目前的LLM離真正的AGI還有很大的差距,想象看一個(gè)人類擁有互聯(lián)網(wǎng)級(jí)別信息的時(shí)候,智慧程度會(huì)跟現(xiàn)在LLM一樣嗎?

所以很多人說數(shù)據(jù)即將用盡的觀點(diǎn)是偏頗的,算法倒是學(xué)習(xí)效率低下才是本質(zhì)。

但也說明深度仿生的聯(lián)結(jié)主義潛力巨大。但未來會(huì)如何呢?

Transfomer后時(shí)代的觀點(diǎn)

辛頓和伊利亞 — 壓縮即智能

奧特曼在今年10月份接受采訪說:伊利亞(OpenAI前首席科學(xué)家伊利亞·蘇茨克維)總是說,這些模型的真正意義在于壓縮,我們要找出如何壓縮盡可能多的知識(shí),這就是我們打造人工智能的方式。壓縮就像是智慧密鑰,我已經(jīng)對(duì)此冥想很久,但我確信自己仍然沒有完全理解它,但那里有些更深刻的東西。

就上上文提及到的注意力機(jī)制一樣。隨著進(jìn)化的腳步,生命體本身由簡(jiǎn)至繁,而人類歷史發(fā)展到今天,我們的生存環(huán)境和所需要學(xué)習(xí)、掌握的工作任務(wù)和過去的叢林生活復(fù)雜到不知多少。為了應(yīng)對(duì)這個(gè)變化,大腦會(huì)如何進(jìn)化呢?是發(fā)展成一個(gè)同時(shí)處理龐大的信息并且容量超大的大腦,還是發(fā)展成雖然容量不大,但可以迅速地分析信息,并配有一個(gè)高效率信息選擇和投注機(jī)制,將所有計(jì)算能力都放在重要的任務(wù)上的大腦呢?很明顯的,后者更有優(yōu)勢(shì),而且大自然也為我們選擇了這個(gè)目標(biāo)。

人腦的注意力是一個(gè)用來分配有限的信息處理能力的選擇機(jī)制。而Transfomer的自注意力是通過概率分布和權(quán)重分配實(shí)現(xiàn)該機(jī)制。

“預(yù)測(cè)即壓縮, 壓縮即智能”

這一觀點(diǎn)最早由Ilya Sutskever在其博文和訪談中提出。Ilya Sutskever在不同場(chǎng)合提到,當(dāng)我們談?wù)摗邦A(yù)測(cè)下一個(gè)Token”時(shí),本質(zhì)上是在進(jìn)行信息壓縮。一個(gè)理想的預(yù)測(cè)模型, 應(yīng)該能夠以最簡(jiǎn)潔的形式(即最短的程序或描述)來表示輸入數(shù)據(jù)中的關(guān)鍵模式和規(guī)律。預(yù)測(cè)是通過生成特定數(shù)據(jù)集的最短程序來實(shí)現(xiàn)的【46】。

Geoffrey Hinton從另一個(gè)角度闡釋了壓縮與智能之間的聯(lián)系。他指出, 人工智能系統(tǒng)之所以能夠展現(xiàn)出理解、類比、創(chuàng)新等高級(jí)認(rèn)知能力, 關(guān)鍵在于它們能夠發(fā)現(xiàn)并利用不同事物和概念之間的共同結(jié)構(gòu)。如果AI系統(tǒng)能夠掌握這種高度概括的表示,就可以實(shí)現(xiàn)跨域的類比和泛化。而要做到這一點(diǎn),就需要AI系統(tǒng)從大量表面差異巨大的事例中提煉和壓縮出最本質(zhì)的共性。換言之, 機(jī)器要成為一個(gè)智能的類比推理者, 首先需要成為一個(gè)高效的信息壓縮者。

可以抽象的理解為:壓縮就是尋找第一性原理的過程,數(shù)據(jù)越多,總結(jié)出的第一性原理更具有普遍性。

綜合Sutskever和Hinton的觀點(diǎn), 我們可以得出以下幾點(diǎn)認(rèn)識(shí):

1. 從信息論的角度看, 學(xué)習(xí)的本質(zhì)是一個(gè)逐步壓縮數(shù)據(jù)的過程。通過在輸入數(shù)據(jù)中發(fā)現(xiàn)可泛化的模式和規(guī)律, 學(xué)習(xí)系統(tǒng)可以用更簡(jiǎn)潔的表示來重構(gòu)原始信息, 從而降低其描述復(fù)雜度;同時(shí)減少信息在壓縮中的損失。

2. 大規(guī)模機(jī)器學(xué)習(xí), 尤其是基于海量數(shù)據(jù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò), 可以看作是朝著最優(yōu)壓縮逐步逼近的過程。隨著模型規(guī)模和數(shù)據(jù)量的增大, 神經(jīng)網(wǎng)絡(luò)能夠捕捉到越來越抽象和一般化的特征, 其內(nèi)部表示可以壓縮更多的信息。

3. 壓縮能力與智能水平密切相關(guān)。一個(gè)高度智能的系統(tǒng), 應(yīng)該能夠基于少量信息對(duì)世界進(jìn)行大量的重構(gòu)和預(yù)測(cè)。這就要求系統(tǒng)在學(xué)習(xí)過程中最大限度地提取和內(nèi)化數(shù)據(jù)中的關(guān)鍵模式和規(guī)律。因此,追求更強(qiáng)的壓縮能力, 可以為我們指引通往AGI(通用人工智能)的道路。

楊立昆 — 世界大模型

楊立昆在題為《朝向能學(xué)習(xí)、思考和計(jì)劃的機(jī)器進(jìn)發(fā)》的演講中,清晰地指明了以自監(jiān)督學(xué)習(xí)為代表的 AI 系統(tǒng)的優(yōu)缺點(diǎn)。

我們今天正在使用的LLM還無法做到真正的理解世界,這其中有很多原因,但最主要的原因是:LLM的訓(xùn)練方式是用一段缺失了部分文字的文本去訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)缺失的文字。事實(shí)上,LLM并不預(yù)測(cè)詞語,而是生成字典中所有可能詞語的概率分布,然后從概率分布中選擇一個(gè)詞放入文本序列的尾部,再用新生成的文本去預(yù)測(cè)下一個(gè)詞,這就是所謂的自回歸預(yù)測(cè)【47】。

但這種自回歸的方式與人類的思維方式有很大的不同。人類大部分的思考和規(guī)劃都是在更抽象的表征層面上進(jìn)行的–人類對(duì)思考的意識(shí)只存在于高級(jí)表征中-比如人類不是靠像素點(diǎn)識(shí)別物體的,而是又像素點(diǎn)形成的光影、輪廓等,知識(shí)來源于此,而不是在更深層次的神經(jīng)網(wǎng)絡(luò)中,換句話來說,如果輸出的是語言(說出的話)而不是肌肉動(dòng)作,人類會(huì)在給出答案之前先思考好答案。但是LLM不這樣做,它們只是本能地一個(gè)接一個(gè)地輸出文字,就像人類的某些下意識(shí)動(dòng)作一樣。

然而,單靠這種方式,我們并不能真正做到推理,也很難處理非離散的復(fù)雜現(xiàn)實(shí)數(shù)據(jù)。要實(shí)現(xiàn)人類級(jí)別的智能,我們?nèi)匀蝗鄙僖恍┲陵P(guān)重要的要素。比如,一個(gè)十歲的孩子學(xué)會(huì)收拾餐桌、把碗盤放進(jìn)洗碗機(jī),只需看一遍就能學(xué)會(huì)。而一個(gè)17歲的青少年經(jīng)過大約20小時(shí)的練習(xí)就能學(xué)會(huì)開車。然而,我們還沒有達(dá)到五級(jí)自動(dòng)駕駛,也沒有能夠幫忙收拾餐桌的家用機(jī)器人。

實(shí)現(xiàn)真正的智能需要的一個(gè)關(guān)鍵能力是“分層規(guī)劃”,也就是我們?nèi)祟愒诿鎸?duì)復(fù)雜問題時(shí),能夠分階段、分層次地進(jìn)行解決。比如從紐約去巴黎,我們會(huì)先計(jì)劃怎么到機(jī)場(chǎng),而不是從一開始就去計(jì)算整個(gè)行程中每一步的肌肉動(dòng)作。如何讓AI具備這種分層規(guī)劃能力,目前仍是一個(gè)未解的難題。

真正的世界模型是:我對(duì)某時(shí)刻T時(shí)世界狀態(tài)的想法,疊加此時(shí)我可能采取的行動(dòng),來預(yù)測(cè)在時(shí)間T+1時(shí)的世界狀態(tài)。這里所指的世界狀態(tài)并不需要代表世界的一切,不一定需要包含所有的細(xì)節(jié),它只需要代表與這次行動(dòng)規(guī)劃相關(guān)的足夠多的信息。

十年來,我們使用生成式模型和預(yù)測(cè)像素的模型,試圖通過訓(xùn)練一個(gè)系統(tǒng)來預(yù)測(cè)視頻中將發(fā)生什么來學(xué)習(xí)直觀物理,但失敗了,我們無法讓它們學(xué)習(xí)良好的圖像或視頻表征,這表示,我們無法使用生成式模型來學(xué)習(xí)對(duì)物理世界的良好表征。

目前,看起來可以更好地構(gòu)建世界模型的一種新方法是”聯(lián)合嵌入”,稱為JEPA(聯(lián)合嵌入式預(yù)測(cè)架構(gòu)),其基本思路是獲取完整的圖像及其損壞或轉(zhuǎn)換的版本,然后將它們同時(shí)通過編碼器運(yùn)行(一般來說,編碼器是相同的,但也不一定),然后在這些編碼器之上訓(xùn)練一個(gè)預(yù)測(cè)器,以根據(jù)損壞輸入的表征來預(yù)測(cè)完整輸入的表征。JEPA與LLM有什么區(qū)別?【48】

LLM是通過重建方法生成輸入,生成未損壞、未轉(zhuǎn)換的原始輸入,因此必須預(yù)測(cè)所有像素和細(xì)節(jié)。而JEPA并不嘗試預(yù)測(cè)所有像素,只是嘗試預(yù)測(cè)輸入的抽象表征,從本質(zhì)上學(xué)習(xí)世界的抽象表征(例如風(fēng)吹樹葉,JEPA在表征空間中預(yù)測(cè),會(huì)告訴你樹葉在動(dòng),但不會(huì)預(yù)測(cè)每個(gè)樹葉的像素)。

JEPA的真正含義是,以自我監(jiān)督的方式學(xué)習(xí)抽象表征,這是智能系統(tǒng)的一個(gè)重要組成部分。人類有多個(gè)抽象層次來描述世界萬象,從量子場(chǎng)論到原子理論、分子、化學(xué)、材料,一直延伸到現(xiàn)實(shí)世界中的具體物體等,因此,我們不應(yīng)只局限于以最低層次進(jìn)行建模。

基于該理念設(shè)計(jì)的 V-JEPA 是一種“非生成模型”,通過預(yù)測(cè)抽象表示空間中視頻的缺失或屏蔽部分來進(jìn)行學(xué)習(xí)。

四、大模型產(chǎn)業(yè)鏈——綜述

產(chǎn)業(yè)鏈的價(jià)值規(guī)則

框架根據(jù)具體的工作流盡可能的列出行業(yè),有價(jià)值的筆者總結(jié)性多講,沒有變動(dòng)的且基礎(chǔ)的介紹一下。

關(guān)鍵的熱點(diǎn)行業(yè),筆者會(huì)綜合講述中美企業(yè)和商業(yè)環(huán)境的不同之處。

筆者對(duì)有價(jià)值的定義:

  1. 技術(shù)顛覆 — 先發(fā)的知識(shí)(人才)壁壘
  2. 商業(yè)模式顛覆 — 確保和大公司盡量在同一起跑線
  3. 有一定的市場(chǎng)規(guī)模的想象空間

五、基礎(chǔ)層

算力

這里只講述整裝硬件層面的算力提供商以及基礎(chǔ)的軟件的趨勢(shì)。不涉及芯片行業(yè)的上游。

LLM對(duì)算力的需求飆升

我們看到,為追求Scaling law帶來的涌現(xiàn)效應(yīng),在位廠商模型訓(xùn)練的算力規(guī)模不斷擴(kuò)大,對(duì)AI算力基礎(chǔ)設(shè)施的需求形成支撐。根據(jù)中國(guó)信通院《中國(guó)算力發(fā)展白皮書(2023)》,GPT-3的模型參數(shù)約為1,746億個(gè),訓(xùn)練一次需要的總算力約為3,640 PF-days,即以每秒一千萬億次計(jì)算,需要運(yùn)行3,640天;2023年推出的GPT-4參數(shù)量可能達(dá)到1.8萬億個(gè),訓(xùn)練算力需求上升至GPT-3的68倍,在2.5萬個(gè)A100上需訓(xùn)練90-100天【49】。

針對(duì)LLM的新供應(yīng)

通用芯片和專用芯片之爭(zhēng)

按照芯片的設(shè)計(jì)理念及用途,AI算力芯片可分為通用芯片和專用芯片,二者各有特點(diǎn)。

通用芯片為解決通用任務(wù)而設(shè)計(jì),主要包括CPU、GPU(含GPGPU)和FPGA。

專用芯片(ASIC)為執(zhí)行特定運(yùn)算而設(shè)計(jì),具備算法固化特性,主要包括TPU(Tensor Processing Unit,張量處理器)、NPU(Neural Network Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器)等。

在通用算力芯片當(dāng)中,CPU內(nèi)核數(shù)量有限,采用串行方式處理指令,適合于順序執(zhí)行的任務(wù);GPU采用眾核結(jié)構(gòu),最初開發(fā)用于圖形處理,而后憑借其強(qiáng)大的并行計(jì)算能力適用于AI通用計(jì)算(GPGPU);FPGA是具備可編程硬件結(jié)構(gòu)的集成電路,其可編程性和靈活性可快速適應(yīng)AI領(lǐng)域的算法變化。與專用芯片相比,通用芯片主要優(yōu)勢(shì)在于靈活性及生態(tài)系統(tǒng)的完善性,可適應(yīng)高速迭代的算法任務(wù),同時(shí)GPU保留的渲染能力可適應(yīng)大模型的多模態(tài)發(fā)展,而其主要劣勢(shì)則在于較高的功耗水平和較低的算力利用率。

專用芯片的優(yōu)勢(shì)則在于通過算法固化實(shí)現(xiàn)了更高的利用率和能耗比,以及更低的器件成本,同時(shí)ASIC更適合大規(guī)模矩陣運(yùn)算;其主要劣勢(shì)是前期投入成本高、研發(fā)時(shí)間長(zhǎng),且只針對(duì)某個(gè)特殊場(chǎng)景,靈活性不及通用芯片【50】。

ASIC(Application Specific Integrated Circuit)是專用集成電路,針對(duì)用戶對(duì)特定電子系統(tǒng)的需求,從根級(jí)設(shè)計(jì)、制造的專用應(yīng)用程序芯片,其計(jì)算能力和效率根據(jù)算法需要進(jìn)行定制,是固定算法最優(yōu)化設(shè)計(jì)的產(chǎn)物。經(jīng)過算法固化后,專用芯片與軟件適配性較高,從而能夠調(diào)動(dòng)更多硬件資源,提高芯片利用率。而通用芯片由于算法不固定,其硬件往往會(huì)產(chǎn)生冗余,導(dǎo)致芯片利用率較低。

目前價(jià)值最大的仍然是GPU,它更適應(yīng)高并發(fā)多分布式的訓(xùn)練,LLM訓(xùn)練和推理以它為主,95%的算力的都是由它提供。

就像工廠一樣,一開始會(huì)去買標(biāo)準(zhǔn)的設(shè)備(通用芯片)進(jìn)行生產(chǎn),后續(xù)規(guī)模擴(kuò)大了,更了解客戶的需求后,產(chǎn)品變的差異化,這時(shí)候會(huì)去找產(chǎn)線集成商如西門子,定制化產(chǎn)線(專用芯片);本質(zhì)上來說,背后就是需求和廠商供應(yīng)的trade-off(成本等),但是需求是第一位,大規(guī)模量產(chǎn)和定制化的前提都是同質(zhì)化的需求在支撐。

目前,我們對(duì)LLM的訓(xùn)練和推理算法皆有不同程度的優(yōu)化,商業(yè)場(chǎng)景還在積極探索,甚至是算法本身都在快速變化,ASIC等專用芯片為時(shí)尚早。

GPU適應(yīng)LLM大規(guī)模計(jì)算的新技術(shù)指標(biāo)

深度神經(jīng)網(wǎng)絡(luò)對(duì)計(jì)算芯片的需求主要圍繞解決兩個(gè)問題展開:

(1)解決AI計(jì)算芯片和存儲(chǔ)間數(shù)據(jù)通信需求,AI模型中,大量運(yùn)算資源被消耗在數(shù)據(jù)搬運(yùn)的過程。芯片內(nèi)部到外部的帶寬以及片上緩存空間限制了運(yùn)算的效率。

(2)在控制功耗的同時(shí)不斷提升專用計(jì)算能力,對(duì)AI芯片進(jìn)行定制,在特定場(chǎng)景下實(shí)現(xiàn)AI芯片的高性能和低功耗,解決對(duì)卷積、殘差網(wǎng)絡(luò)等各類AI計(jì)算模型的大量計(jì)算需求。

算力不足如何解決?

眾所周知的芯片斷供原因,國(guó)內(nèi)廠商無法在正常的渠道買到高端的芯片,如何彌補(bǔ)?

除了走私外,異構(gòu)芯片的混訓(xùn)(國(guó)產(chǎn)芯片+國(guó)外芯片;本地計(jì)算+云計(jì)算)成為了主流,但隨著算力的不斷補(bǔ)充和IDC的建立,并且模型參數(shù)的變小,此類問題將快速解決。能看到的是A100芯片的租賃價(jià)格幾經(jīng)對(duì)折。

國(guó)外的算力中心如特斯拉、谷歌、亞馬遜的萬卡集群都將在近期建設(shè)完成。特斯拉的有10萬塊H100。

新AI算力市場(chǎng)推算

GPT-4的訓(xùn)練,推理算力成本拆解

訓(xùn)練成本

GPT-4的一次訓(xùn)練費(fèi)用高達(dá)6300萬美元,2.15e25 的 FLOPS,使用了約 25,000 個(gè) A100 GPU,訓(xùn)練了 90 到 100 天,利用率(MFU)約為 32% 至 36%。這種極低的利用率部分是由于大量的故障導(dǎo)致需要重新啟動(dòng)檢查點(diǎn)。如果他們?cè)谠贫说拿總€(gè) A100 GPU 的成本大約為每小時(shí) 1 美元,那么僅此次訓(xùn)練的成本將達(dá)到約 6300 萬美元【51】。

推理成本高于訓(xùn)練成本

ChatGPT 每天在計(jì)算硬件成本方面的運(yùn)營(yíng)成本為 694,444 美元。OpenAI 需要約 3,617 臺(tái) HGX A100 服務(wù)器(28,936 個(gè) GPU)來為 Chat GPT 提供服務(wù)。我們估計(jì)每次查詢的成本為 0.36 美分。ChatGPT一年將花費(fèi)至少2.5億美元,而訓(xùn)練一個(gè)模型僅需一次性花費(fèi)6300萬美元。

訓(xùn)練芯片

在給定訓(xùn)練GPT-3模型所需運(yùn)算操作數(shù)量的情況下,即便得知單卡算力,以及要求的訓(xùn)練時(shí)間,量化加速卡數(shù)量實(shí)際上也存在難度,因?yàn)閿?shù)據(jù)集精度、數(shù)據(jù)集迭代次數(shù),以及GPU的使用效率等等因素都是未知變量【51】。

在此,我們直接采用OpenAI訓(xùn)練集群模型估算結(jié)果作為參考:標(biāo)準(zhǔn)大小的175億參數(shù)GPT3模型大概需要375-625臺(tái)8卡DGX A100服務(wù)器進(jìn)行訓(xùn)練(耗費(fèi)10天左右時(shí)間)。目前來看,訓(xùn)練大模型的硬件投入基本3,000張-5,000張A100 GPU來完成。那么,以單A100卡售價(jià)10,000美元來計(jì)算,生產(chǎn)大模型所需的訓(xùn)練用GPU一次性采購(gòu)拉動(dòng)在千萬美元級(jí)別,具體金額決定于參與生產(chǎn)大模型的終端用戶家數(shù),中性情形下,我們假設(shè)8家廠商采購(gòu)訓(xùn)練卡,單一廠商需求量500臺(tái)DGX A100服務(wù)器,可帶來的訓(xùn)練AI加速卡市場(chǎng)空間約為3.2億美元。

推理芯片

推理應(yīng)用和實(shí)際業(yè)務(wù)上線關(guān)系緊密,硬件需求要結(jié)合對(duì)效率要求來進(jìn)行部署。以A100 GPU單卡單字輸出需要350ms為基準(zhǔn)計(jì)算,假設(shè)每日訪問客戶數(shù)量為2,000萬人,單客戶每日發(fā)問ChatGPT應(yīng)用10次,單次需要50字回答,則每日消耗GPU的計(jì)算時(shí)間為972,222個(gè)運(yùn)行小時(shí)(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,對(duì)應(yīng)的GPU需求數(shù)量為40,509個(gè)。同樣以單卡10,000美元的售價(jià)計(jì)算,2,000萬用戶上線在推理端所創(chuàng)造的AI芯片市場(chǎng)空間約4億美元左右,但在中性情形下,假設(shè)日活用戶數(shù)達(dá)到1億用戶,在單客戶發(fā)問次數(shù)、單次回答字?jǐn)?shù)不變的情況下,我們測(cè)算出推理相關(guān)用AI芯片市場(chǎng)空間有望達(dá)到20億美元【51】。

GPU芯片&服務(wù)器提供商

國(guó)內(nèi)外芯片市場(chǎng)

全球GPU市場(chǎng)競(jìng)爭(zhēng)格局較為集中,當(dāng)前NVIDIA處于市場(chǎng)領(lǐng)導(dǎo)地位,根據(jù)Verified Market Research數(shù)據(jù),2022年在全球獨(dú)立GPU市場(chǎng)當(dāng)中占比約80%。

國(guó)產(chǎn)AI云端訓(xùn)練和推理芯片廠商參與者眾多,大部分涌現(xiàn)于2017年以后。

(1)華為Atlas 300T訓(xùn)練卡(型號(hào)9000)基于昇騰910 AI芯片,單卡算力280TFLOPS FP16;

(2)寒武紀(jì)思元370單卡算力256TOPS INT8,是第二代產(chǎn)品思元270算力的2倍;

(3)百度昆侖芯2代AI芯片單卡算力為256TOPS INT8 / 128TFLOPS FP16;

(4)海光DCU的優(yōu)勢(shì)則體現(xiàn)在生態(tài)兼容性,其ROCm GPU的計(jì)算生態(tài)和英偉達(dá)CUDA[1]高度相似,被稱為“類CUDA”,有利于用戶可快速遷移,2022年海光深算一號(hào)DCU已商業(yè)化應(yīng)用,深算二號(hào)正在研發(fā)中【52】。

目前國(guó)產(chǎn)產(chǎn)品依然與全球領(lǐng)先水平存在2-3年的差距。

國(guó)產(chǎn)最強(qiáng)的AI芯片性能大約為512Tflops,不僅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武紀(jì)的思元590在某些特定應(yīng)用場(chǎng)景下接近A100 90%的性能,但綜合性能仍只能達(dá)到A100的80%左右。

國(guó)產(chǎn)AI芯片企業(yè)雖作為后發(fā)者,依然擁有市場(chǎng)機(jī)會(huì)。一方面來看,摩爾定律的迭代放緩使得海外龍頭企業(yè)開發(fā)新產(chǎn)品面臨更大的挑戰(zhàn),中國(guó)企業(yè)有望以更快的速度向海外現(xiàn)有產(chǎn)品看齊,但供應(yīng)鏈方面存在不確定性,對(duì)后發(fā)企業(yè)構(gòu)成利好【53】。

CUDA

GPU的算法和生態(tài)系統(tǒng)構(gòu)建也是GPU設(shè)計(jì)中的重要部分。GPU算法需要與硬件緊密結(jié)合,以提高GPU的性能和效率。同時(shí),GPU的軟件生態(tài)系統(tǒng)還需要支持各種開發(fā)工具和框架,以便開發(fā)人員可以更輕松地利用GPU進(jìn)行高性能計(jì)算和機(jī)器學(xué)習(xí)。

基于高層次抽象,英偉達(dá)通過CUDA統(tǒng)一編程平臺(tái)提供了一套完整的開發(fā)工具鏈,包括編譯器、調(diào)試器和性能分析工具,以及豐富的庫(kù)函數(shù)(加速算子執(zhí)行、實(shí)現(xiàn)卡間通信),為開發(fā)者提供了便利,降低使用成本。且CUDA統(tǒng)一編程平臺(tái)可支持多個(gè)操作系統(tǒng),且支持各類GPU(包括數(shù)據(jù)中心級(jí)產(chǎn)品、消費(fèi)級(jí)產(chǎn)品);全球安裝的CUDA兼容的NVIDIA GPU數(shù)量已經(jīng)達(dá)到了數(shù)億級(jí)別【50】。

由于硬件端AI領(lǐng)域的先發(fā)優(yōu)勢(shì),大量的AI深度學(xué)習(xí)訓(xùn)練開源項(xiàng)目和框架如PyTorch、TensorFlow等與英偉達(dá)GPU后端實(shí)現(xiàn)了原生適配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端來看,英偉達(dá)同樣擁有Tensor-RT引擎。總結(jié)來說,主流AI軟件棧的最佳優(yōu)化方案均與英偉達(dá)CUDA生態(tài)及GPU深度耦合。通過日積月累,英偉達(dá)硬件環(huán)境上的開發(fā)者數(shù)量眾多,有龐大而活躍的社區(qū)以及大量可用的文檔、教程、論文,開發(fā)人員對(duì)CUDA的熟悉程度和專業(yè)度更高,導(dǎo)致新人采用CUDA面臨的時(shí)間成本更低。到2023年底,CUDA軟件包已累計(jì)下載4800萬次,證明其廣泛的用戶基礎(chǔ)和開發(fā)者社區(qū)的活躍度。

英偉達(dá)對(duì)外部企業(yè)、學(xué)校、以及不同應(yīng)用領(lǐng)域均有良好的解決方案,對(duì)不同類型客戶進(jìn)行深度綁定服務(wù)。

可以說其系統(tǒng)生態(tài)的繁榮為其GPU硬件平臺(tái)提供了最大的開發(fā)生態(tài)護(hù)城河!

能和其英偉達(dá)一較高下的,恐怕只有同時(shí)掌握前后端并擁有獨(dú)立開發(fā)生態(tài)的華為了。

其余的大部分做ai芯片的公司短暫的收入提升來源于國(guó)內(nèi)IDC的建設(shè),渠道為主,生態(tài)意識(shí)低。

集成算力提供商

AI服務(wù)器

一般來講,服務(wù)器的定制化程度高,大廠的服務(wù)器是自己采購(gòu),自己搭建,中小企業(yè)購(gòu)買會(huì)多一點(diǎn)。再加上云計(jì)算的趨勢(shì),保密單位的需求會(huì)硬一點(diǎn),否則云計(jì)算性價(jià)比更高。

AI服務(wù)器(多個(gè)GPU等芯片集成)競(jìng)爭(zhēng)格局方面,當(dāng)前互聯(lián)網(wǎng)云計(jì)算廠商的白牌服務(wù)器占主導(dǎo),未來隨著邊緣側(cè)應(yīng)用的成熟,品牌服務(wù)器廠商份額也有望提升。AI服務(wù)器分為品牌和白牌兩類。所謂白牌,是由互聯(lián)網(wǎng)云計(jì)算大廠在云計(jì)算的規(guī)模效應(yīng)下,與傳統(tǒng)的服務(wù)器代工廠EMS企業(yè)合作開發(fā)定制化的“白牌”服務(wù)器;所謂品牌,是由專門的服務(wù)器廠商開發(fā)的面向企業(yè)、政府、運(yùn)營(yíng)商和金融等銷售的通用型服務(wù)器【52】。

智算中心

政府

2023年以來,政府智算中心建設(shè)的規(guī)模與節(jié)奏均有顯著提升。通過梳理各地政府官網(wǎng)信息,我們整理了2020年-2024年政府智算中心建設(shè)情況,發(fā)現(xiàn):

1)2023年以來智算中心建設(shè)明顯加速,各省市地方政府均在積極推進(jìn)智算中心建設(shè);

2)2020年-2023年間已投運(yùn)政府智算中心單期算力建設(shè)規(guī)模一般在500P以下,而隨著AI帶動(dòng)算力需求的提升,單個(gè)智算中心的體量提升,2023年下半年之后建設(shè)與投運(yùn)的智算中心出現(xiàn)較多1000P以上的算力規(guī)?!?9】。

華為昇騰、寒武紀(jì)等國(guó)產(chǎn)AI算力芯片成為政府主導(dǎo)的智算中心的重要算力基座。北京昇騰人工智能計(jì)算中心利用“政府引導(dǎo)+市場(chǎng)化運(yùn)作”平臺(tái)建設(shè)模式,政府負(fù)責(zé)頂層設(shè)計(jì)、政策保障;中關(guān)村發(fā)展集團(tuán)負(fù)責(zé)設(shè)施建設(shè)、配套服務(wù)、提供空間載體,最終使用華為自主研發(fā)的昇騰芯片,互利共贏。長(zhǎng)沙昇騰人工智能創(chuàng)新中心由長(zhǎng)沙市政府和湖南湘江新區(qū)共同出資建設(shè),采用基于昇騰910處理器的兆瀚CA9900 AI集群硬件,總算力最高可達(dá)1024 PFLOPS(FP16)。政府智算中心建設(shè)提速,有望進(jìn)一步拉動(dòng)國(guó)產(chǎn)AI芯片的需求。

三大運(yùn)營(yíng)商

根據(jù)三大運(yùn)營(yíng)商2024年資本開支指引,運(yùn)營(yíng)商投資重心將繼續(xù)向算力網(wǎng)絡(luò)建設(shè)傾斜。具體來看,中國(guó)移動(dòng)計(jì)劃2024年在算力網(wǎng)絡(luò)領(lǐng)域投資475億元,占當(dāng)期資本開支的27.5%,同比增長(zhǎng)21.5%;中國(guó)電信資本開支在產(chǎn)業(yè)數(shù)字化方面的投資占比同比提升2.5ppt至38.5%,絕對(duì)額達(dá)到370億元,其中公司計(jì)劃在云/算力投入180億元;中國(guó)聯(lián)通則表示算網(wǎng)數(shù)智投資堅(jiān)持適度超前、加快布局【49】。

三大運(yùn)營(yíng)商智算中心建設(shè)持續(xù)推進(jìn)。根據(jù)2023年度業(yè)績(jī)發(fā)布會(huì),中國(guó)移動(dòng)計(jì)劃2024年加快算力多元供給,累計(jì)智算規(guī)模規(guī)劃超過17 EFLOPS,新部署智算增幅接近70%;中國(guó)電信持續(xù)推進(jìn)智能算力建設(shè),2023年公司智算算力新增8.1EFLOPS,增幅高達(dá)279.3%,累計(jì)規(guī)模達(dá)到11.0 EFLOPS,2024年公司預(yù)計(jì)智算規(guī)模將繼續(xù)提升10 EFLOPS至21 EFLOPS(FP16);根據(jù)公司公告,中國(guó)聯(lián)通算力中心已覆蓋國(guó)家8大樞紐節(jié)點(diǎn)和31個(gè)省份,數(shù)據(jù)中心機(jī)架規(guī)模超40萬架,完成29省千架資源布局,骨干云池城市覆蓋超230城,MEC節(jié)點(diǎn)超600個(gè)。我們認(rèn)為,運(yùn)營(yíng)商對(duì)智算場(chǎng)景投入的持續(xù)加碼有望帶動(dòng)服務(wù)器、網(wǎng)絡(luò)設(shè)備等算力基礎(chǔ)設(shè)施需求節(jié)節(jié)攀升,在電信云網(wǎng)設(shè)備側(cè)具備穩(wěn)定供應(yīng)能力的廠商有望充分受益。

大型企業(yè)

騰訊、百度、阿里、字節(jié)、商湯等企業(yè)積極推進(jìn)智算中心布局,阿里張北超級(jí)智算中心總建設(shè)規(guī)模達(dá)12000PFLOPS 百度與騰訊均已在全國(guó)多個(gè)地區(qū)建立了智算中心,包括廣州、上海、北京等,字節(jié)跳動(dòng)則依托于潤(rùn)澤科技等進(jìn)行智算中心相關(guān)的IDC投資【49】。

互聯(lián)網(wǎng)廠商當(dāng)前算力構(gòu)成仍以英偉達(dá)為主。根據(jù)TrendForce,中國(guó)云計(jì)算廠商目前使用的高端AI芯片中英偉達(dá)的芯片占比約為80%,當(dāng)前的國(guó)產(chǎn)化率水平較低??紤]到貿(mào)易摩擦的影響,海外核心高端AI芯片難以進(jìn)入大陸市場(chǎng),國(guó)產(chǎn)替代需求迫切性高。

國(guó)內(nèi)AI加速芯片廠商把握發(fā)展機(jī)遇,有望滲透進(jìn)入互聯(lián)網(wǎng)市場(chǎng)。根據(jù)TrendForce,2023年在全球AI服務(wù)器采購(gòu)需求中,字節(jié)跳動(dòng)/百度/騰訊/阿里等中國(guó)互聯(lián)網(wǎng)廠商采購(gòu)占比約8.5%,為AI服務(wù)器的重要需求方。我們認(rèn)為隨著AI大模型加速迭代,國(guó)內(nèi)互聯(lián)網(wǎng)廠商對(duì)于AI服務(wù)器需求有望進(jìn)一步提升,國(guó)產(chǎn)AI芯片潛在市場(chǎng)空間廣闊。

我們看到,互聯(lián)網(wǎng)廠商積極推動(dòng)與國(guó)產(chǎn)算力芯片的合作,根據(jù)公司公告,海光DCU支持包括文心一言在內(nèi)的多個(gè)大模型的適配和應(yīng)用;百度飛槳與海光DCU實(shí)現(xiàn)生態(tài)兼容性認(rèn)證;而華為與百度合作推進(jìn)昇騰AI上與飛槳+文心大模型的適配。我們認(rèn)為,隨著芯片的性能迭代及生態(tài)完善,國(guó)產(chǎn)算力芯片在互聯(lián)網(wǎng)側(cè)的應(yīng)用有望逐步增加。

總而言之,由于斷供的風(fēng)險(xiǎn),國(guó)內(nèi)芯片的國(guó)產(chǎn)化率逐漸提升,但在AI算力方面,主力軍仍是英偉達(dá)。目前AI將會(huì)以通用芯片為主。

算法

這里的算法指的是流派、學(xué)習(xí)范式等AI底層知識(shí)和洞悉的集合,由稀缺的人才掌握,是產(chǎn)業(yè)鏈里的核心的核心,沒有之一,算法決定了一切,主流算法的改變,可以改變所有的工作流和產(chǎn)業(yè)鏈行業(yè)的價(jià)值。

例如之前的CNN等算法的學(xué)習(xí)范式是監(jiān)督學(xué)習(xí),數(shù)據(jù)的輸入和輸出是pair的(匹配的),且需要標(biāo)準(zhǔn)的數(shù)據(jù)–大量的人工標(biāo)注,催生了人力密集的數(shù)據(jù)標(biāo)注行業(yè),但是自回歸的decoder-only transfomer算法下是自監(jiān)督學(xué)習(xí),數(shù)據(jù)不需要標(biāo)注,請(qǐng)問新的大模型下,預(yù)訓(xùn)練還需要人工標(biāo)注嘛?RLHF和微調(diào)的部分還會(huì)需要少量的人工,但也是大大減少了需求。

算法的產(chǎn)出來自于關(guān)鍵的實(shí)驗(yàn)室和大公司;可以關(guān)注其論文的產(chǎn)出,來跟進(jìn);一些跟蹤的渠道將會(huì)在最后展示。

RVKW

最新RVKW-相比transfomer這種方法有效地捕獲了序列中不同位置之間的依賴關(guān)系,同時(shí)減少了模型的計(jì)算復(fù)雜度和存儲(chǔ)需求;它是RNN的一種,建議大家持續(xù)關(guān)注,目前該算法還在雛形中,為時(shí)尚早,有意思的是,發(fā)明該算法的人是中國(guó)人彭博。

數(shù)據(jù)

數(shù)據(jù)來源

AI公司獲取語料數(shù)據(jù)一般有開源數(shù)據(jù)庫(kù)、自有/自建數(shù)據(jù)–爬蟲、購(gòu)買數(shù)據(jù)產(chǎn)品授權(quán)–專業(yè)語料數(shù)據(jù)服務(wù)商處這三種方式。

以GPT-3為例,其訓(xùn)練時(shí)使用的語料庫(kù)數(shù)據(jù)主要來源為Common Crawl爬蟲(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)

擁有更高質(zhì)量、相關(guān)的數(shù)據(jù),可以更好的訓(xùn)練or微調(diào)模型;可獲得的數(shù)據(jù)取決于行業(yè)和公司業(yè)務(wù),是大模型產(chǎn)業(yè)鏈里最重要的壁壘之一;也往往是大公司的先發(fā)優(yōu)勢(shì),初創(chuàng)公司出來公開的數(shù)據(jù)集,必須通過創(chuàng)新的商業(yè)模式來獲取更多的數(shù)據(jù)。

不同國(guó)家的數(shù)據(jù)管理

當(dāng)然避不開不同國(guó)家數(shù)據(jù)管控問題。

國(guó)外:歐盟將數(shù)據(jù)分割為“個(gè)人數(shù)據(jù)”和“非個(gè)人數(shù)據(jù)”,但個(gè)人數(shù)據(jù)嚴(yán)格屬于自然人,企業(yè)數(shù)據(jù)使用權(quán)受到極大限制;美國(guó)的數(shù)據(jù)要素制度采取實(shí)用主義原則,回避了數(shù)據(jù)所有權(quán)問題,未對(duì)數(shù)據(jù)進(jìn)行綜合立法,只有針對(duì)跨境數(shù)據(jù)主權(quán)、行業(yè)隱私法、消費(fèi)者隱私等分別立法。

國(guó)內(nèi):2022年12月,中共中央國(guó)務(wù)院《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(簡(jiǎn)稱“數(shù)據(jù)二十條”)對(duì)外發(fā)布,提出構(gòu)建中國(guó)特色的數(shù)據(jù)產(chǎn)權(quán)制度、流通交易制度、收益分配制度和數(shù)據(jù)要素治理制度,其中創(chuàng)新數(shù)據(jù)產(chǎn)權(quán)觀念,淡化所有權(quán)、強(qiáng)調(diào)使用權(quán),聚焦數(shù)據(jù)使用權(quán)流通,創(chuàng)造性提出建立數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)和數(shù)據(jù)產(chǎn)品經(jīng)營(yíng)權(quán)“三權(quán)分置”的數(shù)據(jù)產(chǎn)權(quán)制度框架。三權(quán)分置的產(chǎn)權(quán)制度,淡化所有權(quán)、強(qiáng)調(diào)使用權(quán)。

生成式數(shù)據(jù)的版權(quán)問題一直是AI發(fā)展的法律限制性因素,隨著馬斯克支持特朗普上臺(tái),向特朗普提議解綁前沿科技的法律限制,會(huì)是一變動(dòng)因素。

數(shù)據(jù)不夠?

關(guān)于數(shù)據(jù)量(Training Tokens)和模型大?。≒arameters)對(duì)于模型的影響,OpenAI在2022年發(fā)表的論文有過討論:在計(jì)算量增加10倍時(shí),模型大小增加5倍,數(shù)據(jù)大小增加約2倍;而計(jì)算量再增加10倍時(shí),模型大小增加25倍,數(shù)據(jù)大小僅增加4倍。

根據(jù)非營(yíng)利研究機(jī)構(gòu)Epoch AI的最新論文,大語言模型會(huì)在2028年耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)。

這里說的數(shù)據(jù)僅僅是真實(shí)數(shù)據(jù),合成or仿真數(shù)據(jù)將會(huì)在AI Infra層詳細(xì)講述。

我的觀點(diǎn)如上述章節(jié)一致,本質(zhì)上是算法導(dǎo)致的學(xué)習(xí)效率低下的問題,不是數(shù)據(jù)規(guī)模問題。

六、AI Infra層

軟件的市場(chǎng)演進(jìn)規(guī)律

在正式進(jìn)入介紹產(chǎn)業(yè)鏈前:我先對(duì)齊下大家對(duì)軟件行業(yè)的規(guī)律:

先有一個(gè)breakthrough的應(yīng)用程序,然后這個(gè)突破性的應(yīng)用程序激發(fā)了一個(gè)創(chuàng)新階段,在這個(gè)階段建立基礎(chǔ)設(shè)施,使類似的應(yīng)用程序更容易建立,并且基礎(chǔ)設(shè)施使得這些應(yīng)用程序被消費(fèi)者廣泛使用【54】。

一家軟件公司的成功,通常需要經(jīng)歷以下 4 個(gè)階段【55】:

1. 由于行業(yè)、趨勢(shì)、場(chǎng)景的變化,新的需求出現(xiàn),這個(gè)時(shí)候有需求(剛性需求)但沒有標(biāo)準(zhǔn)化產(chǎn)品,大型企業(yè)尤其是科技公司便在企業(yè)內(nèi)部自建團(tuán)隊(duì),靠幾名高技術(shù)水平開發(fā)者從 0 到 1 手動(dòng)搭建產(chǎn)品和框架,并在后續(xù)自主維護(hù)。

2. 技術(shù)和解決方案在實(shí)驗(yàn)室或企業(yè)內(nèi)部運(yùn)行一段時(shí)間后,開始有人試圖抽象出相對(duì)通用的框架和產(chǎn)品,并向市場(chǎng)發(fā)布,有開源產(chǎn)品–營(yíng)銷、也有閉源產(chǎn)品,1爭(zhēng)奪行業(yè)標(biāo)準(zhǔn)(技術(shù))。當(dāng)用戶購(gòu)買產(chǎn)品的 ROI 比使用“開源架構(gòu)+內(nèi)部自建團(tuán)隊(duì)+維護(hù)更新”的方案更高(要有技術(shù)開發(fā)壁壘)時(shí),2 用戶開始付費(fèi)(商業(yè)模式創(chuàng)新切入)。

3. 隨著需求的增長(zhǎng),越來越多的客戶使用和篩選各類產(chǎn)品,經(jīng)過一段時(shí)間的市場(chǎng)檢驗(yàn),最終收斂到 1-2 款產(chǎn)品(成功找到商業(yè)化產(chǎn)品的核心應(yīng)用場(chǎng)景和 Product/Market Fit),行業(yè)標(biāo)準(zhǔn)形成。

4. 成為行業(yè)標(biāo)準(zhǔn)的產(chǎn)品和公司將基于現(xiàn)有的技術(shù)和產(chǎn)品,提供更多更有價(jià)值的功能和服務(wù),提升產(chǎn)品和商業(yè)化能力,在商業(yè)化方面取得成功,注重防守–全棧解決方案,增加轉(zhuǎn)換難度。

To C差不多,制勝的目標(biāo)變成了利用生態(tài)截取大量流量,再轉(zhuǎn)化。

流量的進(jìn)出順序?yàn)橛布K端(pc、手機(jī)等)> 軟件(檢索工具 > 社交軟件 > 其他);所以依托硬件去做流量的轉(zhuǎn)化有天然的優(yōu)勢(shì),畢竟流量在前,軟件公司只能聽蘋果or安卓終端公司生態(tài)擺布,著名的例子就是騰訊想通過微信小程序來躲過蘋果商城的蘋果稅,結(jié)果被蘋果起訴;當(dāng)然中國(guó)可以沒有蘋果,但不能沒有微信(支付、社交、出行等等的完全生態(tài)),唯一軟件打得過硬件的反例。

蘋果公司在2017年推出的應(yīng)用服務(wù)條款,通過虛擬貨幣的打賞,應(yīng)當(dāng)被視為應(yīng)用內(nèi)購(gòu)買,蘋果將從中提取30%的分成,而且必須走蘋果支付渠道。所以大家知道為什么國(guó)內(nèi)女主播要求蘋果手機(jī)用戶打賞要走微信小程序打賞or其他非蘋硬件了吧。還有ios的游戲充值也比正常渠道貴。

這也是為什么谷歌還自己做了手機(jī)等硬件,還有meta扎克伯格瘋狂炒元宇宙,想用vr、眼鏡等穿戴式設(shè)備其他硬件范式推翻移動(dòng)互聯(lián)網(wǎng)時(shí)代的手機(jī)生態(tài),由于光學(xué)成像等等原因,很可惜還有很大的距離。

AI Infra產(chǎn)業(yè)鏈

以下對(duì) AI 工作流總體可以拆解成四個(gè)垂直模塊:數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練,模型部署和產(chǎn)品整合。

LLM流行前,AI模型通用性較低,項(xiàng)目落地停留在“手工作坊”階段,流程難以統(tǒng)一規(guī)范。人工智能已有數(shù)十年的發(fā)展歷史,尤其是2006年以來以深度學(xué)習(xí)為代表的訓(xùn)練方法的成熟推動(dòng)第三波發(fā)展浪潮。

然而,由于傳統(tǒng)的機(jī)器學(xué)習(xí)模型沒有泛化能力,大部分AI應(yīng)用落地以定制化項(xiàng)目的形式,包括需求、數(shù)據(jù)、算法設(shè)計(jì)、訓(xùn)練評(píng)估、部署和運(yùn)維等階段,其中,數(shù)據(jù)和訓(xùn)練評(píng)估階段往往需要多次循環(huán),較難形成一套標(biāo)準(zhǔn)化的端到端的流程和解決方案,也由此造成了邊際成本高、重復(fù)造輪子等問題【56】。

大規(guī)模預(yù)訓(xùn)練模型完成了“從0到1”的技術(shù)統(tǒng)一,泛化能力和通用性釋放出“從1到100”的落地需求,且存在相對(duì)標(biāo)準(zhǔn)化的流程,衍生出AI Infra投資機(jī)會(huì)。

總而言之,就是算法的變化導(dǎo)致了infra層的變化:有的工作流不需要了,也有新的工作流,且流程相對(duì)標(biāo)準(zhǔn)。

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)標(biāo)注

作用:標(biāo)注機(jī)器學(xué)習(xí)輸入 (X, y) 中的 y 部分,在一部分目標(biāo)變量 y 缺失的業(yè)務(wù)場(chǎng)景為 AI 模型提供人類先驗(yàn)知識(shí)的輸入。作為上一代 AI 興起時(shí)最旺盛的需求,在計(jì)算視覺領(lǐng)域使用場(chǎng)景相對(duì)較多【56】。

重要公司:國(guó)外:Scale AI(人工數(shù)據(jù)標(biāo)注供應(yīng)商),Snorkel(使用模型對(duì)數(shù)據(jù)進(jìn)行合成 / 標(biāo)注)。國(guó)內(nèi):海天瑞聲等。

商業(yè)價(jià)值評(píng)價(jià):低

LLM無需求,LLM 本身具有很強(qiáng)的自監(jiān)督屬性,輸入的數(shù)據(jù)和輸出的數(shù)據(jù)并不是標(biāo)準(zhǔn)的pair的狀態(tài)。

由于OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)對(duì)模型訓(xùn)練結(jié)果影響的表述;且在訓(xùn)練模型中參與科學(xué)家人數(shù)和工時(shí)最多參與數(shù)據(jù)反饋。對(duì)原來低質(zhì)量數(shù)據(jù)標(biāo)注方法的顛覆,LLM模型不再使用標(biāo)注數(shù)據(jù),而使用人類少量的高質(zhì)量的反饋。

按照meta 2023年訓(xùn)練llama2購(gòu)買3萬條高質(zhì)量人類反饋*預(yù)計(jì)市場(chǎng)參與者10家*一年4次訓(xùn)練模型=2023年美國(guó)市場(chǎng)需要120萬條,再*10美元的單價(jià)=最多1200萬美元市場(chǎng)規(guī)模。

競(jìng)爭(zhēng)形式預(yù)測(cè):沒有大的改變,業(yè)務(wù)變高端了,邀請(qǐng)專家來反饋,提高單價(jià)增值;價(jià)值較低,資源壁壘隨時(shí)可破。大模型公司自己都可以做,沒必要外包。

特征倉(cāng)庫(kù)

作用:管理機(jī)器學(xué)習(xí)輸入 (X, y) 中的 X 部分,離線特征工程,在訓(xùn)練時(shí)更靈活地調(diào)整需要使用的特征組合和加工方式;在線實(shí)時(shí)預(yù)測(cè),將線上的數(shù)據(jù)流靈活地提供給 model serving;和線上數(shù)據(jù)監(jiān)控,保障模型使用的數(shù)據(jù)分布與質(zhì)量的安全性【56】。

在 LLM 大語言模型的場(chǎng)景下,訓(xùn)練和推理數(shù)據(jù)不以這種形式進(jìn)行組織,故 Feature Store 在 LLMOps 下沒有使用前景。

合成數(shù)據(jù)

作用:真實(shí)數(shù)據(jù)的補(bǔ)充。做真實(shí)數(shù)據(jù)的“平替”,用AIGC反哺AI。一項(xiàng)來自Epoch AI Research團(tuán)隊(duì)的研究預(yù)測(cè)存量的高質(zhì)量語言數(shù)據(jù)將在2026年耗盡,低質(zhì)量的語言和圖像數(shù)據(jù)存量也將在未來的數(shù)十年間枯竭。

面對(duì)潛在的數(shù)據(jù)瓶頸,合成數(shù)據(jù)即運(yùn)用計(jì)算機(jī)模擬生成的人造數(shù)據(jù),提供了一種成本低、具有多樣性、規(guī)避了潛在隱私安全風(fēng)險(xiǎn)的解決方法,生成式AI的逐漸成熟進(jìn)一步提供技術(shù)支撐。

比如,自然語言修改圖片的Instruct-Pix2Pix模型在訓(xùn)練的時(shí)候就用到GPT3和Stable Diffusion來合成需要的提示詞和圖像的配對(duì)數(shù)據(jù)集;Amazon也利用合成數(shù)據(jù)來訓(xùn)練智能助手Alexa,以避免用戶隱私問題。合成數(shù)據(jù)市場(chǎng)參與者較多,獨(dú)立公司/項(xiàng)目如gretel、MOSTLY AI、datagen、hazy等,數(shù)據(jù)標(biāo)注廠商如Scale亦推出相關(guān)產(chǎn)品,此外主流科技公司英偉達(dá)、微軟、亞馬遜等均有不同場(chǎng)景的嘗試。

圖:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-圖像訓(xùn)練數(shù)據(jù)集

商業(yè)價(jià)值評(píng)價(jià):中

那么在LLM里,合成數(shù)據(jù)真的有效嘛?答案是否定的,合成數(shù)據(jù)提取了樣本的特征,并進(jìn)行相似性的替換,特征仍然無變化;且數(shù)據(jù)本身會(huì)和真實(shí)數(shù)據(jù)混合,導(dǎo)致真實(shí)的數(shù)據(jù)特征漂移,噪聲變多,大模型過擬合。

但在以強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)為主自動(dòng)駕駛算法領(lǐng)域一級(jí)具身領(lǐng)域(神經(jīng)網(wǎng)絡(luò)端到端的FSD),算法無法覆蓋到未曾見過的場(chǎng)景–強(qiáng)化學(xué)習(xí)的缺點(diǎn),也就是所謂的coner case,這時(shí)候使用合成數(shù)據(jù),在仿真平臺(tái)中訓(xùn)練模型,確實(shí)可以提升其在coner case的性能,但仍然有限。

目前英偉達(dá)的sim saac等平臺(tái)也可以做到仿真生成環(huán)境,解決coner case的市場(chǎng)規(guī)模較小再加上汽車企業(yè)的賬期較長(zhǎng)8-12個(gè)月,所以商業(yè)價(jià)值較中。

國(guó)內(nèi)公司有光輪智能、智平方、Hillbot和銀河通用。

查詢工具&數(shù)據(jù)科學(xué)工具及平臺(tái)

作用:廣義的數(shù)據(jù)科學(xué)涵蓋利用各類工具、算法理解數(shù)據(jù)蘊(yùn)藏含義的全過程,機(jī)器學(xué)習(xí)可以視為其中的一種方式和手段;狹義的數(shù)據(jù)科學(xué)也可以僅指代機(jī)器學(xué)習(xí)的前置步驟,包括準(zhǔn)備、預(yù)處理數(shù)據(jù)并進(jìn)行探索性分析等【56】。

一般在開源框架上自研,無商業(yè)價(jià)值。

模型訓(xùn)練

模型庫(kù)

作用:機(jī)器學(xué)習(xí)屆的 Github,以更 AI-native 的方式組織 AI 開源社區(qū),為 AI 研發(fā)提供安卓式的環(huán)境【56】。

重要公司:典型代表廠商包括海外的Hugging Face、Replicate,國(guó)內(nèi)關(guān)注Gitee(開源中國(guó)推出的代碼托管平臺(tái))和ModelScope(阿里達(dá)摩院推出的AI開源模型社區(qū))OpenCSG等項(xiàng)目。

商業(yè)價(jià)值評(píng)價(jià):低

占據(jù)著數(shù)據(jù)科學(xué)工作流的入口位置,用戶數(shù)量較大;但其開源屬性增大了其商業(yè)化難度,目前變現(xiàn)手段不多。

傳統(tǒng) ML 模型規(guī)模小,訓(xùn)練成本低,基本不依賴 Model Hub;大語言模型場(chǎng)景下許多科學(xué)家和工程師通過 Model Hub 調(diào)用開源的預(yù)訓(xùn)練模型和參數(shù),來減少自己從頭訓(xùn)練和定制化模型的成本。

小客戶開發(fā)demo的場(chǎng)景更多!但做自己的模型肯定是脫離模型庫(kù)的,可以理解為交流模型的論壇。已有龍頭,且商業(yè)化機(jī)會(huì)對(duì)于專業(yè)開發(fā)客戶小,僅作為營(yíng)銷平臺(tái)(廣告盈利)和做demo。

大模型訓(xùn)練框架

作用:AI 模型訓(xùn)練與推理的核心框架,使模型能夠高效的實(shí)現(xiàn)計(jì)算。以深度學(xué)習(xí)框架為例,其內(nèi)嵌實(shí)現(xiàn)了以下事情:可以繞開手寫 CUDA 代碼,直接簡(jiǎn)單地使用 GPU 搭建模型。這使得深度學(xué)習(xí)框架門檻變低很多,只需要定義神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與損失函數(shù),即可跑通一個(gè)基本的模型??梢岳斫鉃樯疃葘W(xué)習(xí)的開發(fā)軟件。

重要產(chǎn)品:Tensorflow (Google), PyTorch (Meta), Jax。

Tensorflow 先發(fā)優(yōu)勢(shì)明顯,早期占據(jù)了業(yè)界的主流。但其版本管理做得不好,易用性也略遜于 PyTorch,在學(xué)界被 PyTorch 后發(fā)超越。目前在業(yè)界使用 PyTorch 的公司也在變多,但由于遷移成本高,Tensorflow 也有一定公司在使用,況且 Tensorflow 是使用谷歌開發(fā)的 TPU 的主要選擇。Paddlepaddle(百度)、Mindspore(華為)。大公司掌握,為其深度學(xué)習(xí)的生態(tài)之一,免費(fèi)使用。

商業(yè)潛力:低

盡管這一領(lǐng)域沒有顯著的商業(yè)潛力,但還是在這里介紹一下這類框架,因?yàn)檫@是當(dāng)前所有 AI 模型的基石,有著很強(qiáng)的生態(tài)意義。

訓(xùn)練和推理階段的計(jì)算優(yōu)化

作用:通過芯片層面或者算法層面優(yōu)化開發(fā)成本和推理計(jì)算成本

由于LLM的算法的改變,所有之前的優(yōu)化辦法基本失效。在這里對(duì)LLM算法和計(jì)算機(jī)體系的全面的洞悉是稀缺性的,具有非常高的壁壘(又有大規(guī)模語言模型的訓(xùn)練經(jīng)驗(yàn),又有對(duì)計(jì)算機(jī)底層系統(tǒng)-存儲(chǔ)、計(jì)算等的了解的人非常少)。

同時(shí),降低模型的訓(xùn)練和推理成本,是大模型企業(yè)競(jìng)爭(zhēng)的重點(diǎn),目前價(jià)格和成本昂貴是導(dǎo)致大模型沒有被大規(guī)模使用的頭號(hào)問題;不管是大模型公司,還是使用大模型的公司付費(fèi)意愿強(qiáng),客戶覆蓋眾多。

市場(chǎng)規(guī)模上來說:訓(xùn)練和推理的計(jì)算成本是大模型企業(yè)的最高占比成本。且推理優(yōu)化的上限要比訓(xùn)練優(yōu)化的上限更高,具體數(shù)字已在算力層表述。無論是采取訂閱制還是API的盈利形式,市場(chǎng)規(guī)模都將是百億甚至千億美金的級(jí)別。

商業(yè)潛力:極高

目前主要是兩種技術(shù)路線進(jìn)行優(yōu)化:兩種一種是硬件層面的優(yōu)化,一種是直接在AI算法上優(yōu)化。但國(guó)內(nèi)企業(yè)仍需要突破一體機(jī)的商業(yè)模式。

硬件層面的優(yōu)化

目前國(guó)內(nèi)硬件優(yōu)化的公司為主,并且率先商業(yè)化,但在在硬件層面上,技術(shù)可創(chuàng)造的 margin(提升空間)不大了。比如硬件利用率,理論上最高是 60% 多,現(xiàn)在大家用英偉達(dá)的系統(tǒng)和軟件已能做到 40%~50%,可提高的空間就是百分之十幾。并且GPU優(yōu)化技術(shù)面臨著嚴(yán)重的同質(zhì)化問題,各廠商之間的性能差異并不顯著。

潞晨科技:

潞晨的產(chǎn)品重點(diǎn)在于訓(xùn)練與推理一體化解決方案,尤其側(cè)重于訓(xùn)練領(lǐng)域,在推理技術(shù)路線上,潞晨仍然主要集中在GPU優(yōu)化方面。

硅基流動(dòng):

硅基流動(dòng)專注于MaaS模式,通過云端向用戶提供Token服務(wù)。這一模式要求其具備廣泛的模型兼容能力,以支持多種不同的模型和技術(shù)手段,并結(jié)合云計(jì)算管理等一系列增值服務(wù)。

清昴智能:

清昴團(tuán)隊(duì)源自清華大學(xué)計(jì)算機(jī)系媒體與網(wǎng)絡(luò)實(shí)驗(yàn)室,專注于構(gòu)建模型部署平臺(tái),在底層不同GPU芯片的適配及模型部署服務(wù)方面積累了豐富的工程實(shí)踐經(jīng)驗(yàn)。團(tuán)隊(duì)最近主要集中于與部署相關(guān)的MLOps算子以及對(duì)國(guó)產(chǎn)芯片兼容支持的算子開發(fā)。

無問芯穹:

無問團(tuán)隊(duì)主要成員來源于清華大學(xué)電子工程系。在技術(shù)路線的選擇上,該團(tuán)隊(duì)主要聚焦于GPU利用率和通信的優(yōu)化以及計(jì)算機(jī)集成系統(tǒng)優(yōu)化。

總體而言,純粹依賴于GPU優(yōu)化的技術(shù)方案面臨嚴(yán)重的同質(zhì)化挑戰(zhàn),現(xiàn)有的開源框架已經(jīng)達(dá)到了較高的性能,使得各廠商在性能表現(xiàn)上的差異化優(yōu)勢(shì)不再顯著。

AI算法上優(yōu)化

算法上優(yōu)化的是沒有上限的,潛力最高。

以存換算的推理算法優(yōu)化+全系統(tǒng)協(xié)同優(yōu)化的趨境科技是該行業(yè)的黑馬:由清華系MADsys高性能計(jì)算機(jī)實(shí)驗(yàn)室團(tuán)隊(duì)組成。

利用推理階段的KVcache緩存,存儲(chǔ)多次提問的相似的問題和答案,避免重復(fù)計(jì)算,特別是未來的CoT的長(zhǎng)推理場(chǎng)景,需要重復(fù)推理,成本可以直線下降。

趨境科技創(chuàng)新性地設(shè)計(jì)了“融合推理(Fusion Attention)”思路來利用存儲(chǔ)空間,即便是面對(duì)全新的問題也可以從歷史相關(guān)信息中提取可復(fù)用的部分內(nèi)容,與現(xiàn)場(chǎng)信息進(jìn)行在線融合計(jì)算。這一技術(shù)顯著提升了可復(fù)用的歷史計(jì)算結(jié)果,進(jìn)而降低了計(jì)算量。

尤其在RAG場(chǎng)景中,“以存換算”能夠降低把響應(yīng)延遲降低20倍,性能提升10倍。

在此基礎(chǔ)上,趨境科技首創(chuàng)的“全系統(tǒng)異構(gòu)協(xié)同”架構(gòu)設(shè)計(jì)也成為重要技術(shù)支撐。該架構(gòu)是首個(gè)允許在單GPU卡上支持1Million超長(zhǎng)上下文的推理框架,以及首個(gè)單GPU上運(yùn)行2000億參數(shù)MoE超大模型等等。

目前,趨境科技已聯(lián)合清華大學(xué)一起將異構(gòu)協(xié)同推理框架的個(gè)人版,名為KTransformers的框架在GitHub開源,并在Hugging Face等開源社區(qū)引起廣泛關(guān)注和討論。行業(yè)合作伙伴也對(duì)此興趣頗高,已有多家知名大模型公司主動(dòng)拋出橄欖枝,與其共同發(fā)起大模型推理相關(guān)的項(xiàng)目建設(shè)。

模型部署

模型安全和監(jiān)控

作用:保障線上模型可用性和可觀測(cè)性,實(shí)時(shí)保持對(duì)模型輸出結(jié)果和指標(biāo)的監(jiān)控。未來會(huì)是模型可解釋性和安全的重要領(lǐng)域【56】。

重要公司:Fiddler, Arize, Arthur, Whylab。

商業(yè)價(jià)值評(píng)價(jià):目前低

LLMOps 需求:增加,LLM 語境下的 AI 安全將成為重要命題。

LLM 大語言模型的性質(zhì)比傳統(tǒng) ML 模型更為復(fù)雜,有包括 Prompt Engineering 等激活和微調(diào)方法存在。為了保障安全性和可解釋性,隨著 LLM 在軟件中的深入落地,對(duì)模型的監(jiān)控和后續(xù)管理會(huì)有著更高的要求。目前已經(jīng)有新型公司,如 HumanLoop 在專注這個(gè)領(lǐng)域,之前的公司中 Whylab 也在做相應(yīng)的嘗試。

目前,大模型公司本身并不注重安全性,還是在追求性能上,安全問題是否會(huì)被大模型公司外包?目前以RLHF為主要對(duì)齊手段上,確實(shí)不需要外部公司參與模型微調(diào)。

模型部署和Serving

作用:模型部署是指把訓(xùn)練好的模型在特定環(huán)境中運(yùn)行的過程。過程中需要最大化資源利用效率,且保證模型部署上線后在用戶使用時(shí)有優(yōu)異的性能。出色的部署工具能夠解決模型框架兼容性差和模型運(yùn)行速度慢這兩大問題。具體使用場(chǎng)景可以參考下圖:

重要公司:BentoML, OctoML【56】。

LLMOps 需求:增加

商業(yè)價(jià)值評(píng)價(jià):目前低

基于 AI 的應(yīng)用和產(chǎn)品會(huì)越來越多,優(yōu)秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 會(huì)在 LLMOps 重要的需求,且可能會(huì)衍生出模型剪枝、蒸餾等能壓縮模型冗余的部署 serving 需求。但都是大模型公司本身在做。

二次開發(fā)

開發(fā)者工具

作用:為開發(fā)出agent工具,提供調(diào)用各種細(xì)分工具的平臺(tái),產(chǎn)出智力成果。

Agent作為最終的LLM產(chǎn)品形態(tài),屬于大模型的智能能力的關(guān)鍵一部分,一定會(huì)研發(fā),且難度非常小。一方面LLM會(huì)將開發(fā)者和c端的流量卡在自己平臺(tái)上,一定會(huì)提供不同程度的自定義開發(fā)平臺(tái)(GPT2023年末已經(jīng)推出agent開發(fā)工具商店以及GPTs:無代碼的agent應(yīng)用開發(fā))。

商業(yè)價(jià)值取決于大模型公司是否會(huì)向后整合。

目前有兩種商業(yè)模式:

1 提供開發(fā)工具的開發(fā)者平臺(tái)

國(guó)內(nèi)(Fabarta),模型開發(fā)者工具Langchain,Together AI。

2 無代碼的agent開發(fā)

公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。

向量數(shù)據(jù)庫(kù)

作用:非結(jié)構(gòu)化數(shù)據(jù)庫(kù),儲(chǔ)存的數(shù)據(jù)形式為向量 embedding,在推薦系統(tǒng)、搜索引擎、異常檢測(cè)、LLM、多模態(tài)等場(chǎng)景下都是數(shù)據(jù)輸出、搜索、召回的重要形態(tài)【56】。

重要公司:Pinecone, Zilliz;國(guó)內(nèi)英飛流/InfiniFlow等

LLM需求:增加,但商業(yè)潛力:較低

在 LLM 語境下,向量搜索和查詢會(huì)在軟件中扮演更重要的作用,而向量數(shù)據(jù)庫(kù)則會(huì)成為這一方向中最重要的基礎(chǔ)設(shè)施之一。

首先,向量數(shù)據(jù)庫(kù)比較核心的技術(shù)就是索引(FLAT、HNSW、IVF)、相似度計(jì)算(余弦相似)、Embedding(將各種信息轉(zhuǎn)化成向量,降低信息復(fù)雜性);這些技術(shù)在大模型火之前就有了,時(shí)至今日本質(zhì)上沒有顯著變化。

其次,賽道進(jìn)入門檻比較低。無論是大模型提供方,還是傳統(tǒng)數(shù)據(jù)庫(kù)廠商都可以轉(zhuǎn)型進(jìn)入這部分業(yè)務(wù);這也就導(dǎo)致競(jìng)爭(zhēng)會(huì)變得非常激烈。對(duì)于初創(chuàng)型公司來說,無論是拼財(cái)力還是拼客戶都完全沒有優(yōu)勢(shì)。

由于其降低成本和實(shí)現(xiàn)關(guān)鍵agent檢索能力,模型大廠還有云計(jì)算廠商主動(dòng)納入其能力。

七、大模型層

大模型層,無論海外還是中國(guó),競(jìng)爭(zhēng)格局非常統(tǒng)一的都是初創(chuàng)公司和互聯(lián)網(wǎng)企業(yè)。

開源 vs 閉源

在生成式 AI 向前推進(jìn)的過程中,圍墻花園依然存在。OpenAI 并不 open 地僅開放商業(yè)化付費(fèi) API 作為 GPT-3 的使用方式,谷歌的大模型也并未開源。

下圖展示了開源社區(qū)追趕 AI 模型的時(shí)間線,可以看到技術(shù)追趕速度正在逐漸變快。那么這個(gè)趨勢(shì)是否會(huì)持續(xù)呢?如果差距持續(xù)縮小或較為穩(wěn)定,AI 模型開發(fā)可能成為 iOS vs 安卓的格局;而還有另一種可能,則是差距逐漸放大,AI 研究所專業(yè)化地研發(fā)大模型,開源團(tuán)隊(duì)主要做中小模型的工作。這一判斷的關(guān)鍵因素,會(huì)是各團(tuán)隊(duì)對(duì) GPT 模仿與超越的進(jìn)度。

但總歸而言:閉源比開源好!且公司一旦做出效果,也會(huì)閉源!

大公司采取完全閉源或者部分開源的方式(META開源-為了集中智慧,更好的優(yōu)化模型;但是訓(xùn)練數(shù)據(jù)并不開放和輸出限制,并不符合最新的開源標(biāo)準(zhǔn))

1 閉源有數(shù)據(jù)飛輪,將模型訓(xùn)練的更好

2 開源的盈利模式,只能提供非標(biāo)準(zhǔn)的開發(fā)服務(wù),沒有規(guī)模效應(yīng)

3 開源發(fā)展慢于閉源,但商業(yè)化的競(jìng)爭(zhēng)已然開始,以開源模型為基礎(chǔ)的軟件,性能和商業(yè)化落后

4 軟件類的歷史,都是開源先,再做閉源產(chǎn)品,天下沒有免費(fèi)的午餐

開源沒有但使用者多,生態(tài)建立快,使用者還可根據(jù)業(yè)務(wù)需求自行增減功能或進(jìn)行模型迭代,但是企業(yè)開發(fā)成本過高,無法及時(shí)收回成本,后面只能做為他人開發(fā)模型的工作,不具備規(guī)模經(jīng)濟(jì)優(yōu)勢(shì),注定盈利模式走不通,但可以做營(yíng)銷。

對(duì)于下游的應(yīng)用層開發(fā)者來說:

模型選擇的問題,企業(yè)可以先用好的開源模型開發(fā),再等待閉源模型技術(shù)發(fā)展突破(也可以同時(shí)開發(fā),比較效果),再跟上(大模型層公司一定會(huì)提供標(biāo)準(zhǔn)化的工具)。

LLM

LLM的大模型公司是行業(yè)里主導(dǎo)玩家,整個(gè)產(chǎn)業(yè)都會(huì)由于該行業(yè)的競(jìng)爭(zhēng)行為而變化。

從公開測(cè)試來看,中國(guó)大模型與國(guó)外模型仍有不小的差距。不過在scaling law的邊際效應(yīng)減小的情況下,仍然可以在最多1年內(nèi)追上。

海外

直接網(wǎng)站MAU數(shù)據(jù)說話,Chatgpt和借用OpenAI技術(shù)的微軟的Bing斷崖領(lǐng)先。還有app數(shù)據(jù),考慮到大家使用都是通過網(wǎng)站入口進(jìn)入,app的數(shù)據(jù)影響較少。

海外的商業(yè)化和技術(shù)進(jìn)展整體快于國(guó)內(nèi)市場(chǎng),有非常好的借鑒意義。

初創(chuàng)企業(yè)

1 OpenAI

具有絕對(duì)優(yōu)勢(shì)地位!利用技術(shù)優(yōu)勢(shì)的時(shí)間差,正在快速商業(yè)化和防守!

團(tuán)隊(duì):掏空硅谷人才的頂尖公司,但是由于眾所周知的不再“open”和改變企業(yè)性質(zhì)為盈利組織后,一次團(tuán)隊(duì)“政變后”,關(guān)鍵科學(xué)家伊利亞以及安全團(tuán)隊(duì)的出走,企業(yè)后續(xù)的頂層技術(shù)設(shè)計(jì)能力堪憂。CEO奧特曼是美國(guó)孵化器YC(國(guó)內(nèi)奇績(jī)創(chuàng)壇的前身)的總裁。

事實(shí)上,近期OpenAI的人事變動(dòng)頗為頻繁,大量關(guān)鍵科研人才流動(dòng)。此前在今年5月,OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)負(fù)責(zé)人Jan Leike以及聯(lián)合創(chuàng)始人、前首席科學(xué)家Ilya Sutskever在同一天宣布離職。此外有消息顯示,OpenAI另一位聯(lián)合創(chuàng)始人Andrej Karpathy也已在今年2月離職,并且去年加入該公司的產(chǎn)品負(fù)責(zé)人Peter Deng也已離職。

隨后在8月初,OpenAI聯(lián)合創(chuàng)始人John Schulman宣布離職,并表示將加入AI初創(chuàng)公司Anthropic。彼時(shí)OpenAI公司發(fā)言人曾透露,總裁Greg Brockman將休假至今年年底,并且Greg Brockman本人表示這是其自9年前創(chuàng)立OpenAI以來第一次放松。

今年9月OpenAI首席技術(shù)官M(fèi)ira Murati也宣布離職,并表示,“經(jīng)過深思熟慮,我做出了離開OpenAI這一艱難決定。離開這個(gè)深愛的地方從來沒有一個(gè)理想的時(shí)間,但感覺此刻就是最好的選擇”。

本月初OpenAI旗下Sora AI視頻生成項(xiàng)目負(fù)責(zé)人Tim Brooks宣布離職,加入OpenAI的主要競(jìng)爭(zhēng)對(duì)手谷歌DeepMind。近日,OpenAI高級(jí)研發(fā)人員、OpenAI o1推理模型負(fù)責(zé)人Luke Metz宣布即將從OpenAI離職。

目前OpenAI的招聘重點(diǎn)已經(jīng)從基礎(chǔ)研究轉(zhuǎn)向產(chǎn)品開發(fā)和應(yīng)用領(lǐng)域。

戰(zhàn)略方向:根據(jù)開發(fā)者大會(huì),可以確認(rèn)OpenAI重點(diǎn)將在繼續(xù)開發(fā)多模態(tài)大模型(尋找下一代的Scaling Law以及Cot等等)和尋找商業(yè)化(1為基于gpt的開發(fā)者提供全棧的開發(fā)工具和方案–免代碼的GPTs和Assitant 2運(yùn)營(yíng)應(yīng)用軟件的平臺(tái)-Store 3To C的搜索引擎以及Canvas工作臺(tái));向后向前整合關(guān)鍵能力。特別是C端,OpenAI一定會(huì)去嘗試去做大市場(chǎng)的生意。

To C類(獲取流量):提供Chatgpt,GPTs agent和GPT-store,奧特曼長(zhǎng)期如果想要推翻谷歌,成為新的檢索入口,必須要找到新商業(yè)模式和生態(tài)?。ㄌ貏e是找到和廣告商收費(fèi),但又不破壞C端客戶使用體驗(yàn)的商業(yè)模式)。

OpenAI確實(shí)在產(chǎn)品化上有所不足,目前OpenAI的招聘重點(diǎn)已經(jīng)從基礎(chǔ)研究轉(zhuǎn)向產(chǎn)品開發(fā)和應(yīng)用領(lǐng)域。此前在2021年,該公司發(fā)布的招聘職位中有23%屬于一般研究類職位,但在2024年這個(gè)比例已降至4.4%。

對(duì)于B端(ISV生態(tài)工具棧):短期內(nèi)參考蘋果生態(tài)(廣泛吸引開發(fā)團(tuán)隊(duì)入住),市場(chǎng)上對(duì)C產(chǎn)品收取高額月費(fèi)享受ai服務(wù),可以短期收錢,但是目前來看大模型競(jìng)爭(zhēng)隨時(shí)趕上,賺錢的服務(wù)也將會(huì)被垂類公司賺走,如何獲取和留存大流量;提供統(tǒng)一模型微調(diào)和訓(xùn)練工具。為了應(yīng)對(duì)谷歌等大公司整體生態(tài)的競(jìng)爭(zhēng),必須要走出商業(yè)差異化!

與互聯(lián)網(wǎng)大廠合作:微軟占有49%的股份,引用至自己的終端(copolit agent–LLM版搜索引擎救活了微軟無人問津的瀏覽器edge–兩年內(nèi)從8%的市場(chǎng)份額提升至15%!直接挑戰(zhàn)谷歌chrome),同時(shí)也投資了另一家大模型公司,大公司都會(huì)使用大模型來對(duì)其企業(yè)產(chǎn)品進(jìn)行agent化和云服務(wù)的協(xié)同工作!微軟同時(shí)投資mistral和引入inflection ai的ceo,說明對(duì)OpenAI的掌控不強(qiáng),所以才做的多手準(zhǔn)備。BTW,微軟云計(jì)算的azure上的GPT的api費(fèi)用要低于OpenAI官網(wǎng)的價(jià)格。

對(duì)于OpenAI來說,一方面的投資有算力的加成,快速訓(xùn)練,一方面微軟也對(duì)奧特曼的支持導(dǎo)致了伊利亞想把奧特曼踢出團(tuán)隊(duì)的失敗。另外根據(jù)協(xié)議,OpenAI一旦開發(fā)出AGI(第五級(jí)-AI可以完成一個(gè)組織的工作),微軟就將失去OpenAI的技術(shù)。

總而言之,OpenAI拿算力、數(shù)據(jù);微軟拿到OpenAI的技術(shù)作出產(chǎn)品,賦能業(yè)務(wù)。

2 Anthropic

創(chuàng)始人達(dá)里奧是一個(gè)技術(shù)天才,在OpenAI的5年間,他先后帶領(lǐng)團(tuán)隊(duì)開發(fā)了OpenAI的早期產(chǎn)品GPT-2和GPT-3,成為首批記錄人工智能規(guī)模定律和規(guī)?;募夹g(shù)大牛。

正是這段經(jīng)歷,達(dá)里奧逐漸意識(shí)到AI可能比想象中強(qiáng)大,它帶來的安全問題也比想象中更嚴(yán)峻,然而,OpenAI似乎并不能解決他的顧慮。2020年6月,GPT-3問世,半年后他與妹妹丹妮拉決定一同辭職。

OpenAI核心團(tuán)隊(duì)出來創(chuàng)業(yè),Anthropic 已經(jīng)和 亞馬遜、Google、Salesforce 達(dá)成了戰(zhàn)略合作,使用 Google 提供的云服務(wù),并且集成到 Slack 中;Anthropic也表示會(huì)進(jìn)一步擴(kuò)大與AWS的合作,提出將“從芯片到軟件的技術(shù)基礎(chǔ),共同推動(dòng)下一代人工智能研究和開發(fā)?!逼渲芯桶ê献鏖_發(fā)AI芯片,以及AWS業(yè)務(wù)的進(jìn)一步滲透。

Anthropic 的成功源于其獨(dú)特的技術(shù)路線和商業(yè)策略。首先,Claude 3.5 Sonnet 模型在性能上實(shí)現(xiàn)了質(zhì)的飛躍。根據(jù) Anthropic 官方的數(shù)據(jù),該模型在研究生水平推理能力(GPQA)、本科水平知識(shí)(MMLU)和編碼能力(HumanEval)等多個(gè)基準(zhǔn)測(cè)試中均表現(xiàn)出色,甚至超越了其前身 Claude 3 Opus。

基于Anthropic發(fā)布了一項(xiàng)革命性的技術(shù)——模型上下文協(xié)議(Model Context Protocol,MCP)目標(biāo)是實(shí)現(xiàn)LLM應(yīng)用程序與外部數(shù)據(jù)源和工具之間的無縫集成。

因?yàn)樵试SLLM訪問和利用外部資源,它的功能性和實(shí)用性都會(huì)大大增強(qiáng)。解決LLM數(shù)據(jù)孤島的問題。使得開發(fā)者更容易開發(fā)自己的產(chǎn)品。

無論是構(gòu)建AI驅(qū)動(dòng)的IDE、聊天界面,還是創(chuàng)建自定義的AI工作流,MCP都提供了一種標(biāo)準(zhǔn)化的方式,來連接LLM與它們所需的上下文。

Claude 3.5 Sonnet 引入了革命性的”計(jì)算機(jī)使用”功能。這項(xiàng)功能允許 AI 模型像人類一樣與計(jì)算機(jī)圖形用戶界面交互,包括解釋屏幕圖像、移動(dòng)鼠標(biāo)指針、點(diǎn)擊按鈕,甚至通過虛擬鍵盤輸入文本。這種創(chuàng)新大大拓展了 AI 的應(yīng)用范圍,為企業(yè)用戶提供了前所未有的靈活性。

此外,Anthropic 還推出了”Artifacts”功能,允許用戶直接在聊天界面中與模型輸出進(jìn)行交互和操作。這不僅提高了生產(chǎn)效率,還促進(jìn)了人機(jī)協(xié)作的創(chuàng)新。

Anthropic 的成功也得益于其在安全性和道德方面的重視。公司率先提出了”憲法 AI”的概念,為其 AI 模型制定了一套道德準(zhǔn)則和行為指南。這種做法不僅贏得了用戶的信任,也為整個(gè)行業(yè)樹立了標(biāo)桿。模型與人類道德強(qiáng)對(duì)齊。

3 Mistral AI

Mistral AI成立于法國(guó)和2023年4月,由DeepMind和Meta的前科學(xué)家共同組建,專注于開源模型及企業(yè)級(jí)服務(wù)。公司成立之初,就獲得了英偉達(dá)、微軟和Salesforce等科技巨頭的投資。Mistral AI被視為OpenAI在歐洲的主要競(jìng)爭(zhēng)對(duì)手,據(jù)該公司介紹,其開源模型Mixtral 8x22B是市面上參數(shù)規(guī)模第二大的開源模型,僅次于馬斯克的Grok-1。

不過,在與科技巨頭的競(jìng)爭(zhēng)中,Mistral AI面臨很大的挑戰(zhàn)。今年前三個(gè)月,Meta、Google和微軟在數(shù)據(jù)中心建設(shè)和其他基礎(chǔ)設(shè)施的投資總額超過了320億美元。不過,Mistral AI已與微軟建立了長(zhǎng)期合作伙伴關(guān)系,利用Azure AI的超級(jí)計(jì)算基礎(chǔ)設(shè)施訓(xùn)練模型,并共同為客戶提供Mistral AI的模型服務(wù)。

互聯(lián)網(wǎng)企業(yè)

還有meta、谷歌、亞馬遜、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不錯(cuò)。且有流量的優(yōu)勢(shì),agent產(chǎn)品化后搭載在自己硬件如谷歌手機(jī),軟件如Meta的app上。

關(guān)鍵是誰會(huì)贏?

在基礎(chǔ)的算力和數(shù)據(jù)上,初創(chuàng)公司遠(yuǎn)遠(yuǎn)不如互聯(lián)網(wǎng)企業(yè),唯獨(dú)在算法層面,或者更具體的說:AI算法認(rèn)知領(lǐng)先,在智能工程上(數(shù)據(jù)、計(jì)算機(jī)系統(tǒng))有一定的開發(fā)領(lǐng)先知識(shí)和經(jīng)驗(yàn)。預(yù)計(jì)和大廠們有個(gè)最多8個(gè)月的技術(shù)優(yōu)勢(shì)。然而在scaling law大概率失效下,這個(gè)時(shí)間將會(huì)被快速拉短。

本身大廠們就是算法領(lǐng)域知識(shí)產(chǎn)出的主要來源(推薦算法、cv都是互聯(lián)網(wǎng)廠商的深度學(xué)習(xí)的拿手好戲,適應(yīng)新算法很快),本身的transformer算法也是由谷歌提出,且互聯(lián)網(wǎng)大廠的業(yè)務(wù)就是cash cow,不缺利潤(rùn),后期追上很快。只是現(xiàn)在為了市場(chǎng)的競(jìng)爭(zhēng),快速合作,ai化產(chǎn)品賦能業(yè)務(wù)增長(zhǎng),實(shí)際上都在自己做模型。

在這種博弈下,初創(chuàng)公司只能不斷創(chuàng)造壁壘,保持技術(shù)上的領(lǐng)先的同時(shí),找到一條可以挑戰(zhàn)互聯(lián)網(wǎng)企業(yè)的商業(yè)化路徑(至少這里還有無限的可能),否則會(huì)被互聯(lián)網(wǎng)初期免費(fèi)的策略競(jìng)爭(zhēng)(基本上互聯(lián)網(wǎng)企業(yè)的模型都免費(fèi),或者api價(jià)格遠(yuǎn)低于初創(chuàng)企業(yè),Llama都直接開源的)。所以初創(chuàng)企業(yè)和終端應(yīng)用層的界限將會(huì)十分模糊,大模型企業(yè)除了提供MAAS的api等服務(wù)外,也會(huì)提供豐富的產(chǎn)品給到用戶。

如果無法成功商業(yè)化,那么初創(chuàng)企業(yè)基本上就會(huì)和上一時(shí)代的CV公司一樣:商湯、曠世依靠給互聯(lián)網(wǎng)大廠賣人臉識(shí)別api起家,技術(shù)成熟后,同質(zhì)化競(jìng)爭(zhēng),單次識(shí)別人臉的單價(jià)從幾毛錢直接降到幾厘錢,甚至更低;然后開始尋找二次增長(zhǎng)曲線,各種行業(yè)(自動(dòng)駕駛、醫(yī)療、to c等等),搞渠道,做非標(biāo)總包定制化,毛利下降。。。。。

總而言之,初創(chuàng)企業(yè)必須找到自己的有壁壘的盈利池,特別是to c領(lǐng)域作為大頭,拿到互聯(lián)網(wǎng)算力和投資后,把握好關(guān)系避免過于深入?yún)⑴c業(yè)務(wù),要充滿想象力和勇敢挑戰(zhàn)互聯(lián)網(wǎng)大廠的業(yè)務(wù),否則到頭來就是個(gè)大廠外包研發(fā)團(tuán)隊(duì),有業(yè)務(wù)能量和技術(shù)的等待并購(gòu)or直接下牌桌。

那么這次的LLM浪潮到底是互聯(lián)網(wǎng)大廠們的流量競(jìng)爭(zhēng)的延續(xù)還是新時(shí)代的降臨呢?

國(guó)內(nèi)

初創(chuàng)企業(yè)

智譜ai:同時(shí)投資生數(shù)科技(美術(shù)類)和冪律智能(法律類),補(bǔ)充能力和應(yīng)用層,商業(yè)化最成熟,主要面向to b;有語音、文本和圖像,有開發(fā)平臺(tái);智譜 AI 已擁有超2000家生態(tài)合作伙伴、超1000個(gè)大模型規(guī)模化應(yīng)用,另有200多家企業(yè)跟智譜AI進(jìn)行了深度共創(chuàng)。

近期,在11月末智譜推出自己手機(jī)版的AutoGLM之前–可用語言操控手機(jī)的agent(LUI),下面應(yīng)用層,會(huì)詳細(xì)講述,他的股東螞蟻集團(tuán)的著名app-支付寶,在9月份早早就推出了“支小寶”,人們可以和他對(duì)話,在支付寶上進(jìn)行訂外賣、訂機(jī)票等等操作。

月之暗面:to c(主要定位)商業(yè)化最好:Kimi智能助手在2024年1月的訪問量達(dá)142萬,在大模型創(chuàng)業(yè)公司的“AI ChatBots”產(chǎn)品中居于首位,月環(huán)比增長(zhǎng)率為94.1%,增長(zhǎng)速度也在大模型創(chuàng)業(yè)公司中排名第一;技術(shù)優(yōu)勢(shì),250ktokens的長(zhǎng)文本輸入,主打無損記憶;但只有文字,to c入手;最近又有了CoT能力,數(shù)字推理能力加強(qiáng)不少。

互聯(lián)網(wǎng)企業(yè)

上述榜單為app使用榜單,非網(wǎng)頁(yè)版,更符合大家對(duì)模型和應(yīng)用層使用的市場(chǎng)認(rèn)知。豆包的使用是斷崖式的,和自己app業(yè)務(wù)的賦能,飛書等app內(nèi)置豆包免費(fèi)使用,加上宣發(fā)和教育板塊的擴(kuò)張。

字節(jié)的豆包、360、華為、百度、阿里、美團(tuán)等等都在出自己的模型。這里面字節(jié)和360做的商業(yè)化和模型成果結(jié)合的不錯(cuò),流量好。這里要說一句,幻方的deepssek模型通過優(yōu)化注意力機(jī)制和量化的大量GPU(除了字節(jié)外,最大的英偉達(dá)算力方了),獲得了非常好的效果,性能位居世界前列,但不商業(yè)化,不賺錢,只開源模型,模型的競(jìng)爭(zhēng)實(shí)在過于強(qiáng)烈。

國(guó)內(nèi)國(guó)外的競(jìng)爭(zhēng)態(tài)勢(shì)幾乎一樣。不再贅述。

八、應(yīng)用層——軟件

AI應(yīng)用軟件綜述

目前應(yīng)用層的問題在于,大家都是嘗試在用,后續(xù)使用次數(shù)不多,無法利用好大模型的特性與需求貼合。

所以應(yīng)用層的成功的關(guān)鍵是基于場(chǎng)景的深度理解,做出復(fù)用率高的產(chǎn)品!所以MAU、復(fù)購(gòu)率等為關(guān)鍵指標(biāo)。還是得回到應(yīng)用場(chǎng)景的關(guān)鍵詞:

剛需  長(zhǎng)期  高頻

應(yīng)用層公司的模型選擇路徑

1 利用已有的閉源大模型用自己的數(shù)據(jù)微調(diào)模型:(但要找到合適的盈利模式,抵消流量費(fèi)用)

訓(xùn)練費(fèi)用和調(diào)用費(fèi)用:OpenAI對(duì)訓(xùn)練和api調(diào)用收費(fèi)。這通?;谑褂玫挠?jì)算資源量和使用的模型。

  • GPT-4v訓(xùn)練價(jià)格:$0.00800/1K tokens ,promt/輸出價(jià)格:$0.00900/1K tokens 訓(xùn)練價(jià)格:$0.00800/1K tokens,1K tokens 大約750個(gè)英文單詞,500個(gè)漢字,10個(gè)億中文。
  • 訓(xùn)練3次,僅花費(fèi)35萬人民幣,關(guān)鍵在使用收費(fèi)–交互2000次/1美元,大互聯(lián)網(wǎng)公司一天估計(jì)有10億次交互,每月要繳納1500萬美元,不如直接開發(fā)自己的大模型。

2 自研

3 開源大模型再訓(xùn)練

基本上應(yīng)用層的公司還是微調(diào)模型,不自研,也就是所謂的“套殼”,所以他們的壁壘就在于對(duì)場(chǎng)景和LLM的理解從而開發(fā)出PMF的產(chǎn)品,而技術(shù)層面上來說,所有套殼公司要做的事情就是提示詞工程-通過LLM偏好的語言習(xí)慣,引導(dǎo)LLM最優(yōu)化的輸出結(jié)果。

To B & To G–企業(yè)服務(wù)

海外龍頭公司:Saleforce、SAP、Zoom、Adobe、云服務(wù)公司等

國(guó)內(nèi):釘釘、企業(yè)微信、飛書、金蝶、用友等

針對(duì)大模型的已有的創(chuàng)造和歸納推理能力,可以部分替代美術(shù)創(chuàng)意、文字推理歸納。

(一)信息管理類

CRM — AI客服

大型企業(yè)如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 產(chǎn)品。其中,Sales Agent 是目前 AI Agent 主要落地和商業(yè)化場(chǎng)景之一。硅谷 VC 圍繞 Sales Agent 概念投資了很多 club deal,如完成了 5000 萬美元的 B 輪融資,估值 3.5 億美元的 AI SDR (Sales Development Representative,銷售開發(fā)代表) 11X,Greenoaks Capital 領(lǐng)投新一輪的 Sierra 估值也達(dá)到了 40 億美金【57】。

與此同時(shí),Agent 公司從按 seats 數(shù)量收費(fèi)的 SaaS 定價(jià)模式轉(zhuǎn)向基于結(jié)果定價(jià),帶來了更大的市場(chǎng)空間和想象力。

目前的 Sales Agent Startup 大多專注于替代或優(yōu)化銷售流程中的某些環(huán)節(jié)。

AI客服歷史

客服市場(chǎng)從上世紀(jì) 50 年代發(fā)展到今天,主要經(jīng)歷了四個(gè)階段【58】:

傳統(tǒng)電話客服(2000 年以前)—多渠道客服(2000 年-2010 年)—云客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使發(fā)展到今天,客服市場(chǎng)競(jìng)爭(zhēng)格局仍然十分分散。在 LLM 之前,AI 客服依賴于自然語言理解(NLU) 和機(jī)器學(xué)習(xí),不同的行業(yè)需要不同的語料庫(kù),客服公司通常僅能在一至兩個(gè)垂直行業(yè)做深,難Scale。

第四階段的 AI 客服也叫 “對(duì)話式 AI(Conversational AI)”,國(guó)際主要玩家包括 Kore.ai、Amelia 等。

AI客服技術(shù)路徑

早期基于 Rule-Base 的 Chatbot 對(duì)答是可控、可預(yù)測(cè)、可重復(fù)的,但對(duì)話缺乏“人情味”,并且通常不保留已發(fā)生的響應(yīng),存在重復(fù)和循環(huán)對(duì)話的風(fēng)險(xiǎn)。傳統(tǒng) Chatbot 架構(gòu)和工具非常成熟,主要包括四個(gè)部分:NLU 自然語言理解,對(duì)話流程管理(對(duì)話流和響應(yīng)消息,基于固定和硬編碼邏輯)、信息抽象(預(yù)定每個(gè)對(duì)話的機(jī)器人響應(yīng))、知識(shí)庫(kù)檢索(知識(shí)庫(kù)和語義相似性搜索)。傳統(tǒng) Chatbot 唯一基于機(jī)器學(xué)習(xí)和 AI 模型的組件是 NLU 組件,負(fù)責(zé)根據(jù)模型預(yù)測(cè)意圖和實(shí)體。這種 NLU 引擎的優(yōu)點(diǎn)是:有眾多開源模型、占用空間小/無需過多資源、存在大量的命名實(shí)體語料庫(kù)、有大量垂直行業(yè)的數(shù)據(jù)。后來的 Chatbot 采用更復(fù)雜的算法,包括自然語言處理(NLP)和機(jī)器學(xué)習(xí),來提供動(dòng)態(tài)和上下文相關(guān)的交互,從而解決早期基于模板的方法的缺點(diǎn)。

Chatbot 發(fā)展到后期出現(xiàn)了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。這些變化增加了復(fù)雜性,提供更好的對(duì)話效果、更長(zhǎng)的對(duì)話時(shí)間和更多的對(duì)話輪次,以及更復(fù)雜的對(duì)話元素(如自我糾正、背景噪音等)。然而,Voicebot 出現(xiàn)的同時(shí)也帶來了一系列挑戰(zhàn):有延遲問題、需要更復(fù)雜的流程、需要加翻譯層、容易出現(xiàn)對(duì)話離題、用戶打斷對(duì)話難以解決等。

因此,開發(fā)者依然在渴望一個(gè)靈活且真正智能的對(duì)話管理系統(tǒng)。LLM 的出現(xiàn)從開發(fā)到運(yùn)行都顛覆了 Chatbot  IDE 生態(tài)系統(tǒng):不僅加速了 Chatbot 的開發(fā)設(shè)計(jì),大大提高了Scalability;而且在對(duì)話運(yùn)行中可以實(shí)現(xiàn)上下文交互、靈活且智能的回復(fù)。但缺點(diǎn)是穩(wěn)定性、可預(yù)測(cè)性較差,以及在某種程度上的可重復(fù)性弱。

AI客服需求場(chǎng)景

根據(jù)銷售工作流,可以將 AI 客服分為幾類:

1)營(yíng)銷類外呼:售前場(chǎng)景因?yàn)閷?duì)于模型的理解和智能能力要求較低,是目前比較好的落地場(chǎng)景。Voice agent可以帶來更自然的對(duì)話體驗(yàn),同時(shí)能夠結(jié)合分析歷史通話數(shù)據(jù),實(shí)現(xiàn)營(yíng)銷轉(zhuǎn)化的提高。如果遇到太難的問題,LLM 也可以檢測(cè)后發(fā)給普通的客服。

2)銷售中:目前LLM還比較少的被應(yīng)用到直面leads,因?yàn)槭苣芰ο拗?,失敗了損失過大。但被充分應(yīng)用于客服培訓(xùn)中,一方面節(jié)省了因?yàn)殡婁N頻繁離職導(dǎo)致的過多培訓(xùn)時(shí)間成本;另一方面可以做到知識(shí)庫(kù)實(shí)時(shí)對(duì)齊,成為電銷的語音 copilot。

3)投訴/售后服務(wù)、客戶回訪(占比50%):AI 可以幫助客服收集客戶投訴,解決簡(jiǎn)單的售后服務(wù)問題(不一定要使用LLM)。同時(shí)可以進(jìn)行大規(guī)模的客戶回訪,也開始被企業(yè)廣泛的采用。

市場(chǎng)規(guī)模

根據(jù) Morgan Stanley 的報(bào)告,目前全球大約有 1700 萬名客服代理人員,代表著大約 2000 億美元的全球勞動(dòng)力市場(chǎng)。隨著多渠道協(xié)調(diào)響應(yīng)的需求增加(例如電子郵件、社交媒體、聊天),這個(gè)市場(chǎng)從傳統(tǒng)的客服中心向云服務(wù)轉(zhuǎn)型。根據(jù) Morgan Stanley 估計(jì),目前高達(dá) 50 % 的客服互動(dòng)都屬于簡(jiǎn)單直接的類型(例如密碼重置、包裹查詢、需要退貨),隨著 AI 解決方案的改進(jìn),這些互動(dòng)未來可能不需要人工客服的參與。但是考慮到客戶強(qiáng)烈希望與真人客服交談的偏好,在保守情況下,未來 5 年內(nèi),可由 AI 處理的客服業(yè)務(wù)將占 10-20 %,并且這一比例預(yù)期將增長(zhǎng)。因此,Morgan Stanley 認(rèn)為在未來 5 年內(nèi),Contact Center 市場(chǎng)(包括 CCaaS 和 對(duì)話式 AI )2027 年市場(chǎng)規(guī)??蛇_(dá)約 260 億美元。

市場(chǎng)格局推測(cè)

Sales AI 領(lǐng)域非常Crowded,主要競(jìng)爭(zhēng)對(duì)手可分為三大類:大型公司的銷售自動(dòng)化產(chǎn)品、同類 Gen AI 初創(chuàng)公司、以及上一代 AI 銷售軟件。

垂直行業(yè)的語料庫(kù)和客戶資源在客服 NLU 時(shí)代是玩家的競(jìng)爭(zhēng)壁壘(數(shù)據(jù)、行業(yè)認(rèn)知和客戶資源),所以客戶在選擇供應(yīng)商時(shí)更看重供應(yīng)商在垂直行業(yè)的經(jīng)驗(yàn),因此截至目前 AI 客服市場(chǎng)格局仍然較分散。根據(jù)專家訪談,AI 客服市場(chǎng)未來很可能有 20-30 位玩家同時(shí)留在場(chǎng)上,重要玩家的收入體量大約可達(dá)到 10-30 億美元。假設(shè) LLM 落地成熟,考慮到 LLM 的通用性,市場(chǎng)格局有可能由分散變?yōu)楦蛹?,更利好頭部公司。

眾所周知的原因-中國(guó)市場(chǎng)的暫未接受訂閱制導(dǎo)致軟件公司無法像國(guó)外企業(yè)一樣,獲得高額的收入。但這也是商業(yè)進(jìn)程問題,美國(guó)經(jīng)歷了軟硬件一體機(jī)的IBM壟斷,到Oracle等軟硬分離的訂閱制挑戰(zhàn),再到目前大模型的API-用多少買多少;每次盈利模式背后都是市場(chǎng)受夠了被生產(chǎn)者壟斷的剩余剝削,選擇了更加平等的盈利模式;中國(guó)市場(chǎng)還需要時(shí)間。

所以即使收入增長(zhǎng)很快,國(guó)內(nèi)企業(yè)服務(wù)目前在融資低谷(大家更希望看到并購(gòu)整合,只為活出資本寒冬)。但是原有的AI客服公司明顯在新浪潮下,具有更大的先發(fā)優(yōu)勢(shì):技術(shù)上-只需微調(diào)模型;但有大量的數(shù)據(jù)和場(chǎng)景理解;商業(yè)上有固定的渠道客戶,新的盈利模式帶來進(jìn)行溢價(jià)的升級(jí)。期待商業(yè)模式的轉(zhuǎn)折,重新將軟件類估值抬回應(yīng)有的水平。

LLM 對(duì) AI 客服市場(chǎng)的技術(shù)風(fēng)險(xiǎn)

真正到了落地階段客戶仍更多采用傳統(tǒng)機(jī)器學(xué)習(xí)/NLP 的解決方案(客戶有定制化和垂直行業(yè)解決方案的需求,LLM 對(duì)垂直行業(yè)的理解和準(zhǔn)確性反而不如傳統(tǒng)方案),需要限制LLM的幻覺。需要因此目前主要是成立年限較長(zhǎng)、有一定行業(yè)經(jīng)驗(yàn)和客戶積累的傳統(tǒng)公司受益。但傳統(tǒng)方案基于關(guān)鍵詞進(jìn)行回答,靈活度較差,用戶體驗(yàn)也不夠真實(shí),因此該情況有可能僅是過渡階段。

國(guó)內(nèi)公司有:句子互動(dòng)、斑頭雁、追一科技、百應(yīng)科技、Stepone等

ERP — 企業(yè)搜索

根據(jù) ReportLinker 預(yù)測(cè),2028 年,全球企業(yè)搜索市場(chǎng)規(guī)模將達(dá)到$6.9B,2022-2028年 CAGR 為 8.3%【59】。

供需:企業(yè)搜索產(chǎn)品的目標(biāo)用戶主要為知識(shí)工作者,企業(yè)客戶覆蓋大、中、小型公司,但以大型企業(yè)和中等規(guī)模公司為主,因?yàn)殡S著企業(yè)越來越龐大,積累的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)越來越多,員工與員工之間溝通也越來越低效,因此企業(yè)越大對(duì)企業(yè)搜索的需求就越大。

海外企業(yè)搜索大致經(jīng)歷了三個(gè)階段:

1. 第一階段是基于關(guān)鍵詞的搜索,用戶需要輸入關(guān)鍵詞或關(guān)鍵詞組合進(jìn)行搜索;

2. 第二階段是基于語義的搜索,用戶可以輸入自然語言完成搜索,且搜索的相關(guān)性和準(zhǔn)確性和第一階段相比有很大提升。

前面兩個(gè)階段的共同特點(diǎn)是,均為用戶輸入關(guān)鍵詞或自然語言,搜索引擎根據(jù)相關(guān)性對(duì)搜索結(jié)果進(jìn)行排序,且搜索結(jié)果為網(wǎng)站;

3.第三階段,也就是現(xiàn)在,搜索出現(xiàn)了新的玩法,ChatGPT 或 Bard 等搜索的結(jié)果不再是一條條網(wǎng)站,而是直接提供問題的答案。Glean 屬于比較積極擁抱搜索行業(yè)的變化的玩家,技術(shù)上同時(shí)提供語義搜索和關(guān)鍵詞搜索的能力,產(chǎn)品上同時(shí)提供答案生成和網(wǎng)頁(yè)排序兩種形式。

企業(yè)搜索的需求非常明顯和穩(wěn)定,因此該賽道一直比較擁擠,主要玩家包括微軟、Google、Amazon、IBM、Oracle 等大型科技企業(yè),以及專注做企業(yè)搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,這其中有像 Glean 這樣新成立的公司,也有像 Coveo 這樣已經(jīng)成立十幾年的公司。

與企業(yè)服務(wù)公司產(chǎn)品為互補(bǔ)品,可拆分,客戶離不開原有的企業(yè)服務(wù)產(chǎn)品,且數(shù)據(jù)均在原公司,企業(yè)檢索為增值服務(wù),可短時(shí)間內(nèi)自研。

Glean(谷歌搜索團(tuán)隊(duì)創(chuàng)業(yè))

客戶:Glean 早期將科技公司視為目標(biāo)客戶,后來更聚焦于成長(zhǎng)期科技公司,這些公司的員工數(shù)量通常是 500-2,000 人,公司處于高速發(fā)展之中,愿意嘗試新事物且快速行動(dòng)。

技術(shù):Glean 利用多維方法將矢量搜索、傳統(tǒng)關(guān)鍵字搜索和個(gè)性化結(jié)合到了一個(gè)混合搜索系統(tǒng)中,從而提高了搜索的相關(guān)性和準(zhǔn)確性。

核心功能是搜索;亮點(diǎn)是個(gè)性化和跨應(yīng)用。

商業(yè)價(jià)值:Glean 的跨應(yīng)用搜索相當(dāng)于在所有 SaaS 產(chǎn)品之上架了一層,用戶不需要再逐一打開 SaaS 應(yīng)用,在 Glean 上就可以查到企業(yè)數(shù)據(jù),并完成部分高頻工作;流量進(jìn)入入口,并且還能直接有生產(chǎn)力,目前最多的還是員工入職場(chǎng)景(培養(yǎng)使用習(xí)慣?。?/p>

商業(yè)模式:純 to B 的模式,未向個(gè)人用戶開放。Glean 通常為企業(yè)提供兩種定價(jià)模型,一是 Per-Seat 的定價(jià)模型,每個(gè) Seat 每月 100 美金以內(nèi);二是針對(duì)企業(yè)級(jí)解決方案的個(gè)性化定價(jià)模型。

競(jìng)爭(zhēng)優(yōu)勢(shì):1易用性(鏈接多個(gè)SaaS合作),冷啟動(dòng)快(3天)2搜索能力的數(shù)據(jù)飛輪,形成個(gè)性化 3員工的網(wǎng)絡(luò)效應(yīng)。

但是無法沉淀業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)都在SaaS,有搜索數(shù)據(jù)沉淀,提供企服的公司一般也提供(并購(gòu)邏輯),國(guó)外使用SaaS較多,所以需要企業(yè)搜索來使其串聯(lián),不像國(guó)內(nèi)統(tǒng)一化。

未來的期待:想辦法有一定的數(shù)據(jù)沉淀,未來要成為中心平臺(tái),需要再多做一些高價(jià)值工作替代or形成行業(yè)工作流的替代,讓使用者繼續(xù)使用。

國(guó)內(nèi)

主要是大模型層公司在做,一種是幫助企業(yè)員工進(jìn)行企業(yè)內(nèi)部知識(shí)搜索和總結(jié)-私有化部署(項(xiàng)目制,商業(yè)潛力弱);一種是ERP公司使用大模型進(jìn)行搜索并進(jìn)行SaaS調(diào)用。

關(guān)注數(shù)據(jù)獲取留存以及如何商業(yè)化,是否考慮垂直行業(yè)工作流的agent化!泛化能力不強(qiáng),先抓住垂直客戶的高價(jià)值需求,先商業(yè)化。感覺業(yè)務(wù)有些迷茫,目前客服和數(shù)據(jù)預(yù)處理都有大量玩家參與,大的ERP公司例如金蝶、用友等可以嘗試調(diào)用大模型復(fù)制Glean,完善自己的企業(yè)軟件使用入口,進(jìn)行優(yōu)化,通過大模型調(diào)用各類SaaS。

國(guó)內(nèi)ERP公司目前的超萬級(jí)的ISV和生態(tài)完整的工具棧壁壘是模型層完全無法競(jìng)爭(zhēng)的,大概率做個(gè)內(nèi)部技術(shù)支持。

HCM — 數(shù)字人面試&員工培訓(xùn)

主要是數(shù)字人視頻來代替面試(企業(yè)減少招聘投入并提供面試者之前機(jī)器面試的體驗(yàn)感)和新員工的入職培訓(xùn)視頻。

數(shù)字人互動(dòng)直播與錄播有點(diǎn)類似,只是錄播少了互動(dòng)。在錄播時(shí)會(huì)先把視頻錄制好,然后通過OBS推流,推到直播平臺(tái)就可以了。如果需要互動(dòng)流程時(shí),要獲取直播彈幕,判斷彈幕是否滿足回答條件,如果需要回答則生成答案,然后在走一遍視頻制作流程,然后推流。

技術(shù)上無壁壘,商業(yè)上直播不允許用錄制的視頻,作用只能在短視頻平臺(tái)進(jìn)行視頻成本的下降。大廠都有在做。

目前對(duì)于可重復(fù)性多的視頻生成場(chǎng)景,有較高的價(jià)值,例如網(wǎng)課、入職培訓(xùn)等教育和營(yíng)銷領(lǐng)域??春贸龊#杖朐鲩L(zhǎng)快的公司。特別是出海,詳細(xì)分析請(qǐng)看下述的視頻生成賽道。

初創(chuàng)公司代表:硅基智能、Fancytech、Heygen等,其他數(shù)字人中小公司也很多。

法律

根據(jù)服務(wù)對(duì)象劃分,Legal Tech 的種類可以分為 ToL 服務(wù)律師事務(wù)所、ToB 服務(wù)企業(yè)法務(wù)部門及 ToC 服務(wù)消費(fèi)者。但值得注意的是,無論是 ToL 還是 ToB,企業(yè)才是最終付費(fèi)方。即便產(chǎn)品的客戶是律師事務(wù)所,由于律師事務(wù)所是為企業(yè)服務(wù)的,律師事務(wù)所會(huì)把 Legal Tech 工具轉(zhuǎn)交給客戶報(bào)銷【60】。

LLM 出現(xiàn)前的法律 AI (以 NLP 為主)主要運(yùn)用于合同管理,但這些工具以信息檢索為主,很難對(duì)信息進(jìn)行深度的處理與分析!

產(chǎn)品:

  • 法律寫作:撰寫長(zhǎng)篇、格式化的法律文件,幫助起草合同,撰寫客戶備忘錄,作為工作起點(diǎn)
  • 掌握專業(yè)法律知識(shí),可以回答復(fù)雜的法律問題
  • 進(jìn)行合同及文件的理解與處理
  • 定制公司特有的模型:使用客戶特有工作產(chǎn)品和模板訓(xùn)練,以嵌入工作流,類似新員工加入律師事務(wù)所時(shí)的入職培訓(xùn)等
  • 律所工作流:客戶訴求的溝通與拆分、法律研究(法條檢索和判例研究)、客戶方案設(shè)計(jì)、合同、訴訟文書或其他法律文件的處理,以及其他涉及到法律適用問題的工作

模型層:

法律 LLM 創(chuàng)業(yè)公司主要直接接入 API 或 finetune 大模型,不同公司選擇了不同的供應(yīng)商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就獲得了 GPT4 的優(yōu)先使用權(quán),Robin AI 則選擇了與 Anthropic 的 Claude 合作;公司多采取多個(gè)模型組合去完成不同細(xì)分任務(wù)。

數(shù)據(jù)層:

不同公司能獲得的優(yōu)質(zhì)數(shù)據(jù)不同,這對(duì)于 LLM 的表現(xiàn)會(huì)產(chǎn)生較大影響。CoCounsel 因具有 Casetext 多年的數(shù)據(jù)積累,并被湯森路透收購(gòu),可以使用其世界級(jí)法律內(nèi)容庫(kù),在數(shù)據(jù)維度具有較大優(yōu)勢(shì);Lexis AI 背靠 LexisNexis 也有類似的優(yōu)勢(shì)。而 Harvey、Robin AI 等新興創(chuàng)業(yè)公司選擇與頭部律師事務(wù)所、四大審計(jì)公司綁定的方式獲得優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)。

看好有大模型訓(xùn)練能力、行業(yè)專業(yè)數(shù)據(jù)庫(kù)、深入大客戶工作流的切入團(tuán)隊(duì)是關(guān)鍵。

市場(chǎng)規(guī)模:

中國(guó)機(jī)會(huì)更大,2023年中國(guó)各類案件接受3200萬件,400萬件未處理,還有1400萬調(diào)解(每年還以30%速度增長(zhǎng),這些都是強(qiáng)制未上升至受理案件的!中國(guó)法律服務(wù)能力缺口極大?。?,還有各類監(jiān)管審查工作,ai的出現(xiàn)可以極大緩解公檢法的極大壓力!中國(guó)律師事務(wù)所4萬家,每年增加2000家,中國(guó)約 57 萬名律師。保底110 美元/月/人+超量使用+定制開發(fā),目前市場(chǎng)規(guī)模60個(gè)億元,且將會(huì)不斷快速增長(zhǎng)30%!

在中國(guó)to b法律領(lǐng)域有個(gè)重要問題就是,律師普遍工資不高,實(shí)現(xiàn)替換意愿不強(qiáng),目前商業(yè)化進(jìn)展緩慢。但需要持續(xù)關(guān)注。

筆者更關(guān)注龐大的C端市場(chǎng)!中國(guó)人需要一款專業(yè)的法律詢問APP,依法治國(guó)的前提。

美國(guó)Harvey(openai投資),CoCounsel

中國(guó):冪律智能(有數(shù)據(jù)、模型開發(fā)已完成)智普AI和北大的Chatlaw

審計(jì)合規(guī)

需求:國(guó)家和行業(yè)合規(guī)要求–GDPR,PCI-DSS,HIPAA,SOC 2,避免罰款和停止運(yùn)營(yíng);合規(guī)和審計(jì)成本高–大型企業(yè)完成SOC2審計(jì)的單次成本超過100萬元;工作量巨大,只能通過抽查來減少工作量,跨多部門,工作協(xié)調(diào)困難,數(shù)據(jù)隱私保護(hù)缺失,通過海量數(shù)據(jù)的采集和分析做到高效證據(jù)獲取,最終生成可支持審計(jì)目標(biāo)的合規(guī)報(bào)告。大大降低合規(guī)的成本(預(yù)計(jì)提升效率40倍)–人工審查+審計(jì);同行檢舉過多,罰錢多。

兩大業(yè)務(wù):審計(jì)(出海大公司)和數(shù)據(jù)合規(guī)(出海公司)

工作流:1理解當(dāng)?shù)胤煞ㄒ?guī) 2梳理業(yè)務(wù)場(chǎng)景 3找到敏感違規(guī)業(yè)務(wù)流 4合理規(guī)避法律風(fēng)險(xiǎn) 5定期人工檢查 6生成報(bào)告

市場(chǎng)測(cè)算:

數(shù)據(jù)合規(guī)(出海的中小型公司)

2027年,出海企業(yè)72萬家,每年新增5萬家,所有的涉及數(shù)據(jù)獲取的企業(yè)都要符合當(dāng)?shù)匾?guī)定,會(huì)遭同行舉報(bào),有天價(jià)罰款。假設(shè)滲透率20%,10萬一年,中小型增量就有150億人民幣。大型公司將根據(jù)用量收款。

還有審計(jì)(出海大公司),想象空間大

發(fā)展趨勢(shì):IT合規(guī)自動(dòng)化平臺(tái)在國(guó)內(nèi)尚無明顯領(lǐng)先者–主要是法律新規(guī),美國(guó)歐洲很成熟,中國(guó)剛剛起步,沒有競(jìng)爭(zhēng)對(duì)手,出海和國(guó)外上市公司需要。

(二)研發(fā)設(shè)計(jì)類

從技術(shù)來說,LLM+Diffusion的生成技術(shù)就是完美契合該類行業(yè),甚至幻想本身就是一種創(chuàng)造力。從商業(yè)價(jià)值上來說,創(chuàng)造是最好的切入工作流的入口!先創(chuàng)造后修改!

美術(shù)類工具

在講美術(shù)生成式的行業(yè)之前,筆者先講下國(guó)外幾家在做的事情以及思考,方便大家理解整體市場(chǎng)。

Stability AI

基于 Diffusion Model的Open model + Private Data,主要是針對(duì)B,G端的用戶

戰(zhàn)略:針對(duì)B端用戶做模型的開發(fā),支持開源為了證明技術(shù)、模型可控性和低成本技術(shù)外包!C端用戶順便收取費(fèi)用。但是哪款產(chǎn)品都不是爆款,缺乏規(guī)劃。目前團(tuán)隊(duì)商業(yè)化和管理能力弱。

技術(shù):Diffusion開源模型(Stable Diffusion 由開源社區(qū)、Stability AI 及 Runway 研究員合作完成,Stability AI 并不獨(dú)立擁有該模型的知識(shí)產(chǎn)權(quán),Stable Diffusion 生成的作品版權(quán)遵循 CC0 協(xié)議,不歸屬于任何個(gè)人和公司,但可以用于商業(yè)用途):使用門檻低、模型調(diào)優(yōu)靈活度高、生成效果好,加上 Stability AI 出色的運(yùn)營(yíng)能力,Stable Diffusion 成為了第一個(gè)擁有極強(qiáng)生態(tài)的開源模型(提供算力和資金支持–外包團(tuán)隊(duì))。但是Stable Diffusion 中大量的數(shù)據(jù)反饋由于其開源屬性無法形成優(yōu)化模型的反饋回路,在更新模型上速度緩慢。

Diffusion的技術(shù)要解決精細(xì)化的問題!

LLM:StableLM 看起來又是一個(gè)營(yíng)銷勝于實(shí)際工作的例子。根據(jù)用戶測(cè)評(píng),與其他開源模型相比結(jié)果相當(dāng)平庸,與 GPT 也相差甚遠(yuǎn)。

產(chǎn)品:付費(fèi)應(yīng)用 DreamStudio,大公司的api Plug-in,定制化咨詢和大模型開發(fā)服務(wù);通過開源,與生態(tài)合作,快速成長(zhǎng)。

客戶:常見的 B 端客戶,還會(huì)為發(fā)展中國(guó)家的 G 端提供服務(wù)。

盈利模式:

1)服務(wù)大公司,提供定制模型和咨詢服務(wù):Stability AI 的核心業(yè)務(wù)是為大公司建立專門的團(tuán)隊(duì),形成合作伙伴關(guān)系,出售模型(擴(kuò)展和定制 Stable Diffusion 或其他大型生成模型,每個(gè)模型的報(bào)價(jià)約幾千萬美元),并為企業(yè)提供咨詢服務(wù),幫助大型公司和政府對(duì) AI 模型的采用。

2)付費(fèi)應(yīng)用:孵化社區(qū)生態(tài)中的技術(shù)與應(yīng)用,推出商業(yè)化版本,如以 Stable Diffusion 為基礎(chǔ)的 DreamStudio,上線第一個(gè)月,收入就達(dá)到數(shù)百萬美金,用戶數(shù)量達(dá)到 180 萬。

3)API:通過提供開源模型的 API 收費(fèi),并提供增值服務(wù)。Photoshop等公司的插件。

成本:Stability AI 作為開源生態(tài)的基礎(chǔ)設(shè)施,為開源社區(qū)提供算力及資金支持是一筆極大的開支。

據(jù)說目前 Stability AI 擁有在 AWS 運(yùn)行的、由 4000 多個(gè) Nvidia A100 GPU 組成的集群,用于訓(xùn)練包括 Stable Diffusion 的 AI 系統(tǒng),導(dǎo)致其運(yùn)營(yíng)和云服務(wù)方面的支出超過了 5000 萬美元。

團(tuán)隊(duì):創(chuàng)始人為印度人,無AI經(jīng)歷,團(tuán)隊(duì)來自世界各地,管理風(fēng)格自由,這增加了成本,減緩了產(chǎn)品開發(fā),沒有總體的規(guī)劃。

圖片生成的競(jìng)對(duì)Midjourney進(jìn)化之快得益于其出色的產(chǎn)品設(shè)計(jì)和閉源屬性帶來的的數(shù)據(jù)飛輪。MJ 做了較強(qiáng)的風(fēng)格化處理,使得 to C 用戶體感更好,但是我們注意到,SD 開源社區(qū)的 Finetune、Alignment 模型風(fēng)格化后也能達(dá)到較好的效果,所以不排除 Stability AI 也有能力做到,只是重心不同。

除了 Midjourney 等通用型文生圖軟件,垂直類應(yīng)用也層出不窮。不同行業(yè)對(duì)生成圖片有著不同的要求,需要使用特定數(shù)據(jù)集訓(xùn)練,這給垂類賽道的創(chuàng)業(yè)企業(yè)提供了機(jī)會(huì)。如專注于 Logo 與網(wǎng)站設(shè)計(jì)的 looka,專注二次元形象生成的 NovelAI,專注游戲資產(chǎn)生成的 Scenario,以及專注頭像生成的 Lensa。這些垂類應(yīng)用目前來看很難成長(zhǎng)為大體量公司,但盈利能力強(qiáng),如 Lensa 在發(fā)售后的短短幾周就賺了 4000 – 5000 萬美元。

目前Runway/Pika的定位是Video Making Interface,AI native tools,圖像視頻編輯工具,關(guān)鍵是能從好用的單點(diǎn)工具閉環(huán)成用戶不可或缺的工作流產(chǎn)品!視頻生成是編輯的一部分。

目前Runway/Pika產(chǎn)品跟Adobe-Premiere和抖音-剪映比,只是AI增值性的提升,而沒有顛覆整體的工作流,也很難顛覆他們的產(chǎn)品生態(tài);同時(shí)大公司也在進(jìn)行AI的研發(fā);Sora的出現(xiàn)有新解法,僅作為視頻創(chuàng)作源,不入侵到視頻編輯本身,但這兩個(gè)公司沒有那么錢和資源去競(jìng)爭(zhēng)一家微軟的子公司。

在專業(yè)視頻編輯場(chǎng)景,Runway 難以撼動(dòng) Adobe 的護(hù)城河,其編輯工具目前無法應(yīng)對(duì)專業(yè)精細(xì)化的要求,同時(shí)專業(yè)編輯軟件 Adobe 和達(dá)芬奇(Davinci Reslove)也在 Runway 發(fā)布的新功能半年后就更新 AI 工具插件。在輕量化視頻制作場(chǎng)景,Runway 面對(duì)高度嵌入抖音(TikTok)工作流體系的剪映。目前僅作為補(bǔ)充品存在。

Midjourney(專注文生圖)

壁壘:設(shè)計(jì)師風(fēng)格–差異化!高質(zhì)量數(shù)據(jù)和模型(后期可加入tansformer現(xiàn)實(shí)世界模型)

技術(shù):構(gòu)建了自己的閉源模型,數(shù)據(jù)質(zhì)量及數(shù)據(jù)標(biāo)注質(zhì)量的重要性遠(yuǎn)遠(yuǎn)超過模型本身,迭代非???。

產(chǎn)品:藝術(shù)風(fēng)格在市場(chǎng)上具有差異化優(yōu)勢(shì)。產(chǎn)品搭載在 Discord 中,用戶通過與 Midjourney bot 進(jìn)行對(duì)話式交互,提交 非常短的Prompt(文本提示詞)來快速獲得想要的圖片。

客戶:創(chuàng)意設(shè)計(jì)人群、工業(yè)設(shè)計(jì)人群、Web3 & NFT 從業(yè)者以及個(gè)人愛好者。若對(duì)標(biāo) Canva 的用戶群,以 Midjourney 目前訂閱價(jià)格計(jì)算,未來收入能達(dá)到約 23 億美元。目前1000萬用戶量。

盈利模式:

目前采取 SaaS 訂閱制模式,價(jià)格為 10 – 60 美元/月。雖未公布具體付費(fèi)用戶數(shù)量,但根據(jù)客戶訪談可知用戶付費(fèi)意愿較強(qiáng)。以目前用戶數(shù)量保守估計(jì),年?duì)I收能到達(dá)約 1 億美元。

Midjourney 采取 SaaS 訂閱制模式。最初使用時(shí),用戶可以免費(fèi)生成 25 張照片。之后按照訂閱制收費(fèi)。月付制為 10、30、60 美元,或者使用年付制,價(jià)格為 8、24、48 美元/月。值得注意的是,用戶只有在訂閱之后,才能擁有使用 Midjourney 創(chuàng)作的圖片的版權(quán)。

成本:目前來看,Midjourney 的毛利率約為 80%。Midjourney 搭建在 Discord 上,Discord 會(huì)收取約 10% 的手續(xù)費(fèi)。雖不清楚 Midjourney 的模型訓(xùn)練成本,但 Stable Diffusion 的訓(xùn)練共使用了 256 張 Nvidia A100,耗時(shí) 15 萬小時(shí),成本為 60 萬美元。每次生成圖像的推理在云端的 GPU 上完成,生成一張圖片的成本約 0.5 美分一張,且未來成本會(huì)不斷壓縮。相對(duì)于訂閱收入,生成圖片的成本可以逐漸忽略不計(jì)。

中美的主要不同在于,中國(guó)式電商場(chǎng)景更多,生成式的商業(yè)化也會(huì)有所不同。

專業(yè)編輯

總體市場(chǎng)規(guī)模測(cè)算:

圖片:Adobe,短視頻:剪映,長(zhǎng)視頻:Adobe等專業(yè)軟件

僅短視頻:Instagram 月活用戶為 20 億,而 Tiktok 用戶為 20 億

目前數(shù)字媒體領(lǐng)域市場(chǎng)規(guī)模達(dá)到1500億美元,由于短視頻的快速增長(zhǎng)(滲透率20&假設(shè),增量將達(dá)到400億),(非專業(yè)的客戶也能使用ai和集成工具)增速極快。

專業(yè)編輯賽道工作流:視頻制作過程,視頻制作的后期則包括了邏輯剪輯、音樂制作、粗調(diào)成片、細(xì)調(diào)和字幕添加等工作,它們占據(jù)了專業(yè)視頻編輯工作的 80%,Runway 有提供音頻去噪、自動(dòng)風(fēng)格變換等功能。不僅如此,許多專業(yè)視頻還要包括視覺特效的制作,而在特效制作過程中,最費(fèi)力的工作便是 Green Screen(綠幕摳圖)及 Inpainting(圖像修復(fù))。

競(jìng)爭(zhēng)情況:

短視頻領(lǐng)域要突破抖音生態(tài)!

但在專業(yè)美術(shù)領(lǐng)域有機(jī)會(huì):Adobe采用的是Stable Diffusion的技術(shù),而Stable Diffusion是開源,不具備長(zhǎng)期優(yōu)勢(shì);Adobe對(duì)新技術(shù)和新商業(yè)模式反應(yīng)緩慢,即使推出Express對(duì)標(biāo)Canva,也無法與其競(jìng)爭(zhēng),專注于專業(yè)領(lǐng)域的打磨產(chǎn)品。

國(guó)內(nèi)競(jìng)爭(zhēng)對(duì)手較多像素蛋糕,剪映等.

切入機(jī)會(huì):關(guān)鍵工作流切入,但是要有自己的大模型和藝術(shù)風(fēng)格等各工作流差異化–原工作流比較固定,并趕上1精細(xì)化的技術(shù)壁壘!可以先從垂類賽道和c端切入,積累數(shù)據(jù)和商業(yè)化。形成2完善的工具和3素材庫(kù)+4云協(xié)作5獨(dú)特藝術(shù)風(fēng)格差異化!

國(guó)內(nèi)無初創(chuàng)企業(yè)切入專業(yè)領(lǐng)域,持續(xù)關(guān)注。

美術(shù)設(shè)計(jì)生成

場(chǎng)景:游戲開發(fā)/建筑/工業(yè)設(shè)計(jì)美術(shù)生成,主要還是游戲領(lǐng)域。

市場(chǎng)規(guī)模測(cè)算:游戲全球3000億美元,中國(guó)增速較快;分為IP/版權(quán)方、游戲發(fā)行方和開發(fā)(50%),其中美術(shù)占了50%的市場(chǎng)–750億美元(20%軟件+80%人工),假設(shè)去掉50%的人工和增加100%的軟件費(fèi)用,美術(shù)市場(chǎng)(主要是圖片+3d模型的設(shè)計(jì))將有600億美元,全球增速6%,中國(guó)14%。

工作流:其中開發(fā)又分為

  • 策劃:負(fù)責(zé)游戲的數(shù)值、系統(tǒng)、劇情、戰(zhàn)斗和關(guān)卡設(shè)計(jì)等。
  • 程序:負(fù)責(zé)編寫使游戲運(yùn)行的代碼。這可能包括引擎編程、AI編程、網(wǎng)絡(luò)編程等。
  • 美術(shù):負(fù)責(zé)游戲的視覺效果,包括角色設(shè)計(jì)、場(chǎng)景設(shè)計(jì)、UI設(shè)計(jì)等。
  • 音效:負(fù)責(zé)游戲的音樂和聲音效果。
  • QA(測(cè)試):負(fù)責(zé)在開發(fā)過程中找出和報(bào)告游戲中的錯(cuò)誤和問題。

游戲核心在:故事講述、游戲性上!AI長(zhǎng)期內(nèi)沒有替換的能力!

競(jìng)爭(zhēng)情況:目前龍頭大公司還不具備AI研發(fā)的能力,都用的其他家的AI公司功能進(jìn)行嵌入!

切入機(jī)會(huì):在角色美術(shù)設(shè)計(jì),3D建模,關(guān)卡設(shè)計(jì)等工作流實(shí)現(xiàn)創(chuàng)作!但是3D建模是根據(jù)美術(shù)概念來的(圖片+文字),需要多模態(tài)的能力和大量設(shè)計(jì)數(shù)據(jù),要求高。

挑戰(zhàn)企業(yè):

國(guó)外:

  • Midjounry,Stable-Diffusion,Pika,Runway;國(guó)外新游戲引擎Jabali

國(guó)內(nèi):

  • 圖片:TIAMAT、 LiblibAI奇點(diǎn)星宇、nolibox計(jì)算美學(xué)、智象未來 HiDream.ai
  • 圖片+視頻:右腦科技、生數(shù)科技、愛詩(shī)科技
  • 3D生成:空間直覺Microfeel、Vast

營(yíng)銷設(shè)計(jì)

即使在經(jīng)濟(jì)不好的時(shí)候,企業(yè)也較少削減營(yíng)銷預(yù)算,縮減品牌營(yíng)銷相關(guān)投入會(huì)引發(fā)市場(chǎng)份額下降、銷售額滑坡、品牌重建的長(zhǎng)期成本上升等問題,反而得不償失。

工作流:策略規(guī)劃、內(nèi)容創(chuàng)作、內(nèi)容發(fā)布、效果反饋和優(yōu)化這四個(gè)環(huán)節(jié)

市場(chǎng)規(guī)模:BtoC平均營(yíng)銷占收入15% /BtoB平均營(yíng)銷占收入10%,其中50%用來內(nèi)容創(chuàng)作,TAM可達(dá)千億美元,根據(jù)statia,全球內(nèi)容營(yíng)銷行業(yè)市場(chǎng)規(guī)模為720億美元;市場(chǎng)夠大。

針對(duì)的客戶:品牌企業(yè)或大型企業(yè)關(guān)注品牌效益和經(jīng)濟(jì)效益(目前AI還無法到達(dá)此水準(zhǔn)),中小企業(yè)受限于營(yíng)銷預(yù)算,則更關(guān)注成本。

后續(xù)發(fā)展:要試圖切入CRM賽道!抓住出海趨勢(shì)(中國(guó)72萬家公司出海,每年新增4萬家)!

海外初創(chuàng)公司:Typeface

國(guó)內(nèi)企業(yè):銜遠(yuǎn)科技、FancyTech、WorkMagic、奧創(chuàng)光年

工業(yè)建模工具

競(jìng)爭(zhēng)情況:國(guó)外龍頭AutoCAD、SolidWork和達(dá)索;且需要數(shù)據(jù)和經(jīng)驗(yàn)積累!

總結(jié):中國(guó)市場(chǎng)較小100億,有專業(yè)團(tuán)隊(duì)深耕可以;目前Diffusion技術(shù)不達(dá)標(biāo)(圖片集成效果不好和精細(xì)化不足)。

文字類

Devops-代碼生成

總結(jié):Visual Studio一家獨(dú)大(還和copoilt-openai聯(lián)盟),新公司產(chǎn)品差異化(僅在ui/ux)不明顯,未看到顛覆其商業(yè)模式和技術(shù)。

切入IDE(Integrated Development Environment)不僅是開發(fā)者的超級(jí)入口,也有機(jī)會(huì)完整地收集到測(cè)試、環(huán)境配置和 Debug 等環(huán)節(jié)的復(fù)雜推理過程的重要數(shù)據(jù)信息,因此,是最有機(jī)會(huì)、最早能夠出現(xiàn) Coding Agent 的場(chǎng)景。

工作流:環(huán)境搭建、需求、代碼編寫、測(cè)試、代碼scanning、代碼重構(gòu)、debug、部署

Copilot 用戶已有 46% 的代碼由模型生成,能讓這些用戶節(jié)省 55% 的開發(fā)時(shí)間;Copilot 建議代碼接受率在 30%以上 ,并在用戶上手半年后能提高到 36% 左右。

市場(chǎng)規(guī)模:2022 年,全球 DevOps 總收入規(guī)模在 80-100 億美元左右,并正以每年 20-30% 的增速增長(zhǎng)

競(jìng)爭(zhēng)情況:因?yàn)榱髁亢彤a(chǎn)品先發(fā)優(yōu)勢(shì),IDE 目前幾乎是被微軟的 Visual Studio(免費(fèi))和 Github Copolit 聯(lián)盟(18個(gè)月1億ARR)所壟斷還有Jetbrain 吃下了 IDE 市場(chǎng) 18% 份額(IDE 工具及商店抽成),Tabnine 、Codeium、Cursor 以及 CodeWhisperer 等 LLM-first IDE 團(tuán)隊(duì)則試圖基于 LLM 提供更具差異化的用戶體驗(yàn)挑戰(zhàn),模型能力相當(dāng),短期內(nèi)收入可以。

寫作類

市場(chǎng)長(zhǎng)期PMF待驗(yàn)證,目前看下來,大模型性能好,也可以做,界限模糊。

波形智能-已被oppo收購(gòu)、寫作工具–深言科技。

音樂類

AI 生成音樂是一個(gè)發(fā)展了很長(zhǎng)時(shí)間的研究領(lǐng)域,但之前生成的作品還停留在“人工智障”的階段,Transformer 架構(gòu)為音樂生成體驗(yàn)帶來了 10x 的提升,2023 年出現(xiàn)的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,讓 AI 生成的歌曲變成了可欣賞內(nèi)容【61】。

技術(shù)變化

聲音領(lǐng)域在 2015 年左右由于 Seq2Seq 的成熟曾有過識(shí)別技術(shù)的突破,但在生成方向的成熟比圖像和文字更晚一些。其背后的原因主要是聲音領(lǐng)域的信息密度更低:一個(gè)文字,一句歌詞可以對(duì)應(yīng)著很多種聲音的表達(dá)形式,且生成的聲音比文字本身的數(shù)據(jù)量要大很多。

直到去年,技術(shù)路線基本收斂到 Autoregressive Transformer 和 Diffusion model 并存的模型結(jié)構(gòu)。Transformer 架構(gòu)對(duì)音樂生成的質(zhì)量提升幫助很大,因?yàn)橐魳肥且粋€(gè)有長(zhǎng)距離結(jié)構(gòu)(多次主歌+副歌,且有呼應(yīng))的內(nèi)容形態(tài)。Diffusion model 的加入,能有效避免避免了自回歸模型容易產(chǎn)生的韻律/節(jié)奏不穩(wěn)定、詞語重復(fù)/遺漏等問題。

2023 年 Google 團(tuán)隊(duì)提出了 MusicLM 使用了 Autoregressive 結(jié)構(gòu),實(shí)現(xiàn)了從文本描述生成高保真音樂片段,并支持對(duì)音高、速度等的精細(xì)控制。同一年 Stability 團(tuán)隊(duì)的 Stable Audio 工作中也開始有 Diffusion model 的加入,使音樂生成的效果更加穩(wěn)定,Stable Audio V2 中使用了和 Sora 一樣結(jié)合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 結(jié)構(gòu))。

Suno AI 音樂生成對(duì)語義有著很好的理解能力,對(duì)不同風(fēng)格的規(guī)律、長(zhǎng)距離的結(jié)構(gòu)都能比較好地捕捉,我們判斷 Suno 一定用了 Transformer 結(jié)構(gòu),帶來了能 scale up 的智能。同時(shí),Suno 生成的穩(wěn)定性也遠(yuǎn)好于其他模型,Diffusion 模型架構(gòu)應(yīng)該在其中使用。音樂生成的模型結(jié)構(gòu)會(huì)與 Sora 的 DiT 結(jié)構(gòu)比較接近,由幾個(gè)部分組成:

這個(gè)模型結(jié)構(gòu)看起來很簡(jiǎn)單,和 LLM 和視頻生成有很多相似之處,這可以被 Suno 創(chuàng)始人在訪談中的一個(gè)分享驗(yàn)證:Suno 團(tuán)隊(duì)在訓(xùn)練模型的時(shí)候,盡量不讓模型中融入關(guān)于音樂或音頻的先驗(yàn)知識(shí),比如融入聲素等元素,而是讓模型自主學(xué)習(xí)。這種方法起初優(yōu)勢(shì)并不明顯,但隨著 scaling up 的推移優(yōu)勢(shì)開始顯現(xiàn)。

談到 scale,根據(jù)其他 TTS 模型參數(shù)量和目前的定價(jià)預(yù)估, Suno AI 的音樂生成模型的預(yù)估參數(shù)最大不超過 5-10b。音樂生成模型在數(shù)十億參數(shù)量級(jí)就能做好很不錯(cuò)的效果了,與參數(shù)量相比同樣重要的還有數(shù)據(jù)。

如果優(yōu)秀人類的作品為 10 分,我們認(rèn)為 Suno 可以到達(dá) 7 分普通歌手、“抖音網(wǎng)紅歌”的水平:擁有多風(fēng)格的作曲能力,可以創(chuàng)作出吸引人的旋律和節(jié)奏,但在音質(zhì)、創(chuàng)新度上達(dá)不到專業(yè)作曲家的要求。但是已經(jīng)可以為專業(yè)音樂玩家–Pro C,提供創(chuàng)意idea。

音樂市場(chǎng)

音樂的應(yīng)用廣泛,除了音樂專業(yè)制作,廣告、影視、游戲、動(dòng)漫、企業(yè)宣傳都會(huì)用到音樂。音樂專業(yè)制作市場(chǎng)(the recording industry)的產(chǎn)業(yè)鏈主要分為以下環(huán)節(jié):

  • 上游 – 音樂創(chuàng)作與錄制:包括進(jìn)行詞曲創(chuàng)作、編曲、錄音、混音等制作環(huán)節(jié)。參與的人有作曲家、編曲家、錄音工程師、音頻編輯師、混音師、母帶制作師等。
  • 中游 – 音樂的出版運(yùn)營(yíng)、宣傳推廣:發(fā)行人會(huì)對(duì)音樂作品進(jìn)行版權(quán)運(yùn)營(yíng)、數(shù)字分銷。在宣傳推廣環(huán)節(jié),通常會(huì)制作音樂 MV,通過各類媒體進(jìn)行音樂推廣。
  • 下游 – C 端用戶消費(fèi)音樂:主要通過流媒體平臺(tái)等渠道向聽眾傳播音樂,同時(shí)開辦演唱會(huì)、制作文創(chuàng)產(chǎn)品等,實(shí)現(xiàn)音樂 IP 的商業(yè)化。經(jīng)紀(jì)公司也會(huì)對(duì)藝人進(jìn)行宣傳,組織演出等。

AI 生成音樂的應(yīng)用機(jī)會(huì)不僅在為上游為音樂的制作環(huán)節(jié)降本增效,而且有機(jī)會(huì)將多個(gè)音樂制作參與角色合一,讓每個(gè)創(chuàng)作者成為“全棧音樂人”,同時(shí)打通上游、下游,再造創(chuàng)作、消費(fèi)一體化的 AI 音樂平臺(tái),也是我們期待的 Suno 的未來形態(tài)。下文針對(duì)受到 AI 生成音樂影響的上游和下游市場(chǎng)展開分析。

音樂制作市場(chǎng)

音樂制作為音樂產(chǎn)業(yè)鏈的上游環(huán)節(jié),涵蓋創(chuàng)作、編曲、錄音和混音等環(huán)節(jié),需要使用的工具包括 DAW、虛擬樂器、錄音設(shè)備、音頻效果器、MIDI 鍵盤、混音設(shè)備等,目前部署一套基礎(chǔ)的設(shè)備需要約幾千美元,更早期需要的投資更多。制作周期取決于音樂類型和規(guī)模,從幾天~幾個(gè)月不等,成本從幾千~幾十萬美金不等。根據(jù)多家咨詢公司的估算,市場(chǎng)空間大致為 $5-10B 左右,主要業(yè)務(wù)包括銷售軟件許可證、插件、硬件設(shè)備以及提供相關(guān)服務(wù)。

AI 有望進(jìn)一步降低成本、縮短制作周期,將多個(gè)音樂制作參與角色合一,讓每個(gè)創(chuàng)作者成為“全棧音樂人”。Suno 已經(jīng)可以幫助用戶生成音軌等組件,加速音樂創(chuàng)作流程。但本身該市場(chǎng)空間并不大,且比較分散,引入 AI 可能會(huì)導(dǎo)致 ToB 音樂制作市場(chǎng)的進(jìn)一步縮水。

根據(jù) A16Z 的判斷,還有可能出現(xiàn)基于 AI 技術(shù)自動(dòng)生成音樂的“生成性樂器”。硬件設(shè)備有可能與 AI 模型交互。例如,一個(gè) DJ 控制器可能能夠根據(jù)現(xiàn)場(chǎng)的氛圍和節(jié)奏,自動(dòng)生成鼓點(diǎn)或旋律,輔助 DJ 進(jìn)行即興創(chuàng)作。

To C 消費(fèi)市場(chǎng)趨勢(shì)

根據(jù)國(guó)際唱片業(yè)協(xié)會(huì)聯(lián)合會(huì)(IFPI)統(tǒng)計(jì),2022 年全球音樂市場(chǎng)規(guī)模達(dá)到 262 億美元,增長(zhǎng) 9%,其中流媒體收入占 67%,增長(zhǎng) 10.3%。包括兩塊業(yè)務(wù),一塊是廣告支持流媒體(Ad-supported streams),占 18.7%,通過展示廣告來為用戶提供免費(fèi)的音樂流媒體服務(wù),一塊是訂閱音頻流媒體(Subscription audio streams),如 Spotify Premium、Apple Music 訂閱,占 48.3%,約 130 億美元。全球有 5.89 億流媒體付費(fèi)訂閱用戶,占全球總?cè)丝?7.5%。根據(jù)市場(chǎng)格局可以看出,流媒體音樂平臺(tái)是音樂市場(chǎng)中最大的組成部分。

近十年音樂市場(chǎng)增長(zhǎng)的另一個(gè)重要趨勢(shì)來自于短視頻。國(guó)際唱片業(yè)協(xié)會(huì)(IFPI)調(diào)研發(fā)現(xiàn)用戶聽音樂的時(shí)間顯著增長(zhǎng),每周聆聽音樂的時(shí)間從 2021 年的 18.4 小時(shí)增加到 20.1 小時(shí),個(gè)性化需求也日益明顯。國(guó)際唱片業(yè)協(xié)會(huì)(IFPI)也統(tǒng)計(jì)了用戶聽音樂的方式,發(fā)現(xiàn)人們?cè)诼犚魳返臅r(shí)候,經(jīng)常會(huì)和視覺相結(jié)合,很多情況下帶有社交屬性。

盡管分發(fā)渠道和用戶消費(fèi)形式出現(xiàn)了變化,但生產(chǎn)制作側(cè)的壟斷趨勢(shì)還是比較明顯:在 2022 年財(cái)報(bào)中,向索尼、環(huán)球等 record label companies 支付的版權(quán)費(fèi)用占了 Spotify 收入的七成左右,因此流媒體平臺(tái)當(dāng)前還很難直接盈利。而當(dāng) AI 音樂生成降低了生產(chǎn)的制作與成本,是否能帶來生產(chǎn)關(guān)系的變化呢?我們能期待 AI 有可能讓版權(quán)優(yōu)勢(shì)不只被大公司壟斷,而來自更多長(zhǎng)尾、個(gè)性化的創(chuàng)作者。大眾創(chuàng)作的時(shí)代。

市場(chǎng)競(jìng)爭(zhēng)

Suno 最大的競(jìng)爭(zhēng)來自于兩個(gè)方面,一是 OpenAI 發(fā)布音樂生成領(lǐng)域的“Sora”,直接在產(chǎn)品效果上的碾壓;一是版權(quán)公司和 Youtube、Spotify 等音樂平臺(tái)公司,利用其數(shù)據(jù)和流量?jī)?yōu)勢(shì)推出競(jìng)爭(zhēng)產(chǎn)品,但他們面臨更高的數(shù)據(jù)版權(quán)風(fēng)險(xiǎn)。同時(shí),Suno 還面臨著其他創(chuàng)業(yè)公司及開源體驗(yàn)的競(jìng)爭(zhēng)。

OpenAI 是否會(huì)重現(xiàn)音樂生成的 “Sora”?

音樂生成模型的效果很大程度上是由數(shù)據(jù)質(zhì)量決定的,這一方面取決于團(tuán)隊(duì)是否能擁有充足的數(shù)據(jù)源,懂得處理數(shù)據(jù)的方式,另一方面是否有充足的 GPU 進(jìn)行訓(xùn)練。OpenAI “大力出奇跡” 的 Sora 一推出,對(duì)其他視頻生成公司的打擊有目共睹。OpenAI 目前已經(jīng)注冊(cè)了商標(biāo) Voice Engine™,包括”基于自然語言提示、文本、語音、視覺提示、圖像和/或視頻創(chuàng)建和生成語音和音頻輸出”,很可能包括了音樂生成產(chǎn)品。

如果 OpenAI 在音樂生成領(lǐng)域重現(xiàn)“Sora”將是 Suno 很大的競(jìng)爭(zhēng)威脅。但我覺得細(xì)分市場(chǎng)的壁壘在于對(duì)場(chǎng)景的理解,提供豐富的工具,而且個(gè)性化的曲風(fēng)的數(shù)據(jù)也是競(jìng)爭(zhēng)的壁壘,不只是技術(shù)。

來自版權(quán)公司和音樂音樂平臺(tái)的競(jìng)爭(zhēng)

現(xiàn)有音樂公司對(duì) AI 進(jìn)行了積極的嘗試,也采取了很多防御性的策略,包括 Spotify 剛剛推出的 Gen-Playlist,以及 QQ 音樂推出了 Suno 專區(qū),但目前并沒有出現(xiàn)類似 Suno 的出圈產(chǎn)品。一方面是 Suno 的產(chǎn)品具有一定技術(shù)壁壘,大公司的行動(dòng)速度遠(yuǎn)慢于創(chuàng)業(yè)公司;另一方面大公司受限更多,會(huì)有更多版權(quán)、倫理上的限制。以及,我們所認(rèn)為的平臺(tái)、版權(quán)公司擁有的數(shù)據(jù)積累優(yōu)勢(shì)可能并不成立。生成高質(zhì)量的 AI 音樂需要歌曲原始的分軌數(shù)據(jù),但這是音樂平臺(tái)也不擁有的,而原始分軌數(shù)據(jù)分散在各個(gè)版權(quán)公司和明星演藝公司,獲得大量的數(shù)據(jù)很困難,購(gòu)買成本也非常高。

音樂市場(chǎng)本身頭部效應(yīng)明顯,有成熟的版權(quán)公司和流媒體公司;且音樂是一個(gè)反復(fù)收聽次數(shù)最多的內(nèi)容形態(tài),因?yàn)檫@需要大眾的情感共鳴,造成用戶消費(fèi)心智對(duì)新歌的需求頻次低,對(duì)老歌的反復(fù)收聽次數(shù)高。長(zhǎng)尾、個(gè)性化的 AI 創(chuàng)作市場(chǎng)比較難以驗(yàn)證。

長(zhǎng)期來看,我們認(rèn)為 Spotify、Youtube 等現(xiàn)有大公司將對(duì) Suno 產(chǎn)生更大的挑戰(zhàn)。如用戶在 Youtube 可以實(shí)現(xiàn)多模態(tài)音樂創(chuàng)作→發(fā)布的一體化,這其實(shí)與我們對(duì)視頻生成格局的判斷類似。Suno 的取勝關(guān)鍵是持續(xù)保持最好的生成效果、以及找到自己獨(dú)特的產(chǎn)品形態(tài)。

總而言之,筆者非??春靡魳飞墒袌?chǎng),可以先從to Pro C和to B層賺取創(chuàng)意費(fèi)用,豐富編輯工具的同時(shí),大步邁向to C市場(chǎng),顛覆流媒體和ip擁有者的生態(tài),將創(chuàng)作的能力、權(quán)力和收益給到熱愛音樂的每一人。時(shí)間的尺度上一定是長(zhǎng)期的,團(tuán)隊(duì)必須對(duì)此保持極大的熱情。

SUNO

Suno 團(tuán)隊(duì)由音樂家和 AI 專家組成,目前僅有約 12 名員工。Suno 官網(wǎng)上寫道公司文化以音樂為核心,鼓勵(lì)聲音的實(shí)驗(yàn)和創(chuàng)新,在辦公環(huán)境中音樂無處不在。聯(lián)合創(chuàng)始人包括 Mikey Shulman、Georg Kucsko、Martin Camacho 和 Keenan Freyberg,四人此前共同在被收購(gòu)的金融數(shù)據(jù) AI 科技創(chuàng)業(yè)公司 Kensho 工作。其中 Shulman 和 Camacho 是音樂愛好者,他們?cè)?Kensho 工作時(shí)常常一起即興演奏。

從經(jīng)歷來看,創(chuàng)始人有成功的創(chuàng)業(yè)退出經(jīng)歷,并且在物理、科學(xué)領(lǐng)域有極強(qiáng)的造詣。創(chuàng)始成員還有在 Tiktok、Meta 等互聯(lián)網(wǎng)公司的從業(yè)經(jīng)驗(yàn)。AI、物理領(lǐng)域的造詣以及對(duì)音樂的熱愛,使得團(tuán)隊(duì)對(duì)開發(fā) AI 音樂生成產(chǎn)品具有很強(qiáng)的適配性。

團(tuán)隊(duì)以自己訓(xùn)練的開源語音生成模型 Bark 為基礎(chǔ),開發(fā)了SOTA 的 AI 音樂生成產(chǎn)品。Suno 團(tuán)隊(duì)認(rèn)為目前音樂聽眾數(shù)量遠(yuǎn)遠(yuǎn)超過音樂制作者是“失衡”的,期待用 Suno 讓每個(gè)人都能將自己的想法轉(zhuǎn)化成音樂,打破普通人與想象中音樂之間的障礙。

類似 Midjourney 讓人人都可作畫,Suno AI 作為第一款普通人可用、帶有人聲、歌曲生成效果接近商業(yè)化水平的產(chǎn)品,為全球 5.89 億音樂流媒體付費(fèi)訂閱用戶提供了創(chuàng)作工具,開辟了增量市場(chǎng)。

音樂制作效果被用戶稱為 “the next level of music generation”,在硅谷核心圈得到了廣泛的流傳,實(shí)現(xiàn)了用戶的持續(xù)增長(zhǎng),根據(jù) Similarweb 的數(shù)據(jù),目前已經(jīng)達(dá)到了約 220 萬 MAU。

Suno 團(tuán)隊(duì)從開源 TTS 模型 Bark 開始,轉(zhuǎn)型做音樂模型,從 Discord 服務(wù)器到自己的 UX 交互流媒體播放器,都行動(dòng)非??煸诎肽陜?nèi)發(fā)布了成熟的產(chǎn)品。

Suno 網(wǎng)頁(yè)版本的產(chǎn)品形態(tài)很簡(jiǎn)單,遠(yuǎn)沒有到達(dá) Spotify 等產(chǎn)品的復(fù)雜度。主要由 Explore、Create、Library 組成。Microsoft copilot 也集成了 suno,用戶可以通過 chat 的方式來進(jìn)行音樂創(chuàng)作。

Explore 界面,會(huì)展示歌曲創(chuàng)作的 prompt 指引,以及用戶創(chuàng)作的最火、或最新的 AI 歌曲。暫不清楚推薦邏輯,但不同用戶登錄后看到的歌曲是一樣的,可見還沒有針對(duì)用戶偏好進(jìn)行個(gè)性化推薦。

但是目前還無法做到對(duì)于生成音樂的精細(xì)化控制。期待“未來幾年能夠利用技術(shù)從各個(gè)方面對(duì)音樂的生成進(jìn)行控制”。

通過追蹤 Discord 社區(qū),我們發(fā)現(xiàn) Suno 用戶大致分為:

  • 音樂愛好者,他們本不會(huì)寫歌,Suno 帶給他們創(chuàng)作歌曲的能力。這類用戶希望通過 AI 輔助創(chuàng)作出有趣的音樂作品,用于個(gè)人娛樂或社交媒體分享。他們的需求常常類似于,為自己的貓寫一首 Taylor Swift 風(fēng)格的歌。
  • 專業(yè)音樂制作人,他們將 Suno 作為創(chuàng)作的靈感來源,或生成音樂素材,結(jié)合自己的專業(yè)知識(shí)進(jìn)行后期制作。Suno 幫助專業(yè)音樂人更高效的輸出作品,他們也開始將 Suno 應(yīng)用在商業(yè)場(chǎng)景。
  • AI 創(chuàng)作工具探索者,對(duì)音樂生成的技術(shù)感興趣,嘗試使用 Suno 進(jìn)行實(shí)驗(yàn)性創(chuàng)作。

在與用戶的交流過程中,我們發(fā)現(xiàn)部分用戶對(duì)于 Suno 非常沉迷,Discord 社區(qū)中也保持了持續(xù)的高活躍。根據(jù) Smiliarweb,Suno AI 的 MAU 持續(xù)增長(zhǎng),2024 年 2 月 MAU 已經(jīng)達(dá)到約 220 萬,Suno 的國(guó)家分布并不集中,其中美國(guó)、波蘭的用戶最多,各占約 10%。以男性用戶居多,占據(jù)了約 68%,在年齡以 18-34 歲的年輕人為主。

具體使用場(chǎng)景較為廣泛,并不僅僅局限在專業(yè)音樂作曲,可以做如下劃分

商業(yè)模式上,Suno 采取訂閱付費(fèi)的模式,Suno 目前更像一個(gè)創(chuàng)作工具,參考工具類產(chǎn)品的訂閱比例,簡(jiǎn)單假設(shè)目前 Suno 約 220 萬的 MAU 有 10% 是付費(fèi)用戶,其中 8% 為 Pro Plan、2% 為 Premier Plan,Suno 的月收入大致估算為 250 萬美金。創(chuàng)作生態(tài)的豐富,Suno 平臺(tái)也有機(jī)會(huì)出現(xiàn)廣告和內(nèi)容訂閱價(jià)值,為 UGC 提供收入渠道;或?yàn)橐魳穭?chuàng)作提供增值服務(wù),比如提供一站式的音樂創(chuàng)作和分發(fā)解決方案。

國(guó)內(nèi)公司:DeepMusic靈動(dòng)音(清華音樂制作人),致力于通過AI詞曲編錄混技術(shù),全方位降低音樂創(chuàng)作制作門檻并提升效率,為音樂行業(yè)提供新的產(chǎn)品體驗(yàn)和解決方案;音樂生成加輕量編輯工作站。

DeepMusic是一家基于人工智能技術(shù)的音樂創(chuàng)作服務(wù)商,該公司主要運(yùn)用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)現(xiàn)存的音樂作品,并從中尋找規(guī)律,從而進(jìn)行音樂創(chuàng)作,其創(chuàng)作的音樂作品可用于短視頻配樂等方面。

但商業(yè)模式只是停留在Pro C層面。

AI4S

AI for Science(AI4S),是讓人工智能利用自身強(qiáng)大的數(shù)據(jù)歸納和分析能力去學(xué)習(xí)科學(xué)規(guī)律和原理,得出模型,生成式的來解決實(shí)際的科研問題,輔助科學(xué)家在不同的假設(shè)條件下進(jìn)行大量重復(fù)的驗(yàn)證和試錯(cuò),加速科研探索的進(jìn)程。

主要在生物結(jié)構(gòu)預(yù)測(cè);其余在化學(xué)、材料上,整體市場(chǎng)規(guī)模由于過于細(xì)分不會(huì)太大,也比較難判斷項(xiàng)目,需要對(duì)其研發(fā)設(shè)計(jì)的工作流有相當(dāng)程度的了解。

關(guān)注生成式的大模型在工業(yè)領(lǐng)域的擴(kuò)展:例如工藝的生成等,不過基于設(shè)計(jì)產(chǎn)線等頻率低,市場(chǎng)不會(huì)太大。顛覆掉原來研發(fā)工具例如CAD、Solidwork等,還是會(huì)在設(shè)計(jì)數(shù)據(jù)、工作流理解上以及設(shè)計(jì)工具生態(tài)上有不小的困難。

(三)生產(chǎn)控制類

MES、SCM

業(yè)務(wù)對(duì)應(yīng)工業(yè)生產(chǎn)控制類服務(wù)軟件-資產(chǎn)管理:ERPMRP、供應(yīng)鏈管理:SRM、生產(chǎn)管理:MESAPS、物流管理:WMS、研發(fā)管理:PLM

圖:工業(yè)生產(chǎn)場(chǎng)景工作流及對(duì)應(yīng)軟件

目前我國(guó)工業(yè)軟件整體面臨“管理軟件強(qiáng)、工程軟件弱,低端軟件多、高端軟件少”問題,研發(fā)設(shè)計(jì)類國(guó)產(chǎn)化替代空間較大。

MES:計(jì)劃下達(dá)+生產(chǎn)調(diào)度。MES(制造執(zhí)行系統(tǒng))是從生產(chǎn)計(jì)劃下達(dá)到生產(chǎn)調(diào)度、組織、執(zhí)行、控制,直至生產(chǎn)出合格產(chǎn)品全過程的信息化管理系統(tǒng)。MES 主要集中在制造運(yùn)營(yíng)層,位于生產(chǎn)控制層和運(yùn)營(yíng)管理層之間,核心功能包括資源分配、車間排產(chǎn)、工序調(diào)度、過程管理等,擴(kuò)展功能包括能源管理、質(zhì)量管理、倉(cāng)儲(chǔ)管理等。

全球 MES 市場(chǎng)規(guī)?;蛟?1,420 億元。據(jù)華經(jīng)產(chǎn)業(yè)研究院,2022 年全球 MES 市場(chǎng)規(guī)?;蜻_(dá) 1,420 億元,同比增長(zhǎng) 15.2%。2017~2022 年 CAGR 達(dá) 15.5%,2024 年市場(chǎng)規(guī)?;蜻_(dá)1898.6 億元。我國(guó) MES 市場(chǎng)規(guī)?;蜻_(dá) 57.2 億元。據(jù)華經(jīng)情報(bào)網(wǎng),2022 年我國(guó) MES 市場(chǎng)規(guī)?;蜻_(dá) 57.2億元,2020~2022 年 CAGR 達(dá) 13%。

MES 市場(chǎng)高度分散,參與廠商眾多。MES 軟件市場(chǎng)中的 SaaS 子市場(chǎng),以及航空航天船舶、整車及汽車零部件、裝備制造等六個(gè)細(xì)分行業(yè) MES 解決方案市場(chǎng)空間及廠商份額都在市場(chǎng)中占有較大份額。各細(xì)分行業(yè)呈現(xiàn)出不同的特點(diǎn),但與 MES 軟件總市場(chǎng)相比,細(xì)分行業(yè)解決方案市場(chǎng)碎片化更加明顯,僅有石化化工、鋼鐵及有色金屬等行業(yè)保持較高的服務(wù)商集中度。

MES 國(guó)產(chǎn)替代空間較大,Top8 中本土廠商占到五席。2021 年我國(guó) MES 市占率 Top8 分別為西門子、SAP、寶信軟件、鼎捷軟件、羅克韋爾、黑湖制造、新核云及中控技術(shù),其中,海外大廠居于前兩位,仍處于相對(duì)主導(dǎo)地位,本土廠商占到五席,加速國(guó)產(chǎn)替代勢(shì)在必行。與國(guó)際大廠相比,我國(guó)本土廠商 MES 覆蓋行業(yè)相對(duì)較少,未來或需在多行業(yè)多點(diǎn)發(fā)力推進(jìn)自主可控進(jìn)程。

競(jìng)爭(zhēng)對(duì)手主要為傳統(tǒng)MES廠商、涉及工業(yè)的大模型公司、初創(chuàng)AI工業(yè)軟件公司

  • 傳統(tǒng)廠商為:西門子、SAP、寶信軟件、鼎捷軟件、羅克韋爾、黑湖制造、新核云及中控技術(shù)等
  • 涉及工業(yè)的大模型公司:百度、華為等
  • 初創(chuàng)企業(yè)為:劍及智能和Evergine等

持續(xù)關(guān)注由LLM帶來柔性生產(chǎn)的實(shí)現(xiàn)(不一定要軟件、生產(chǎn)線、機(jī)器人都行),由規(guī)模經(jīng)濟(jì)生產(chǎn)轉(zhuǎn)向范圍經(jīng)濟(jì)范式(一條產(chǎn)線生產(chǎn)多種物品),由此提供低成本提供多元化定制化的產(chǎn)品,價(jià)值潛力大。

To C

日常Agent

對(duì)標(biāo)大廠的Siri、小愛同學(xué)等等,通過agent來完成對(duì)軟硬件的操作。GUI-圖像用戶交互轉(zhuǎn)向LUI-語言用戶交互,下方ai硬件會(huì)詳細(xì)講述,這里是軟件。

硬件、互聯(lián)網(wǎng)大廠和大模型公司的競(jìng)爭(zhēng)流量的高地!不再詳細(xì)講述。

教育

多輪對(duì)話的LLM,必然也天然的適合教育場(chǎng)景。

目前教育市場(chǎng)分為:

1)基于錄播課的異步學(xué)習(xí)公開資源和工具(如 Youtube 視頻、google 翻譯、慕課等免費(fèi)錄播課)

2)工具類服務(wù),將學(xué)習(xí)中的某類需求或?qū)W習(xí)過程抽象為標(biāo)準(zhǔn)化產(chǎn)品,例如Chegg、Duolingo 等

3)真人老師的實(shí)時(shí)授課,包括線上、線下的大班課和1對(duì)1私教。(效果最好,國(guó)內(nèi)知道200-300/小時(shí),但AI是一個(gè)月)

AI的領(lǐng)域從錯(cuò)題解釋擴(kuò)展到了對(duì)話練習(xí)的role扮演:

工作流:特別是在語言學(xué)習(xí)上,依賴和人對(duì)話的訓(xùn)練,聽說讀寫,都可以實(shí)現(xiàn)ai對(duì)人的替代,實(shí)現(xiàn)多場(chǎng)景人群的教育(k-12、海外工作、移民、旅游、興趣等)。

市場(chǎng)規(guī)模:國(guó)內(nèi)需要學(xué)習(xí)語言的人太多,TAM難以估算–2億人,以Duolingo、Speak的700一年標(biāo)準(zhǔn)計(jì)算,就是1400億元的大市場(chǎng)

壁壘:課程設(shè)計(jì)、對(duì)話等教育數(shù)據(jù)、微調(diào)技術(shù)

龍頭:Duolingo和Speak

國(guó)外的語言教育的AI應(yīng)用非常火,為出國(guó)旅游和移民群體提供多輪對(duì)話場(chǎng)景,但是這種教學(xué)方式,對(duì)于國(guó)內(nèi)水土不服,國(guó)內(nèi)是應(yīng)試教育為主。

國(guó)內(nèi)新AI教育場(chǎng)景會(huì)更適合學(xué)齡前兒童的教育場(chǎng)景(新的交互寓教于樂的方法-具體看ai硬件),短期內(nèi)小學(xué)及以上場(chǎng)景教育國(guó)內(nèi)格局不會(huì)變動(dòng),用AI也只是,增強(qiáng)體驗(yàn)和溢價(jià)。

游戲

目前游戲主流是聊天陪伴類(具有情感的人物切入,完成一定的情緒價(jià)值提供任務(wù))

市場(chǎng):模型質(zhì)量高且完全虛擬的場(chǎng)景,并不追求準(zhǔn)確!但是是為行業(yè)切入的入口,尋求正確的解決方案。

國(guó)外:Character.ai,Replika、ChAI

國(guó)內(nèi):LynkSoulAI心影隨形,Glow,星野(國(guó)內(nèi)外基本上都是搞擦邊起家)

Character.AI

產(chǎn)品:Character.AI 搭建了用戶創(chuàng)建 AI 角色并與之聊天的平臺(tái)及社區(qū)。AI 角色有官方創(chuàng)建、社區(qū)成員 UGC 兩大類。用戶自行訓(xùn)練的、深度個(gè)性化的 AI 聊天機(jī)器人能夠與人們建立真正的關(guān)系,擁有更大的想象空間和更多的使用場(chǎng)景。

客戶:粘性強(qiáng),所有用戶的平均活躍時(shí)長(zhǎng)為 24 分鐘/天,18歲至24歲的用戶,他們貢獻(xiàn)了約60%的網(wǎng)站流量,9 月的總 DAU 約為 350 萬,MAU 約為 1400 萬。

通過幻想滿足客戶的情感訴求,45% 的用戶主要和戀愛、浪漫類角色交流,22% 和游戲角色交流,17% 的用戶和安慰、心理療愈類角色交流。

盈利模式:每月收費(fèi)9.99美元–可以與多個(gè)AI互動(dòng),玩場(chǎng)景游戲。

技術(shù):底層模型以包含解碼器的神經(jīng)語言模型(Neural language models)為基礎(chǔ),類似 GPT 和 LaMDA,對(duì)話效果質(zhì)量和推理成本好于GPT3。技術(shù)不足:記憶和幻覺,但不需要智力水平極高的模型來做情感,角色是否能表達(dá)連貫的情感可能也不像人們想象的那么重要。

團(tuán)隊(duì):創(chuàng)始人 Noam Shazeer 是前 Google 首席軟件工程師,Transformer 作者之一,并開創(chuàng)了大規(guī)模預(yù)訓(xùn)練(Large-scale pretraining);聯(lián)合創(chuàng)始人 Daniel de Freitas 領(lǐng)導(dǎo)了 Meena 和 LaMDA 的開發(fā)。(自研能力)

戰(zhàn)略方向總結(jié):正與谷歌討論融資,準(zhǔn)備訓(xùn)練其大模型,深度綁定的合作伙伴,承擔(dān)模型訓(xùn)練成本;防守壁壘大,增長(zhǎng)速度快,需要正確選擇攻擊方向。

優(yōu)勢(shì)–1 情感交互,獲得極高粘性流量且轉(zhuǎn)換成本大,從而可以切入相關(guān)領(lǐng)域;2 全棧能力壁壘-且低訓(xùn)練和推理成本;3 高質(zhì)量數(shù)據(jù)-模型的飛輪效應(yīng)。

未來突破點(diǎn):

1 需要考慮聊天機(jī)器人無需用戶點(diǎn)擊將挑戰(zhàn)優(yōu)質(zhì)內(nèi)容-點(diǎn)擊-廣告 內(nèi)容平臺(tái)商業(yè)模式飛輪,如何加入廣告!

2 技術(shù)上導(dǎo)致的使用體驗(yàn)有限:有限的上下文容量,幻覺,在邏輯、規(guī)劃、使用仍然有不準(zhǔn)確性。最主要的是與人類的記憶不對(duì)齊,聊天容易丟失上下文,沒有對(duì)的記憶,如何培養(yǎng)感情?

3 站住虛擬聊天市場(chǎng),提供更沉浸式虛擬體驗(yàn)-UI、圖片、語音等,把握互聯(lián)網(wǎng)。

成本:自研模型(模型更加精致),每個(gè) Query 的成本是 ChatGPT 的 1/3,訓(xùn)練僅花費(fèi)60萬美元。同時(shí)通過積累用戶數(shù)據(jù)形成飛輪,能夠不斷提升用戶的個(gè)性化體驗(yàn)。

整體競(jìng)爭(zhēng)非常激烈,國(guó)內(nèi)外要有20多家公司在做,如何針對(duì)需求,提高粘性是主要的指標(biāo)。

虛擬聊天機(jī)器人代表公司包括 Replika、ChAI;國(guó)內(nèi)類似創(chuàng)業(yè)企業(yè)有 Glow、聆心智能、彩云小夢(mèng);垂直領(lǐng)域也存在業(yè)務(wù)交叉,如心理療愈機(jī)器人 Woebot;游戲領(lǐng)域的 NPC 在線交互平臺(tái) AI Dungeon,AI 角色驅(qū)動(dòng)的元宇宙平臺(tái) Inworld.AI。

以及最近在測(cè)試階段的自然選擇AI-針對(duì)戀愛場(chǎng)景設(shè)計(jì)的“超級(jí)對(duì)齊”。

Character.AI在對(duì)話質(zhì)量上完勝一籌,推理成本也更低,其他公司均采用微調(diào)的大模型。

模型本身技術(shù)壁壘跨越還需要時(shí)間。

檢索類

使用大模型進(jìn)行網(wǎng)頁(yè)搜索。國(guó)外:Pelexity、大模型和大廠等

短期收現(xiàn)金可以,這個(gè)地方是搜索引擎和大模型公司會(huì)做的事情。重塑搜索引擎的工作流,關(guān)鍵是通過更好的生成來提升用戶的搜索體驗(yàn),并引入廣告等創(chuàng)新商業(yè)模式。

九、應(yīng)用層——硬件AI應(yīng)用硬件

綜述

ChatGPT 推出以后,AI 硬件就成為了熱門賽道【62】。

AI Pin、Rabbit R1、以及 Meta 的雷朋眼鏡,還有豆包推出的智能耳機(jī),有成功的,也有不少失敗的。

在大模型熱潮持續(xù)一年之后,或許可以看一下,AI 硬件未來的機(jī)會(huì)到底在哪里。

硬件雖是中國(guó)的主場(chǎng),但仍然軟件才是核心。

回顧移動(dòng)互聯(lián)網(wǎng)時(shí)代,4G/5G的成熟在底層技術(shù)架構(gòu)上為短視頻等高信息密度應(yīng)用的新形態(tài)打下了基礎(chǔ),而iPhone開創(chuàng)的觸控交互體驗(yàn)真正為應(yīng)用的繁榮打開了大門。

蘋果也因?yàn)樵诮换ツJ缴系膭?chuàng)新獲得了移動(dòng)互聯(lián)網(wǎng)時(shí)代最大的紅利,時(shí)至今日依然可以向軟件生態(tài)征收“蘋果稅”。強(qiáng)如Meta,幾乎盤踞了海外C端流量和廣告收入,也因?yàn)槿狈τ布O(shè)備而如鯁在喉。Zuckerberg近年來在Reality Labs上的激進(jìn)投入,狂燒500億美金就是為了占據(jù)下一個(gè)時(shí)代的硬件入口/計(jì)算中心。

在當(dāng)前格局下, Google ,Meta,蘋果和字節(jié)跳動(dòng)等移動(dòng)互聯(lián)網(wǎng)巨頭從硬件到軟件牢牢把持了用戶生態(tài),并基于計(jì)算中心/物理空間、流量/網(wǎng)絡(luò)效應(yīng)、時(shí)間/用戶習(xí)慣這幾個(gè)核心要素形成了深厚的壁壘。如果這個(gè)局面不被打破,AI大模型技術(shù)將停留在更先進(jìn)的生產(chǎn)工具(”enabler”)定位,從結(jié)果上豐富了移動(dòng)互聯(lián)網(wǎng)生態(tài)的內(nèi)容供給和用戶體驗(yàn),“為他人做嫁衣”??萍季揞^依然是最大受益者,過去5年強(qiáng)者恒強(qiáng)的局面將會(huì)延續(xù)。

因此針對(duì)AI大模型重新設(shè)計(jì)的硬件和交互將是GenAI時(shí)代挑戰(zhàn)者必須攻克的堡壘。這也是為什么Sam Altman很早就聯(lián)系傳奇設(shè)計(jì)師Jony Ive開始在硬件方向進(jìn)行探索。

軟件帶來的變量主要體現(xiàn)在以下兩個(gè)方面

AI硬件的三層架構(gòu)

在原生多模態(tài)AI大模型出現(xiàn)后,結(jié)合硬件會(huì)出現(xiàn)新的信息交互和處理模式,大體上可以分為三個(gè)層次:

  1. 多模態(tài)信號(hào)輸入 -> 傳感器
  2. 模型處理和計(jì)算 -> 計(jì)算中心
  3. 交互方式 -> UIUX設(shè)計(jì)

在這三層架構(gòu)中,計(jì)算中心(如手機(jī))將為AI大模型提供端側(cè)和云端運(yùn)行能力,而AI大模型技術(shù)的能力進(jìn)步驅(qū)動(dòng)整個(gè)閉環(huán)用戶體驗(yàn)的提升,具體表現(xiàn)為讓硬件在原有功能的基礎(chǔ)上拓展能力邊界,在第三層輸出更好的效果。反過來中間層需要硬件作為傳感器獲得更多context來更好地輸出模型運(yùn)算結(jié)果。

LUI是否能成為下一代交互方式

「The UI of AGI」是AI硬件從業(yè)者需要思考的圣杯問題。

“套殼”其實(shí)就是一種最直接的嘗試,Arc瀏覽器,Perplexity,Monica.im都在各個(gè)方向積極探索。但LUI(Language User Interface)或者基于語音的交互方式(Voice-first UI)是否能取代觸控時(shí)代主流的GUI(Graphical User Interface)是在行業(yè)內(nèi)被討論最多的問題。

我認(rèn)為GPT4o為代表的低延遲、多情感、高智能原生多模態(tài)模型雖然為L(zhǎng)UI的落地提供了技術(shù)支持,并在某些特定場(chǎng)景有較好的體驗(yàn),但現(xiàn)在看起來LUI并不能獨(dú)立成為最主流的交互方式。我認(rèn)為思考這個(gè)問題的關(guān)鍵因素是I/O密度。I即input,指在人機(jī)交互中用戶向系統(tǒng)輸入信息。O即output,指系統(tǒng)向用戶反饋信息。

在I端,LUI能很好地解決當(dāng)下信息輸入門檻過高的問題,陣列麥克風(fēng)技術(shù)的發(fā)展配合AI大模型的多語言識(shí)別和總結(jié)能力,讓用戶在I端更加輕松自如(flowvoice.ai等公司已經(jīng)有產(chǎn)品落地)。

但在O端,LUI的信息密度有很大的局限,特別是與GUI相比。Vela在「Voice-first,閉關(guān)做一款語音產(chǎn)品的思考」中做了詳細(xì)的解析。

聲音在交互上的局限性主要表現(xiàn)在:

1. 輸出線性

很難實(shí)現(xiàn)多線程多任務(wù)操作

用戶很難通過前進(jìn)倒退精準(zhǔn)定位碎片化信息點(diǎn)

2. 記不住

LUI是線性的而思維是樹/圖結(jié)構(gòu),語音無法單獨(dú)呈現(xiàn)人腦所需要的信息組織形式

結(jié)果需要簡(jiǎn)單明確,最好用最小來回對(duì)話解決

在音頻自身限制和AI大模型現(xiàn)階段長(zhǎng)程推理能力缺失的情況下,LUI目前只適合做目標(biāo)明確的單點(diǎn)任務(wù),且輸出結(jié)果信息密度不宜過高。從數(shù)據(jù)上看,天貓精靈使用最多的場(chǎng)景是詢問天氣和設(shè)定鬧鐘。

因此,LUI配合GUI結(jié)合使用我認(rèn)為是能將I/O密度最大化的交互體驗(yàn)。

與大廠的競(jìng)爭(zhēng)

手機(jī)短期內(nèi)依然是生態(tài)位核心。

手機(jī)在AI硬件三層架構(gòu)可以在一定程度上覆蓋所有三個(gè)維度,并占據(jù)計(jì)算中心的核心價(jià)值位?,F(xiàn)階段對(duì)其他硬件設(shè)備的主要機(jī)會(huì)在于成為手機(jī)的傳感器,收集手機(jī)目前尚不能覆蓋的細(xì)分場(chǎng)景信息 – 主要是息屏、用戶雙手被占用無法拿起手機(jī)、無法快速開啟手機(jī)內(nèi)置傳感器(為描述方便,下文統(tǒng)稱“手機(jī)空白場(chǎng)景”)- 并嘗試探索新的交互體驗(yàn)。

對(duì)AI硬件團(tuán)隊(duì)來說,市場(chǎng)足夠大的品類依次是耳機(jī)、智能手表、眼鏡和配飾類設(shè)備。

整個(gè)智能穿戴設(shè)備生態(tài)都脫離不了一個(gè)主題:Survival is the name of the game

手機(jī)廠商因?yàn)檎甲×撕诵纳鷳B(tài)位,穿戴設(shè)備的新機(jī)會(huì)都在其射程之內(nèi),我們討論的所有穿戴設(shè)備品類都逃脫不了激烈的競(jìng)爭(zhēng)。對(duì)新玩家來說有兩種現(xiàn)實(shí)的選擇:

1) 在市場(chǎng)足夠大的賽道,爭(zhēng)取成為小米華為蘋果身后的第三/四名;

2)在大廠看不上,小公司搞不定的賽道做差異化競(jìng)爭(zhēng)。

第一種路線考驗(yàn)的是團(tuán)隊(duì)的執(zhí)行力,需要面對(duì)的競(jìng)爭(zhēng)包括:

1 硬件玩家

第一梯隊(duì):華為,小米,蘋果;優(yōu)勢(shì)無需贅述,且已經(jīng)有手機(jī)、耳機(jī)、眼鏡等成熟產(chǎn)品線,用戶基數(shù)大

第二梯隊(duì):Oppo/Vivo,大疆,安克等;有成熟的供應(yīng)鏈資源和分銷渠道,成熟業(yè)務(wù)可以產(chǎn)生穩(wěn)定現(xiàn)金流

第三梯隊(duì):科大訊飛、韶音、雷鳥、Rokid等;在垂類中有領(lǐng)先市場(chǎng)份額

2 互聯(lián)網(wǎng)公司:字節(jié)跳動(dòng)、阿里、騰訊等;擁有大量承接UIUX的場(chǎng)景

競(jìng)爭(zhēng)確實(shí)激烈,但也并不是全無機(jī)會(huì)。AI硬件時(shí)代的一個(gè)重要變量是對(duì)團(tuán)隊(duì)的復(fù)合型要求:即軟硬件結(jié)合的能力。正如文初提到的,這一輪AI硬件本質(zhì)上是軟件驅(qū)動(dòng)的,與硬件龍頭競(jìng)爭(zhēng),新團(tuán)隊(duì)需要具備更強(qiáng)的軟件能力,努力將產(chǎn)品向AI硬件三層架構(gòu)的后兩層做價(jià)值延伸。而互聯(lián)網(wǎng)公司,強(qiáng)如字節(jié)跳動(dòng)和meta都將一起競(jìng)爭(zhēng)。無論怎樣,資本價(jià)值都比較大。

當(dāng)然,也可以選擇第二條路線。這就要求團(tuán)隊(duì)對(duì)消費(fèi)者需求有深度的洞察和提前的預(yù)判。一個(gè)可以參考的思路是將軟件功能硬件化。核心是找到一個(gè)軟件端有需求的場(chǎng)景,并通過極簡(jiǎn)的設(shè)計(jì),將多步操作壓縮到一步。Plaud就是看到Live Transcribe這個(gè)app巨大的用戶基礎(chǔ),將錄音這個(gè)本來可以在app端完成的場(chǎng)景硬件化。將原本需要掏出手機(jī),解鎖,找到app,打開app,開啟錄音的一系列操作融合到簡(jiǎn)單的一鍵到位。

目前主流的AI硬件有:智能眼鏡、智能陪伴和錄音

智能眼鏡

Rayban Meta

近期Rayban Meta意外大賣,增強(qiáng)了Zuckerberg對(duì)智能眼鏡這個(gè)形態(tài)的信心。小扎對(duì)此如此篤定不無道理,因?yàn)檠坨R作為傳感器定位的智能穿戴設(shè)備確實(shí)有得天獨(dú)厚的優(yōu)勢(shì)。

一個(gè)具有對(duì)話功能,識(shí)別物體,錄像的眼鏡。通過“hey,meta喚醒”。

信息密度最大:眼睛是人類的窗戶,因?yàn)橐曈X是人類獲取信息密度最大的渠道;同理眼鏡同樣可以便捷地獲取視覺和音頻信息;目前手機(jī)做不到。

第一視角POV:“see what you see” + “hear what your hear”,POV視角不但可以提供了模型最需要的用戶視角的context;解放雙手的設(shè)定也適配手機(jī)空白場(chǎng)景。

在現(xiàn)有形態(tài)上創(chuàng)新空間相對(duì)最大:相比耳機(jī)和智能手表(疊加AI功能對(duì)本身形態(tài)改變不大),帶攝像頭的智能眼鏡相對(duì)是新的形態(tài),為新玩家提供空間。

此外,攝像眼鏡在傳播上也有天生的優(yōu)勢(shì),從目前用戶的行為來看,攝影攝像是主要的使用場(chǎng)景。Rayban Meta在內(nèi)容創(chuàng)作者和大V中非常受歡迎,他們創(chuàng)作的POV視角的內(nèi)容在社交媒體傳播容易形成潮流效應(yīng),從而形成自傳播,攝像頭。

在Rayban Meta取得成功后,海外大廠已經(jīng)形成共識(shí):Google決定與硬件合作伙伴三星探索類似形態(tài),落地在Google I/O上驚鴻一瞥的Project Astra,蘋果也開始重新審視自己的Vision產(chǎn)品線。

智能眼鏡形態(tài)的主要?jiǎng)澐趾蛢?yōu)劣勢(shì)

智能眼鏡根據(jù)功能組合和視場(chǎng)角(“FOV”)大致可以分為以下幾類:

1. 不帶顯示的智能眼鏡(已經(jīng)能將重量控制在50g以內(nèi),符合輕量化要求)

音頻眼鏡:因?yàn)榍拔姆治鯨UI的局限性,在用戶端提供的功能非常有限

攝像+音頻眼鏡:Rayban Meta取得階段性成功,價(jià)位$300

2. 帶顯示的智能眼鏡(能控制在100g以內(nèi),但在輕量化上還有提升空間)

40-50度FOV(雷鳥X2):輕顯示,價(jià)位$500-1,000

50-70度FOV(Orion):現(xiàn)實(shí)增強(qiáng),有原型機(jī),無法量產(chǎn)

100度FOV:接近VR視覺體驗(yàn),但采用OST方案;在目前技術(shù)邊界之外

不帶顯示的智能眼鏡在輕量化和成本控制上已經(jīng)相對(duì)成熟。但目前只覆蓋AI硬件三層架構(gòu)的第一層,并通過LUI提供有限的交互。純音頻眼鏡收集信號(hào)密度有限,同時(shí)受制于系統(tǒng)權(quán)限,產(chǎn)品功能單薄,且與TWS耳機(jī)重合度高。另外電子消費(fèi)品追求標(biāo)準(zhǔn)化的模式,并不能滿足消費(fèi)者對(duì)眼鏡個(gè)性化多SKU的需求。從華為和小米的實(shí)際銷量上看,只搭載音頻帶來的功能增強(qiáng)并沒有提供足夠強(qiáng)的說服力。

而帶有攝像頭的智能眼鏡,在保留音頻功能的同時(shí),通過與手機(jī)配合使用,能解鎖更多延伸場(chǎng)景,提供較好的基礎(chǔ)體驗(yàn)。

在帶顯示方案的眼鏡產(chǎn)品中,現(xiàn)有的成熟量產(chǎn)方案只能提供40-50度FOV的輕顯示,定位雞肋。一方面需要搭載光機(jī)帶來額外的重量和成本,另一方面視場(chǎng)角有限,實(shí)際上只起到了通知中心(push center)和widget看板的功能。運(yùn)用新一代技術(shù)的Even Realities G1等產(chǎn)品,雖然在輕量化上更進(jìn)一步,但這類產(chǎn)品的落地場(chǎng)景目前集中于:實(shí)時(shí)翻譯、導(dǎo)航、提詞器等場(chǎng)景。這些場(chǎng)景中確實(shí)有不錯(cuò)的體驗(yàn),但可以試想一下普通人使用上述三個(gè)場(chǎng)景的頻次。

AI功能目前也僅限基于識(shí)圖的任務(wù)延伸(類似Apple 16展示的功能)。除此之外,不少人幻想的使用場(chǎng)景,在OST方案中都在目前的技術(shù)邊界之外。Orion也只能勉強(qiáng)提供幾個(gè)雞肋的場(chǎng)景。在某種程度上智能眼鏡除攝影攝像和音頻之外的功能都可以被智能手表覆蓋。

選擇比努力重要。對(duì)試錯(cuò)成本更高的硬件創(chuàng)業(yè)公司來說更是如此,雖然上海顯耀等Micro LED公司近年取得一些技術(shù)突破,但顯示方案受制于FOV,即使落地也無法獨(dú)立支撐太多的應(yīng)用場(chǎng)景,現(xiàn)在看來并不是最優(yōu)的技術(shù)路線。

而Rayban Meta則為智能眼鏡指明了方向,短期內(nèi)取代不了手機(jī),但眼鏡保有量大,若出現(xiàn)類似汽車電動(dòng)化的眼鏡智能化趨勢(shì),市場(chǎng)體量也相當(dāng)可觀。但目前的主要缺陷是因?yàn)檩p量化無法搭載高容量電池的情況下,如何控制芯片功耗從而實(shí)現(xiàn)更長(zhǎng)續(xù)航。

期待更多爆款的功能,提高Pro C的粘性。

智能陪伴

AI 玩具

玩具是搭載LUI的理想硬件載體。一方面,小朋友需要的信息密度和精度要求相對(duì)不高,且語音的流式交互也可以被硬件一部分承載。另一方面,相比于純軟件的形態(tài),通過硬件具象化也更方便用戶代入情感寄托,提供更高的情緒價(jià)值。這個(gè)品類也符合“熟悉的陌生感”邏輯,用戶教育門檻低,基本上手即可使用。

需要注意的是AI教育的使用者和購(gòu)買決策者分離,團(tuán)隊(duì)需要在軟件后臺(tái)針對(duì)家長(zhǎng)的訴求(主要是安全控制和成長(zhǎng)記錄)有相對(duì)應(yīng)的設(shè)計(jì)。

2024年OpenAI引入了Coursera前高管并重點(diǎn)發(fā)展AI教育,國(guó)內(nèi)的學(xué)而思、小猿學(xué)練都陸續(xù)推出了AI在教育領(lǐng)域的產(chǎn)品,主要是面向課內(nèi)應(yīng)試教育場(chǎng)景。不同于AI玩具,學(xué)伴切入的是更廣義、更剛需的教育成長(zhǎng),關(guān)鍵還是得對(duì)孩子成長(zhǎng)和教育文化有深度理解的,做出和孩子成長(zhǎng)高粘性的產(chǎn)品。

該行業(yè)出色的公司眾多,我們以靈宇宙為例:

憑借卓越的軟件和算法平臺(tái)能力,以及對(duì)大模型計(jì)算的深刻理解,靈宇宙打造了一系列AI-Agent 終端產(chǎn)品,通過學(xué)伴進(jìn)入家庭,未來在深刻理解家庭場(chǎng)景和空間數(shù)據(jù)的基礎(chǔ)上,將拓展至4D空間交互的OS層領(lǐng)域,首款產(chǎn)品即將在2025年CES大會(huì)產(chǎn)品面向全球發(fā)布。

創(chuàng)始人顧嘉唯,前百度人工智能研究院IDL人機(jī)交互負(fù)責(zé)人、百度少帥、微軟研究院HCI科學(xué)家,MIT TR35(2016年唯一入選企業(yè)家),曾是物靈科技的創(chuàng)始人兼CEO (兒童繪本閱讀機(jī)器人Luka盧卡全球銷量近千萬臺(tái))。聯(lián)合創(chuàng)始人徐持衡是商湯科技 001號(hào)聯(lián)合創(chuàng)始人兼 CTO。

產(chǎn)品經(jīng)驗(yàn)豐富:團(tuán)隊(duì)深耕硬件賽道超十年,歷史上經(jīng)手?jǐn)?shù)十款A(yù)I硬件產(chǎn)品,包括曾登上時(shí)代雜志封面的家用機(jī)器人 Jibo、百度小度機(jī)器人、百度無人車、隨身硬件百度BaiduEye、度秘等,無論在大廠還是創(chuàng)業(yè)階段產(chǎn)品力都已驗(yàn)證,產(chǎn)品定義經(jīng)驗(yàn)豐富。核心團(tuán)隊(duì)均為從0到1廝殺的勝利者,做過的互聯(lián)網(wǎng)及AI產(chǎn)品累計(jì)覆蓋9億用戶。團(tuán)隊(duì)對(duì)兒童教育場(chǎng)景的深度理解,憑借產(chǎn)品數(shù)百萬量級(jí)銷量的成功經(jīng)驗(yàn),在產(chǎn)品邏輯上具有巨大的優(yōu)勢(shì)。

技術(shù)實(shí)力雄厚:來自微軟、谷歌、百度、商湯以及國(guó)際知名學(xué)者的核心技術(shù)團(tuán)隊(duì),持續(xù)在交互智能智能領(lǐng)域深耕,將通過自有產(chǎn)品的數(shù)據(jù)閉環(huán),做4D空間智能OS。獲得來自商湯等八家戰(zhàn)略或市場(chǎng)化機(jī)構(gòu)的投資、以及國(guó)家級(jí)的上海浦江實(shí)驗(yàn)室和鵬城實(shí)驗(yàn)室的算力及底層基礎(chǔ)模型技術(shù)支持,在軟硬件技術(shù)方面均突出。

錄音

PLAUD NOTE是一款由GPT驅(qū)動(dòng)的AI智能錄音設(shè)備,提供錄音、語音轉(zhuǎn)文字和內(nèi)容總結(jié)的一站式解決方案,憑借其精準(zhǔn)的PMF和技術(shù)優(yōu)勢(shì),不到1年時(shí)間已在全球范圍內(nèi)積累了幾十萬的用戶數(shù)量,在全球所有AI硬件中名列前茅,為中國(guó)出海AI硬件第一。未來,錄音這個(gè)場(chǎng)景,科大訊飛也會(huì)去做。

先看看Plaud長(zhǎng)啥樣:

卡片式,差不多身份證大小,挺薄(0.29cm),可以磁吸在手機(jī)機(jī)身背后。

吸在手機(jī)上后,最重要的功能就是錄音。

官方資料顯示,Plaud電池容量為400mAh,滿電Plaud可以連續(xù)錄音30個(gè)小時(shí),可錄制和存儲(chǔ)約480個(gè)小時(shí)的音頻資料。

Plaud身上有3個(gè)麥克風(fēng),其中1個(gè)是震動(dòng)傳導(dǎo)傳感器(VCS),另外2個(gè)則是用來采集外部環(huán)境音的空氣傳導(dǎo)傳感器。

震動(dòng)傳導(dǎo)傳感器支持Plaud的通話錄音模式,利用固體傳導(dǎo)振動(dòng),進(jìn)行錄音。

根本不需要系統(tǒng)內(nèi)安裝新App,或者獲取授權(quán)。

非常外掛式地解決了“iPhone手機(jī)通話不能錄音”的情況。但是現(xiàn)在可以了,但會(huì)通知對(duì)方,現(xiàn)在正在錄音;但是微信等還是不可以。是一個(gè)非常好的統(tǒng)一錄音硬件。

加上AI的轉(zhuǎn)錄和云端,直接成了爆品。但未來會(huì)面臨大廠例如科大訊飛的競(jìng)爭(zhēng)。

具身智能

核心:只有軟件的性能完善,才會(huì)帶來本體的放量和標(biāo)準(zhǔn),才會(huì)帶來上游電機(jī)、材料等標(biāo)準(zhǔn)。

本體

對(duì)于硬件廠商的投資邏輯主要為:

1 基本的收入支撐:之前有四足等相關(guān)機(jī)器人的業(yè)務(wù)量

2 人形機(jī)器人的成本控制:自研電機(jī)、結(jié)構(gòu)設(shè)計(jì)等等

3 人形機(jī)器人可實(shí)現(xiàn)的運(yùn)動(dòng)效果:折疊、翻滾、走路等

4 軟件:開發(fā)者友好的開發(fā)生態(tài);成熟的電機(jī)以及運(yùn)控集成算法

該行業(yè)出色的公司眾多,以云深處為例:

2024年11月,云深處推出的“山貓”四足機(jī)器人,收獲了國(guó)內(nèi)外不少關(guān)注和認(rèn)可,不僅在B站、視頻號(hào)、Youtube等平臺(tái)全網(wǎng)刷爆、新華每日電訊官方賬號(hào)數(shù)萬人點(diǎn)贊評(píng)論、Figure AI創(chuàng)始人也在X平臺(tái)轉(zhuǎn)發(fā)并點(diǎn)贊了這條視頻。

在驚艷的產(chǎn)品能力背后,我們了解到云深處有著深厚的軟硬件技術(shù)儲(chǔ)備:

硬件方面:在四足領(lǐng)域目前已推出絕影X30、Lite3等平臺(tái)、在輪足領(lǐng)域已推出“山貓”機(jī)器人平臺(tái)、在人形機(jī)器人領(lǐng)域今年下半年已推出DR01平臺(tái)、在零部件方面已推出J系列一體化關(guān)節(jié)產(chǎn)品,構(gòu)筑了豐富、高性能的產(chǎn)品矩陣。

軟件方面:云深處創(chuàng)始團(tuán)隊(duì)在人形機(jī)器人運(yùn)動(dòng)控制、強(qiáng)化學(xué)習(xí)RL等技術(shù)上是國(guó)內(nèi)最早一批研究者,2019年起便與國(guó)外學(xué)者合作開展RL相關(guān)研究,2020年研究成果已登上機(jī)器人頂刊《Science Robotics》的封面,長(zhǎng)期的研發(fā)積累是云深處能夠在四足、人形領(lǐng)域不斷突破產(chǎn)品力極限的關(guān)鍵。

大腦

目前物理大模型的屬性主要分為:

LLM/VLM模型驅(qū)動(dòng)和擴(kuò)散模型為主要驅(qū)動(dòng)的模型,兩者可以統(tǒng)一

原生 VS 組裝式開源微調(diào)

分層化端到端 VS 整體端到端

除此之外,學(xué)習(xí)范式、數(shù)據(jù)和訓(xùn)練環(huán)境也是次要需考慮的方向重點(diǎn)。

(3)學(xué)習(xí)范式

模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí) VS 監(jiān)督/無監(jiān)督學(xué)習(xí)+強(qiáng)化學(xué)習(xí)

(4)數(shù)據(jù)

就像在之前具身部分解釋的一樣,快速收斂模型和算法是主要目前的競(jìng)爭(zhēng),如何Scale out可以在各個(gè)模型選擇上看出一二,無論怎樣就像GPT一樣,在大規(guī)模算力和數(shù)據(jù)輸入前,模型需要幾個(gè)基本特質(zhì):

相信同時(shí)具有大模型訓(xùn)練和商業(yè)化能力的團(tuán)隊(duì)。

1 原生模型,自研設(shè)計(jì)并訓(xùn)練,相比于調(diào)用別人LLM或者VLM模型微調(diào),可以底層優(yōu)化算法,進(jìn)行改動(dòng)。

2 最大化容納數(shù)據(jù)的種類,來彌補(bǔ)機(jī)器人數(shù)據(jù)的不足。

3 極度精簡(jiǎn)的模型結(jié)構(gòu),減少數(shù)據(jù)壓縮的損失。

4 低成本的學(xué)習(xí)范式:無監(jiān)督學(xué)習(xí)最優(yōu),模仿和強(qiáng)化都需要大量數(shù)據(jù)和仿真(小腦路徑不在此范圍)。

最近優(yōu)秀的大腦公司眾多,這里我們以智澄AI為例:

顛覆式AI原生機(jī)器人技術(shù):完全自研大小腦融合模型,區(qū)別于任何一家大腦公司的架構(gòu);空間感知,物理世界理解推理和執(zhí)行all in端到端具身智能大模型的神經(jīng)網(wǎng)絡(luò):魯棒性高,泛化性強(qiáng),GPT時(shí)刻前夕-展現(xiàn)出的強(qiáng)大的可Scale out和Zero-shot能力。

領(lǐng)先的智能工程化能力:區(qū)別于前沿實(shí)驗(yàn)室的組裝式開源大模型,智澄AI在前沿技術(shù)融合應(yīng)用、異構(gòu)數(shù)據(jù)搭建、空間感知、簡(jiǎn)潔模型架構(gòu)、安全可靠性等方面擁有多項(xiàng)獨(dú)到模塊創(chuàng)新,能夠更低成本、更高效率實(shí)現(xiàn)Best Practice學(xué)習(xí)范式的收斂。

硬軟件快速迭代能力:2024年6-8月相繼完成產(chǎn)品原型TR1、TR2,人形本體將在2025年初下線,已有數(shù)家場(chǎng)景客戶合作方,伴隨技術(shù)研發(fā)產(chǎn)品逐步落地。

多位國(guó)際AI大廠資深科學(xué)家及高管領(lǐng)銜:平均擁有20年AI經(jīng)驗(yàn)積累,CEO曾任Meta首席工程負(fù)責(zé)人,在Meta對(duì)于感知世界和物理世界模型有最新的認(rèn)識(shí);聯(lián)創(chuàng)包括Meta首席AI研究科學(xué)家和微軟大中華區(qū)CTO,Meta、亞馬遜、螞蟻、華為資深A(yù)I專家及海外頂級(jí)高校機(jī)器人、AI大模型背景人才梯隊(duì)。

產(chǎn)業(yè)、政府、高校頂級(jí)合作與資源:已獲得杭州市政府、產(chǎn)業(yè)方在資金、算力方面大力支持,合作伙伴包括華為、菜鳥、歐琳、清華、浙大、北大、哈佛、斯坦福等頂級(jí)高校。

參考資料

再次感謝各位的知識(shí)分享,在此之上我們做了更進(jìn)一步的研究,并將之“開源”!

【1】來源:知乎,作者:瞻云,回答問題:大腦為什么自己不明白自己的工作機(jī)理呢?鏈接:https://www.zhihu.com/question/490949334/answer/2161395464

【2】來源:知乎,作者:bird,文章:人腦工作機(jī)制分析和猜想(01):關(guān)于人腦——腦的演變過程及當(dāng)前的系統(tǒng)架構(gòu),鏈接:https://zhuanlan.zhihu.com/p/414408970

【3】來源:知乎,作者:花卷神經(jīng)科學(xué),回答問題:腦科學(xué)進(jìn)展為何如此緩慢?鏈接:https://www.zhihu.com/question/34936606/answer/3300145691

【4】來源:知乎,作者:bird,回答問題:腦科學(xué)進(jìn)展為何如此緩慢?鏈接:https://www.zhihu.com/question/34936606/answer/3300145691

【5】來源:知乎,作者:神經(jīng)美學(xué) 茂森,回答問題:大腦神經(jīng)元的的建立過程是怎樣的?鏈接:https://www.zhihu.com/question/268720152/answer/3546965051

【6】來源:知乎,作者:一起讀PCB,回答問題:神經(jīng)元的工作原理是怎樣的?鏈接:https://www.zhihu.com/question/408206230/answer/3426676360

【7】來源:知乎,作者:Liang Shi,回答問題:神經(jīng)細(xì)胞有哪些細(xì)胞種類&各種類的功能分別有哪些?鏈接:https://www.zhihu.com/question/457254607/answer/1921579805

【8】來源:知乎,作者:Liang Shi,回答問題:抑制神經(jīng)元和興奮神經(jīng)元是怎么區(qū)別的,或者說抑制神經(jīng)元產(chǎn)生抑制遞質(zhì),興奮神經(jīng)元產(chǎn)生興奮遞質(zhì)?鏈接:https://www.zhihu.com/question/392758414/answer/1202650268

【9】來源:知乎,作者:賽殼學(xué)習(xí)筆記,文章:神經(jīng)元的工作原理——電信號(hào)和化學(xué)信號(hào)的緊密合作,鏈接:https://zhuanlan.zhihu.com/p/361601594

【10】來源:知乎,作者:東單情感,回答問題:神經(jīng)元的工作原理是怎樣的?鏈接:https://www.zhihu.com/question/408206230/answer/1614246705

【11】“Architectures of neuronal circuits”,Liqun Luo,Science,3 Sep 2021, Vol 373,  Issue 6559,DOI: 10.1126/science.abg7285

【12】來源:知乎,作者:林文豐 Jason,文章:認(rèn)知神經(jīng)科學(xué) 第三版,鏈接:https://zhuanlan.zhihu.com/p/709723778

【13】來源:知乎,作者:呸PER無一郎,回答問題:人的大腦是如何識(shí)別某一物體并檢測(cè)到運(yùn)動(dòng)的?鏈接:https://www.zhihu.com/question/26430414/answer/3115980831

【14】來源:知乎,作者:趙思家,回答問題:注意力的認(rèn)知神經(jīng)機(jī)制是什么?鏈接:https://www.zhihu.com/question/33183603/answer/71783580

【15】來源:知乎,作者:OwlLite,回答問題:人類是通過語言介質(zhì)進(jìn)行思考的嗎?鏈接:https://www.zhihu.com/question/483263643/answer/2163239073

【16】來源:科技日?qǐng)?bào),文章:識(shí)別情緒的大腦回路發(fā)現(xiàn),鏈接:https://www.hfnl.ustc.edu.cn/detail?id=22115

【17】來源:知乎,作者:林文豐 Jason,文章:《智能簡(jiǎn)史:進(jìn)化、人工智能和造就我們大腦的五大突破》,鏈接:https://zhuanlan.zhihu.com/p/714025058

【18】來源:知乎,作者:蔡叫獸,回答問題:如何看待饒毅的「人工智能還是偽智能」命題?鏈接:https://www.zhihu.com/question/27716888/answer/37866993

【19】來源:知乎,作者:周鵬程,文章:一場(chǎng)twitter爭(zhēng)論:人工智能是否需要神經(jīng)科學(xué),鏈接:https://zhuanlan.zhihu.com/p/576570463

【20】來源:知乎,作者:泳魚,文章:一文概覽人工智能(AI)發(fā)展歷程,鏈接:https://zhuanlan.zhihu.com/p/375549477

【21】來源:知乎,作者:ZOMI醬,文章:【AI系統(tǒng)】AI 發(fā)展驅(qū)動(dòng)力,鏈接:https://zhuanlan.zhihu.com/p/914397847

【22】來源:知乎,作者:機(jī)器之心,文章:一文簡(jiǎn)述深度學(xué)習(xí)優(yōu)化方法——梯度下降,鏈接:https://zhuanlan.zhihu.com/p/39842768

【23】來源:知乎,作者:我勒個(gè)矗,文章:模仿學(xué)習(xí)(Imitation Learning)介紹,鏈接:https://zhuanlan.zhihu.com/p/25688750

【24】來源:知乎,作者:泳魚,文章:通俗講解強(qiáng)化學(xué)習(xí)!,鏈接:https://zhuanlan.zhihu.com/p/459993357

【25】來源:知乎,作者:IT胖熊貓,文章:AI知識(shí)體系概述,鏈接:https://zhuanlan.zhihu.com/p/706229733

【26】來源:知乎,作者:DoubleV,文章:詳解深度學(xué)習(xí)中的梯度消失、爆炸原因及其解決方法,鏈接:https://zhuanlan.zhihu.com/p/33006526

【27】來源:知乎,作者:普適極客,回答問題:怎么形象理解embedding這個(gè)概念?鏈接:https://www.zhihu.com/question/38002635/answer/1364549217

【28】來源:知乎,作者:猛猿,回答問題:如何理解 Transformer 論文中的 positional encoding,和三角函數(shù)有什么關(guān)系?鏈接:https://www.zhihu.com/question/347678607/answer/2301693596

【29】來源:知乎,作者:北方的郎,回答問題:對(duì)人工智能毫無了解,導(dǎo)師讓看transformer和BERT的兩篇論文。好幾天了,基本沒看懂,何解?鏈接:https://www.zhihu.com/question/568969384/answer/3390204563

【30】來源:知乎,作者:猛猿,回答問題:如何理解attention中的Q,K,V?鏈接:https://www.zhihu.com/question/298810062/answer/2320779536

【31】來源:知乎,作者:書中有李,文章:GPT 理解:關(guān)于 transform attention 中的 QKV,鏈接:https://zhuanlan.zhihu.com/p/636889198

【32】來源:知乎,作者:猛猿,文章:Transformer學(xué)習(xí)筆記二:Self-Attention(自注意力機(jī)制),鏈接:https://zhuanlan.zhihu.com/p/455399791

【33】來源:知乎,作者:佳人李大花,回答問題:為什么現(xiàn)在的LLM都是Decoder only的架構(gòu)?鏈接:https://www.zhihu.com/question/588325646/answer/3383505083

【34】“Scaling Laws for Neural Language Models”,Jared Kaplan,arXiv,23 Jan 2020,cited as arXiv:2001.08361

【35】來源:知乎,作者:玖歌,文章:LLM Scaling Laws,鏈接:https://zhuanlan.zhihu.com/p/694664603

【36】來源:知乎,作者:程序猿阿三,回答問題:能大致講一下ChatGPT的原理嗎?鏈接:https://www.zhihu.com/question/598243591/answer/3446096328

【37】來源:知乎,作者:程序鍋,文章:OpenAI首次揭秘GPT訓(xùn)練細(xì)節(jié),鏈接:https://zhuanlan.zhihu.com/p/633202668

【38】來源:知乎,作者:猛猿,回答問題:誰能講解下擴(kuò)散模型中Unet的注意力機(jī)制?鏈接:https://www.zhihu.com/question/597701864/answer/3080511687

【39】白辰甲,許華哲,李學(xué)龍;《大模型驅(qū)動(dòng)的具身智能: 發(fā)展與挑戰(zhàn)》;中國(guó)科學(xué) : 信息科學(xué) 2024 年 第 54 卷 第 9 期: 2035–2082

【40】來源:知乎,作者:lijun,文章:MPC(模型預(yù)測(cè)控制) 原理及理論推導(dǎo),鏈接:https://zhuanlan.zhihu.com/p/698526965

【41】來源:知乎,作者:王建明,文章:對(duì)話羅劍嵐:強(qiáng)化學(xué)習(xí)+真機(jī)操作可以很Work,鏈接:https://zhuanlan.zhihu.com/p/6329634561

【42】來源:知乎,作者:高樂,文章:基于擴(kuò)散基礎(chǔ)模型RDT(Robotics Diffusion Transformer)的人形機(jī)器人雙臂操作,鏈接:https://zhuanlan.zhihu.com/p/2020035331

【43】來源:知乎,作者:善與凈,文章:大模型評(píng)測(cè)的幾個(gè)榜單,鏈接:https://zhuanlan.zhihu.com/p/713849119

【44】來源:知乎,作者:愛生活A(yù)i工作,文章:全球AI大比拼!GPT-4o穩(wěn)居第一,阿里Qwen2為何跌至第八?,鏈接:https://zhuanlan.zhihu.com/p/703544557

【45】來源:海外獨(dú)角獸公眾號(hào),作者:Cage,文章:LLM的范式轉(zhuǎn)移:RL帶來新的 Scaling Law,鏈接:https://mp.weixin.qq.com/s/JPfgF6UtgIYwWXwNQHOoqQ

【46】來源:知乎,作者:白老師AI學(xué)堂,文章:預(yù)測(cè)即壓縮, 壓縮即智能?——從信息論視角看大語言模型的本質(zhì)與未來,鏈接:https://zhuanlan.zhihu.com/p/702188556

【47】來源:知乎,作者:DeepTech深科技,文章:爭(zhēng)鳴:OpenAI奧特曼、Hinton、楊立昆的AI觀點(diǎn)到底有何不同?,鏈接:https://zhuanlan.zhihu.com/p/636522807

【48】來源:知乎,作者:安曉心,回答問題:如何評(píng)價(jià)Yann LeCun的 世界模型?鏈接:https://www.zhihu.com/question/632009707/answer/3422307013

【49】智算未來系列十:智算中心加碼,國(guó)產(chǎn)算力提速;中金點(diǎn)睛,鏈接:https://mp.weixin.qq.com/s/sfRIUaMY0iua0ediPzUppQ

【50】AI浪潮之巔系列:云端算力芯片,科技石油;中金點(diǎn)睛,鏈接:https://mp.weixin.qq.com/s/RHgYjrhvqRoqVqLoUPvVzg

【51】ChatGPT啟新章,AIGC引領(lǐng)云硬件新時(shí)代;中金點(diǎn)睛,鏈接:https://mp.weixin.qq.com/s/V0Jch3MS-ch4azwMwIXDLQ

【52】AI浪潮之巔系列:服務(wù)器,算力發(fā)動(dòng)機(jī);中金點(diǎn)睛,鏈接:https://mp.weixin.qq.com/s/W2AwPTsOfvsGOeLhCYo7Nw

【53】智算未來系列七:國(guó)產(chǎn)云端AI芯片破局,路在何方?;中金點(diǎn)睛,鏈接:https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw

【54】來源:知乎,作者:Na Liu,文章:科技演變的規(guī)律和投資方法論小感,鏈接:https://zhuanlan.zhihu.com/p/445923243

【55】來源:海外獨(dú)角獸公眾號(hào),作者:Cage,文章:Anyscale:Databricks 創(chuàng)始人再下場(chǎng),ML 領(lǐng)域最值得期待的公司?,鏈接:https://mp.weixin.qq.com/s/lKaEJsRkKnRkdDE9C2uOiQ

【56】來源:海外獨(dú)角獸公眾號(hào),作者:Cage,文章:拾象AI投資圖譜:大浪已至,展望Infra百億美金公司機(jī)遇,鏈接:https://mp.weixin.qq.com/s/uBIpXFloAoda5lrquzyvDg

【57】來源:海外獨(dú)角獸公眾號(hào),作者:haina,文章:Sales Agent 接管企業(yè)銷售,11x.ai 是企業(yè)數(shù)字員工的雛形嗎?,鏈接:https://mp.weixin.qq.com/s/IuJlFuZMNBaKQne6Kn2r5Q

【58】來源:海外獨(dú)角獸公眾號(hào),作者:kefei,文章:Kore.ai:LLM能否為AI客服帶來新一輪洗牌與機(jī)遇,鏈接:https://mp.weixin.qq.com/s/IsS-xeh63ul82yw14EZOSA

【59】來源:海外獨(dú)角獸公眾號(hào),作者:kefei,文章:Glean:大模型時(shí)代的企業(yè)內(nèi)入口級(jí)產(chǎn)品,最了解員工的“AI同事”,鏈接:https://mp.weixin.qq.com/s/ibqKqUJJ1uZ0rAHx34yqGQ

【60】來源:海外獨(dú)角獸公眾號(hào),作者:程天一,文章:AI重塑法律行業(yè):為80%的工作帶來10x提升,鏈接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【61】來源:海外獨(dú)角獸公眾號(hào),作者:程天一,文章:Suno AI:音樂生成迎來MidJourney時(shí)刻,Suno能否挑戰(zhàn)Spotify?,鏈接:https://mp.weixin.qq.com/s/fmMuAcrSH9UH7svml4LlUg

【62】來源: 鹿其鹿粦Chilling公眾號(hào),作者:Aaron Qian,文章:EP.3 | 一年之后:AI大模型航海我們身在何處 將駛向何方 (II) – 硬件篇,鏈接:https://mp.weixin.qq.com/s/9ra-9iQ_HjAfsethunVOrA

作者|楊儒、劉英航、謝晨星、王嘉攀

本報(bào)告由勢(shì)乘資本和光錐智能聯(lián)合發(fā)布

本文由人人都是產(chǎn)品經(jīng)理作者【光錐智能】,微信公眾號(hào):【光錐智能】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!