5億美金估值,TikTok想“消滅”它,最會(huì)賺錢的AI應(yīng)用憑什么?

0 評(píng)論 470 瀏覽 1 收藏 75 分鐘

本文聚焦于AI應(yīng)用領(lǐng)域的佼佼者——Captions,其憑借AI生成3D虛擬形象、AI剪輯及對(duì)口型等創(chuàng)新功能,在競爭激烈的市場中迅速嶄露頭角。盡管面臨TikTok等巨頭的激烈競爭,甚至遭遇抄襲和打壓,Captions仍憑借其強(qiáng)大的產(chǎn)品力和市場策略,成功站穩(wěn)腳跟并持續(xù)擴(kuò)張。

a16z 發(fā)布的 2025 年全球 100 大 AI 消費(fèi)級(jí)應(yīng)用報(bào)告中,Captions 被認(rèn)為是最會(huì)賺錢的 AI 音視頻應(yīng)用之一。

憑借 AI 生成 3D 虛擬形象、AI 剪輯、AI 對(duì)口型等功能,Captions 在 2023 年實(shí)現(xiàn)快速增長,僅移動(dòng)端下載量就超過 1000 萬次。

2024 年 7 月,Captions 獲得了 Index Ventures 領(lǐng)投,a16z 等跟投的 6000 萬美元 C 輪融資,這輪融資后,它的估值達(dá)到 5 億美元。據(jù)第三方數(shù)據(jù),其年?duì)I收估算高達(dá) 900 萬美元。

Captions 目前的用戶數(shù)量超過了 1000 萬(大部分是創(chuàng)作者),月活用戶達(dá)到 300 萬,而且這些用戶中很大一部分是付費(fèi)用戶。在獲得這些成就的同時(shí),它的團(tuán)隊(duì)成員還沒超過 100 人。

最關(guān)鍵的是,Captions 的競爭對(duì)手是 CapCut(剪映國際版)。

Captions 的創(chuàng)立源于創(chuàng)始人 Gaurav Misra 領(lǐng)導(dǎo) Snap 設(shè)計(jì)工程團(tuán)隊(duì)的經(jīng)歷。期間他見證了社交媒體視頻的演變——從 TikTok 到 Instagram Reels,再到 YouTube Shorts。他注意到”口播視頻”這類創(chuàng)作者直面鏡頭的新形式正在崛起。2020 年,Misra 離開 Snap,與辭去高盛職務(wù)的前同事 Dwight Churchill 共同創(chuàng)立 Captions。

最近兩位聯(lián)合創(chuàng)始人 Gaurav Misra 和 Dwight Churchill 接受了著名科技播客 Colossus、Lenny 的采訪,就 AI 應(yīng)用如何尋找 PMF、如何做產(chǎn)品增長與功能迭代等進(jìn)行了深入的探討,F(xiàn)ounder Park 對(duì)兩期播客進(jìn)行了編譯處理。

01 兩天時(shí)間開發(fā),成功的關(guān)鍵是抓住了痛點(diǎn)

Colossus:談?wù)勀銈優(yōu)槭裁催x擇在那時(shí)(2020 年)開始,業(yè)務(wù)是如何發(fā)展的?

Gaurav:我們創(chuàng)辦公司時(shí),第一個(gè)推出的應(yīng)用就是 Captions,它是一個(gè)為內(nèi)容創(chuàng)作者打造的視頻創(chuàng)作平臺(tái)。

我之前在 Snap 工作過,Snap 曾多次嘗試過類似的事情,但都不算成功。視頻編輯器的商業(yè)化程度很高,你能做的創(chuàng)新幾乎都來自盡可能壓低成本,要在這一領(lǐng)域競爭確實(shí)非常困難。

我們最初的想法是通過 AI 來輔助創(chuàng)作視頻,利用這個(gè)差異化點(diǎn),人們才會(huì)選擇我們。我們發(fā)現(xiàn)市場上有語音轉(zhuǎn)文本的需求,那時(shí)這個(gè)技術(shù)已經(jīng)相當(dāng)成熟,但普通人并不了解它的精準(zhǔn)度有多高,尤其是在處理專有名詞和一些冷僻術(shù)語時(shí)。

所以,我們的第一個(gè)產(chǎn)品,核心功能其實(shí)是「自動(dòng)給視頻加字幕」,它是用一個(gè)周末的時(shí)間臨時(shí)拼湊出來的,然后我們就把它放到了 AppStore 上。當(dāng)?shù)诙煸缟闲褋恚l(fā)現(xiàn)它已經(jīng)沖到 AppStore 榜單的頂端了,而我們沒做任何宣傳。我醒來后,給 Dwight 發(fā)了一條短信,「現(xiàn)在每分鐘人們用這個(gè)應(yīng)用制作 600 個(gè)視頻?!?/p>

這幾乎是一個(gè)瞬間成功的故事。但即便是在周末短短兩天的工作中,我們也將應(yīng)用設(shè)計(jì)得足夠好,以便能持續(xù)收集數(shù)據(jù),并且通過這些數(shù)據(jù)不斷訓(xùn)練更好的模型,來提供更優(yōu)質(zhì)的用戶體驗(yàn)。

從第一天起,我們的計(jì)劃就是:這是一款 AI 應(yīng)用,用戶使用時(shí),數(shù)據(jù)會(huì)用來不斷改進(jìn)模型,從而提升用戶體驗(yàn)。

隨著時(shí)間推移,我們?yōu)閼?yīng)用加入了更多的功能,涵蓋了從腳本創(chuàng)作到錄制、視頻編輯,再到視頻分發(fā)的整個(gè)領(lǐng)域;AI 在所有環(huán)節(jié)中都發(fā)揮作用,而這些環(huán)節(jié)中都有數(shù)據(jù)可以收集,用來改進(jìn)模型。

這正是我們的獨(dú)特之處,因?yàn)槠渌静]有像我們這樣注重?cái)?shù)據(jù)收集,更多的是只關(guān)注生成輸出。因此,他們不得不從互聯(lián)網(wǎng)上抓取數(shù)據(jù)來提升他們的模型。而我們更注重的是通過擴(kuò)大用戶基礎(chǔ),讓數(shù)據(jù)能支持模型更好、更精確的發(fā)展。

通過將視頻數(shù)據(jù)直接輸入到視頻生成模型中,為我們帶來了顯著的優(yōu)勢。我覺得這種模式類似于 Facebook 或 Google 的商業(yè)模式——提供一個(gè)免費(fèi)的大眾消費(fèi)產(chǎn)品,而數(shù)據(jù)則被用來推動(dòng) B2B 付費(fèi)產(chǎn)品的發(fā)展。

Colossus:過去,分發(fā)渠道通常非常貴,但當(dāng)工具變得好 10 倍、甚至 100 倍時(shí),分發(fā)可能會(huì)相對(duì)容易,我認(rèn)為你們就是從中受益的一方。看到收入、用戶以及這一切快速增長是什么樣的感覺?

Gaurav:對(duì)于任何做產(chǎn)品的人來說,我覺得沒有什么比看到「我做了一件事,第二天就產(chǎn)生了影響」更激動(dòng)人心了。我認(rèn)為我們能做到這一點(diǎn)是因?yàn)榻⒘艘粋€(gè)優(yōu)秀的團(tuán)隊(duì),吸引到很多優(yōu)秀的人才,這使我們有了成功的基礎(chǔ)。

但對(duì)我來說,最有趣的部分也許是,你看到市場上的全新領(lǐng)域被解鎖,而這些領(lǐng)域目前沒有任何競爭者。

正是這種情況導(dǎo)致了快速的增長:我們在一段時(shí)間內(nèi)是唯一可以做某些事情的公司。隨著更多使用場景的解鎖,競爭會(huì)逐漸增多,但那可能是幾年后。

至少現(xiàn)在,我們看到的現(xiàn)象是:我們通過解鎖更多的使用場景,激發(fā)了新的市場。到目前為止,我們認(rèn)為已經(jīng)解鎖的市場還只是 1% 到 5% 的范圍。隨著市場的增長,更多全新的領(lǐng)域會(huì)被打開。

是的,他們完全愿意付費(fèi),他們蜂擁而至——我們甚至不需要推銷它,而我們是唯一的選擇。這樣一來,增長會(huì)非???。我認(rèn)為,這可能是我最興奮的地方。

02 TikTok 多次想「消滅」我們

Colossus:你感覺你們現(xiàn)在和其他公司之間處于軍備競賽中嗎?

Gaurav:在某種程度上是的。很多新公司都在出現(xiàn),大家都在做相同的事情。舉個(gè)例子,我曾在 Snap 工作,而有其他五個(gè)人也從 Snap 離職,嘗試創(chuàng)辦同樣的公司。

但我喜歡這一點(diǎn)——因?yàn)閺哪撤N意義上來說,大多數(shù)人都在模仿我們,這其實(shí)是個(gè)好兆頭,說明我們做的事情是對(duì)的。我們盡量避免過多關(guān)注其他公司。我們的產(chǎn)品策略和我們構(gòu)建的東西,完全是由我們的使命和愿景來決定的,而不是看別人怎么做。別人可能根本沒有一個(gè)完整的戰(zhàn)略。

我們的重點(diǎn)是專注于我們的北極星,無論是從技術(shù)角度,還是從產(chǎn)品和用戶體驗(yàn)的角度。我覺得這才是最有趣的地方。什么時(shí)候我們能有機(jī)會(huì)從底層到頂層,重新發(fā)明整個(gè)技術(shù)棧,甚至包括硬件層面的創(chuàng)新呢?

比如說 NVIDIA 驅(qū)動(dòng)中的 bug,還有硬件層面的一些問題。我們有機(jī)會(huì)從根本上重新發(fā)明用戶體驗(yàn)——人們將如何與這些東西交互。我覺得很多人還沒有意識(shí)到這一點(diǎn)。大家只是把模型拿過來,放到 UI 上,然后讓用戶「按一下按鈕,輸出結(jié)果」。

如果它有更多互動(dòng)呢?如果你能看到生成過程中的每一步,或者在生成過程中進(jìn)行預(yù)覽,并根據(jù)自己的需求實(shí)時(shí)調(diào)整呢?還有很多未解鎖的潛力。無論是設(shè)計(jì)師了解技術(shù),還是技術(shù)人員學(xué)習(xí)市場營銷,這個(gè)領(lǐng)域的演進(jìn)和整合將會(huì)更加深刻。這就是我們專注的方向。

Dwight:我認(rèn)為軍備競賽的核心在于,我們要確保提供的產(chǎn)品遠(yuǎn)遠(yuǎn)超出客戶今天的需求。每當(dāng)我們發(fā)布新功能時(shí),它都會(huì)在第一天就直接投入商業(yè)化使用,而不是先與一小部分人測試,看是否真的解決了問題。我們是在為他們的工作打造這些產(chǎn)品。無論是大企業(yè)還是免費(fèi)的消費(fèi)者,我們都深度融入他們的工作流程。

最終,正如 Gaurav 所說,通過重新發(fā)明設(shè)計(jì)模式和用戶與新模型互動(dòng)的方式,我們在鋪設(shè)未來工作方式的道路。這就是我認(rèn)為的軍備競賽,但它并不僅僅是與其他公司之間的競爭。

Colossuss:當(dāng)一個(gè)公司被別人當(dāng)成「敵人」時(shí),它就進(jìn)入了某種成熟階段。你們是如何應(yīng)對(duì)這個(gè)的?

Gaurav:當(dāng)然有。在這種情況下,我們通常會(huì)說,「我們只管自己的使命,不去擔(dān)心別人做什么?!沟呛芏嗳舜_實(shí)關(guān)心我們在做什么。我們處于一個(gè)競爭與合作并存的位置,和很多社交網(wǎng)絡(luò)都有合作關(guān)系,因?yàn)槲覀儗?duì)它們的增長有幫助。

我們創(chuàng)造內(nèi)容,而所有社交網(wǎng)絡(luò)都需要內(nèi)容。當(dāng) Instagram 推出 Reels 時(shí),它們的大部分內(nèi)容搬運(yùn)自 TikTok,帶著 TikTok 的水印。但在我們的平臺(tái)上,我們每天生成成千上萬條沒有水印的內(nèi)容,這些內(nèi)容會(huì)被上傳到社交媒體。

我們最終成為了許多社交網(wǎng)絡(luò)的有價(jià)值合作伙伴。從這個(gè)角度來看,我們看到了社交網(wǎng)絡(luò)格局的變化。很多風(fēng)險(xiǎn)資本家會(huì)問:「如果 Facebook 抄襲你們怎么辦?如果 Google 抄襲你們怎么辦?」我認(rèn)為我們開始看到的現(xiàn)象是,Google 和 Facebook 不再是抄襲公司了;現(xiàn)在 TikTok 扮演這個(gè)角色。

TikTok 成了 Facebook 曾經(jīng)的模樣,在每一個(gè)市場中「捕捉、消滅、摧毀一切」。

他們的領(lǐng)導(dǎo)層非常清楚我們的存在,并且他們曾多次嘗試「消滅」我們。值得肯定的是,他們是第一個(gè)意識(shí)到我們存在的公司。

Colossuss:他們試圖「消滅」你們的表現(xiàn)是什么樣的?是單純地抄襲產(chǎn)品嗎?

03 MVP 模式,每周都有產(chǎn)品迭代

Lenny:作為 Captions 的領(lǐng)導(dǎo)者,面對(duì)各類熱點(diǎn)不斷,有沒有新工具、流程或方法,來幫助大家持續(xù)保持專注,避免被每一個(gè)新奇事物吸引干擾,從而真正把產(chǎn)品做出來呢?

Gaurav:這關(guān)乎漸進(jìn)性。我們目標(biāo)就是每周推出產(chǎn)品。工程上要求每位工程師每周推出有市場價(jià)值的產(chǎn)品——展示給用戶,他們可能僅憑這個(gè)產(chǎn)品就訂閱、付費(fèi)或者使用應(yīng)用。

像文字處理器里自動(dòng)排版、文本對(duì)齊這種基礎(chǔ)功能,其實(shí)不會(huì)吸引用戶使用產(chǎn)品。但如果是獨(dú)特的功能,就算應(yīng)用里缺少常見功能,用戶也會(huì)因?yàn)楠?dú)特功能而使用應(yīng)用,比如忽略它的文本對(duì)齊,只是為了使用你在產(chǎn)品中打造的這些新工具和新功能。所以我們力求每位工程師每周推出一個(gè)這樣有市場價(jià)值的功能。

當(dāng)然,很多功能可能并不奏效,但也有不少有效。對(duì)有效的功能,我們加大投入開發(fā)。人們常抱怨產(chǎn)品剛推出時(shí)不完善,確實(shí),我們推出的是極致精簡的最小可行產(chǎn)品(MVP),刪減設(shè)計(jì)直到產(chǎn)品保留最核心的可用性,然后我們把產(chǎn)品推出。

如果一切順利,人們會(huì)使用這個(gè)產(chǎn)品,盡管它可能存在各種問題。然后人們會(huì)抱怨,我們就會(huì)得到一長串問題清單,這樣我們就明確下一步工作方向。所以,這就是一個(gè)起點(diǎn)。只要每周推出產(chǎn)品,就會(huì)有大量功能、產(chǎn)品及發(fā)展方向涌現(xiàn),之后舍棄大部分,僅對(duì)保留的部分進(jìn)行拓展。這種方法非常有效,能讓團(tuán)隊(duì)保持專注。

Lenny:對(duì)很多公司而言,要求每位工程師每周推出有市場價(jià)值的功能或產(chǎn)品,聽上去會(huì)讓一些人感到壓力巨大,可能也有人覺得這正是理想的工作方式、是公司應(yīng)有的產(chǎn)品打造模式。那你們?nèi)绾未_保質(zhì)量,讓所有產(chǎn)品保持連貫一致呢?

Gaurav:大多數(shù)時(shí)候,質(zhì)量是不能妥協(xié)的。雖說在質(zhì)量上存在戰(zhàn)略性妥協(xié),但通常得設(shè)定質(zhì)量標(biāo)準(zhǔn),功能應(yīng)該是可用的。人們常犯的錯(cuò)是,時(shí)間緊迫時(shí),工程師、產(chǎn)品經(jīng)理、設(shè)計(jì)師傾向降低質(zhì)量標(biāo)準(zhǔn),而非縮小產(chǎn)品范圍。

我們采用的方法是縮小產(chǎn)品功能范圍。審視每個(gè)需要花費(fèi)時(shí)間來開發(fā)的元素,想想去掉它,產(chǎn)品還能用嗎?重復(fù)這個(gè)過程,直到去掉所有可去的部分,當(dāng)再去任何東西產(chǎn)品就無法使用時(shí),這便成為了一周的項(xiàng)目。

這種方法真的很有效,它能讓你聚焦于你真正想要實(shí)現(xiàn)的核心內(nèi)容。比如開發(fā)視頻添加圖片的功能,常規(guī)設(shè)計(jì)流程可能包含從相冊導(dǎo)入、去背景、調(diào)色調(diào)飽和度等。但其實(shí)可以去掉背景去除、色調(diào)飽和度調(diào)整等額外功能,只保留核心的從相冊選圖并添加到視頻的功能就夠了,可能只是需要一個(gè)包含很多選擇的選擇器,可以從云端甚至硬盤獲取圖片,沒有 UI 也無妨。

如果這個(gè)核心功能不可用,基于它構(gòu)建的其他功能也沒有意義,這就是我們開發(fā)產(chǎn)品的方式。

Lenny:最后一句話對(duì)這個(gè)過程至關(guān)重要。這是在你對(duì)某件事投入大量精力之前,先推出小的迭代功能的核心思想,目的是先弄清楚這個(gè)功能有價(jià)值嗎,它值得花幾周時(shí)間去開發(fā)嗎?

Gaurav:完全正確。這種方法最棒的地方在于,用戶使用產(chǎn)品后,最先抱怨的就是最困擾他們的問題。是色調(diào)飽和度、背景去除,還是從云端選圖方面的問題?你會(huì)收到關(guān)于這些方面的最多抱怨。我們會(huì)覺得很好,因?yàn)槿藗冎苯又赋鰡栴},比如「這功能太糟了,連背景去除都沒有,算什么圖片添加功能」。收集這些反饋后,下周更新時(shí)就能推出用戶抱怨的功能。

Lenny:這樣一來,用戶就會(huì)感嘆:「哇,這團(tuán)隊(duì)更新速度真快,對(duì)我的問題回應(yīng)太及時(shí)了!」用戶對(duì)產(chǎn)品抱怨,往往是產(chǎn)品與市場契合的常見跡象,因?yàn)楸г挂馕吨麄冊谝猱a(chǎn)品,所以說有人抱怨其實(shí)是個(gè)很好的信號(hào)。

Gaurav:非常正確。如果沒有人抱怨,那就意味著一個(gè)危險(xiǎn)的信號(hào)。

Lenny:我非常欣賞每位工程師每周推出有市場價(jià)值產(chǎn)品這個(gè)方法,這和我們開頭討論的如何在眾多產(chǎn)品中脫穎而出直接相關(guān)。答案之一就是不斷推出產(chǎn)品,持續(xù)驚艷用戶,比如推出超棒的新視頻功能,吸引大家目光。

Gaurav:沒錯(cuò)。我認(rèn)為這絕對(duì)是關(guān)鍵,而且有足夠的空間和范圍來實(shí)現(xiàn)這一點(diǎn)。在正常時(shí)期,可能無法如此迅速地制定出這么多產(chǎn)品規(guī)劃。但我認(rèn)為,由于背后有如此多的創(chuàng)新,所以才有這樣的空間,產(chǎn)品規(guī)劃似乎是無限的。

Lenny:你們的工程師在多大程度上使用 Cursor 等工具,AI 對(duì)你們的團(tuán)隊(duì)有多大幫助?

Gaurav: 100%! 每個(gè)人都在使用,非常有用。而且我們還在使用 Devin,它更高級(jí),可以解決漏洞問題。

Lenny:Devin 的成本是每月 500 美元,就像在 Slack 上與 AI 工程師聊天。你認(rèn)為這種 AI 管理者的層級(jí)結(jié)構(gòu)會(huì)取代傳統(tǒng)管理嗎?

Gaurav:沒錯(cuò),未來可能會(huì)有多個(gè) Devin 協(xié)同工作,甚至有專門的管理者來管理這些 Devin。

Lenny:我在設(shè)想,管理者層級(jí)結(jié)構(gòu)會(huì)逐漸被 AI 管理者取代,這將是最終的變革。

04 兩條產(chǎn)品路線圖:公開和私密的

Lenny:在你們運(yùn)營、打造產(chǎn)品的流程或架構(gòu)方面,還有哪些獨(dú)特、有趣且值得他人借鑒學(xué)習(xí)之處呢?

Gaurav:我們的產(chǎn)品開發(fā)流程很有意思。有設(shè)計(jì)、產(chǎn)品經(jīng)理團(tuán)隊(duì),這倆還處在初創(chuàng)階段。還有工程團(tuán)隊(duì),涵蓋 iOS、安卓、網(wǎng)頁端、后端、機(jī)器學(xué)習(xí)、研究等領(lǐng)域。開發(fā)產(chǎn)品時(shí),通常會(huì)采用產(chǎn)品經(jīng)理主導(dǎo)的方式,先明確要解決的問題、涉足的新方向,然后制定產(chǎn)品規(guī)格說明書;有時(shí)則相反,在情況不確定的情況下先設(shè)計(jì)很多不同的內(nèi)容,再與產(chǎn)品經(jīng)理探討并且審視這些設(shè)計(jì),挖掘有趣的想法,這常能發(fā)現(xiàn)僅關(guān)注指標(biāo)和數(shù)據(jù)難以察覺的東西。這就像是把流程顛倒了一下,但往往容易找到獨(dú)特的想法。

在制定路線圖方面,我們也很獨(dú)特。一般公司只有一個(gè)路線圖,我們卻分為兩個(gè)不同的部分。公開路線圖收集用戶反饋,梳理功能需求,比如背景去除、撤銷重做、上傳長視頻功能等等,依據(jù)影響人數(shù)、市場規(guī)模等因素排序,按計(jì)劃逐個(gè)實(shí)現(xiàn)。但這些功能是競爭對(duì)手也都知道的,需求是公開的,難以憑借這個(gè)取得決定性優(yōu)勢。

所以我們還有秘密路線圖,上面的功能是從來沒有人提過需求的。給用戶展示,他們可能表示不需要,不會(huì)用。但這是基于我們對(duì)問題、用戶群體和技術(shù)的獨(dú)特理解想出的創(chuàng)意,是真正能改變用戶使用產(chǎn)品方式和行為習(xí)慣的創(chuàng)意。人們一直用一種方式做事,如果我們能向他們展示另一種方式,并且一旦他們嘗試了就再也回不去,這就是一款成功產(chǎn)品的意義,這就是成功。

我們把這類創(chuàng)意放在秘密路線圖里。這些內(nèi)容我們從不公開討論,也不會(huì)告訴任何人,我們直接宣布并把它們呈現(xiàn)給用戶,然后觀察效果。全公司每季度頭腦風(fēng)暴產(chǎn)生這類創(chuàng)意,涵蓋各個(gè)團(tuán)隊(duì)。大家提出想法后投票、排名,產(chǎn)品團(tuán)隊(duì)再考量可行性、技術(shù)等許多細(xì)節(jié),整合各方信息(如社交媒體熱門內(nèi)容、技術(shù)進(jìn)展),形成一個(gè)獨(dú)特的內(nèi)部路線圖。思考如何利用這些不同的技術(shù)進(jìn)步來創(chuàng)造價(jià)值。這就是我們的總體方法。很多時(shí)候,最大的成功往往來自于秘密路線圖,這才是能改變游戲規(guī)則的東西,而不是用戶的常規(guī)需求。

Lenny:我很喜歡「秘密路線圖」這個(gè)稱呼,感覺特別有趣。確實(shí),這是個(gè)秘密。我不會(huì)打聽路線圖上的內(nèi)容。我好奇的是,能否說說從秘密路線圖中誕生的,對(duì)你們而言十分關(guān)鍵的一個(gè)功能是什么呢?

Gaurav:太多了。舉個(gè)早期的例子。應(yīng)用剛?cè)〉贸晒r(shí),最早添加的 AI 功能中有個(gè)「眼神交流」功能。很多新手錄制視頻可能照著屏幕外的腳本或提詞器念,效果不佳。我們開發(fā)的這個(gè)功能,能讓眼睛看起來像直視攝像頭,而且我們是第一家開發(fā)這個(gè)功能的公司,是與英偉達(dá)合作完成的這個(gè)項(xiàng)目。

最初聯(lián)系英偉達(dá)時(shí),他們不太理解這個(gè)需求,但出于如何將技術(shù)應(yīng)用到實(shí)際產(chǎn)品里感興趣,就很爽快地答應(yīng)合作。我們發(fā)現(xiàn)了創(chuàng)作者領(lǐng)域這個(gè)獨(dú)特應(yīng)用場景,把這個(gè)頭腦風(fēng)暴產(chǎn)生的創(chuàng)意納入計(jì)劃并推出,結(jié)果大獲成功,展示它的視頻廣告在社交媒體廣泛傳播,幾乎被翻譯成各種語言,至今仍然能有數(shù)百萬瀏覽量,轉(zhuǎn)發(fā)也能獲得大量瀏覽,因?yàn)榇蠹矣X得創(chuàng)意很棒。如今很多應(yīng)用都有了這個(gè)功能,這就是秘密路線圖誕生的創(chuàng)意之一。

05 不能為了用 AI 而用 AI

Lenny:現(xiàn)在的技術(shù)能夠讓我們打造出以前無法實(shí)現(xiàn)的所有東西。但難處在于,讓人們關(guān)注并持續(xù)使用產(chǎn)品。畢竟現(xiàn)在打造產(chǎn)品容易,而且各類產(chǎn)品都很棒、有趣。如何讓人們關(guān)注并長期使用產(chǎn)品,你有哪些經(jīng)驗(yàn)可以分享呢?

Gaurav:沒錯(cuò),當(dāng)下確實(shí)有很多炒作,在一定程度上推動(dòng)了不少公司發(fā)展。從用戶獲取和營銷的角度來看,幾年前,如果你的產(chǎn)品很新穎,去推銷,用戶可能不買賬;現(xiàn)在只要說「用 AI 重新打造」,就會(huì)吸引很多人嘗試。當(dāng)然,得兌現(xiàn)承諾,做不到用戶就會(huì)流失;做到了,就有機(jī)會(huì)大規(guī)模獲客。這種情況能持續(xù)多久不好說,但當(dāng)下確實(shí)是一個(gè)不同的時(shí)期。

我也認(rèn)為,打造產(chǎn)品的核心是解決問題。有個(gè)誤區(qū)就是,很多人誤把產(chǎn)品做得酷炫,以為這樣就能留住用戶??扇绻皇墙藗€(gè)「游樂場」,用戶玩一陣就走,算不上生意。所以,解決實(shí)際問題始終至關(guān)重要。

Lenny:解決人們的問題,說起來容易做起來難,但確實(shí)重要。我好奇像你這樣的人,如何做到不被海量信息壓垮,如何明確關(guān)注重點(diǎn)并保持專注。對(duì)于那些每日面對(duì)新熱點(diǎn),感覺無所適從、被信息淹沒的人,你有什么建議?

Gaurav:這在某種程度上確實(shí)是產(chǎn)品開發(fā)的新問題,你可選的路徑、想法太多,可做的事情也太多了。優(yōu)先級(jí)排序向來重要,如今更關(guān)鍵。

首先必須弄清楚哪些事情是不需要關(guān)注的。我們一般通過找用戶需求來確定優(yōu)先級(jí),而檢驗(yàn)用戶需求最簡方法是看事物的傳播性。人們樂于分享、談?wù)摰臇|西,往往蘊(yùn)含真正有趣的核心元素。雖說這些元素未必適用于所有方面,可能只是一次性使用場景,無法用于構(gòu)建訂閱業(yè)務(wù),但能引發(fā)共鳴。識(shí)別出該核心元素并融入業(yè)務(wù),是確定有效事項(xiàng)的好辦法。

而且我們現(xiàn)在有這些工具,我們不需要打造任何東西,你只需要談?wù)撘幌拢藗兙蜁?huì)分享,分享這個(gè)想法。你甚至可以在真正打造產(chǎn)品之前,就衡量出這個(gè)產(chǎn)品可能會(huì)受到怎樣的歡迎。所以這是我們用于確定優(yōu)先級(jí)的一個(gè)很好的工具。

我們花了很多時(shí)間在社交媒體上。顯然,我們的應(yīng)用經(jīng)常用于社交媒體,所以我們的很多員工都會(huì)花很多時(shí)間在社交媒體上。我們會(huì)關(guān)注有哪些趨勢,正在發(fā)生什么事情?;谶@些,我們可以很好地判斷出哪些東西可能會(huì)引起人們的共鳴。

Lenny:感覺你們在維持產(chǎn)品熱度、持續(xù)引發(fā)用戶興趣上做得很棒。畢竟當(dāng)下新鮮事層出不窮。你們是如何讓人們始終覺得「哇,他們做的東西真有意思」,并一直保持這種有趣感的呢?

Gaurav:關(guān)鍵在于不能為了用 AI 而用 AI,不能只圖興奮、炒作和新奇,而要用能切實(shí)解決實(shí)際問題的 AI。打造產(chǎn)品的基本原理沒有改變,分三步:明確用戶的問題、運(yùn)用技術(shù)解決問題、找到有這個(gè)問題的用戶。做到這三點(diǎn),在任何環(huán)境都能打造出好產(chǎn)品。

現(xiàn)在的不同之處在于技術(shù)方面發(fā)生了太多變化,能做出從前做不出的產(chǎn)品、解決從前解決不了的問題,這就是機(jī)會(huì)。在視頻領(lǐng)域,機(jī)會(huì)無窮,我們雖然剛開始,但是目標(biāo)明確,我們不打造專業(yè)工具,不是為專業(yè)人士打造產(chǎn)品,而是面向那些以往因?yàn)槿惫ぞ摺⒓寄芑驎r(shí)間無法制作視頻的人,幫他們跨越技能和時(shí)間差距,比如沒時(shí)間但要成果的企業(yè)主??傊?,要解決的問題還有很多。

Lenny:你們的團(tuán)隊(duì)有沒有和基礎(chǔ)模型公司進(jìn)行合作呢?AI Agent 有沒有參與到你們的規(guī)劃里?

Gaurav:老實(shí)說,我希望能朝著這個(gè)方向發(fā)展,但主要因?yàn)樯舷挛牡膯栴},目前還沒有實(shí)現(xiàn)。理解用戶和應(yīng)用場景所需的上下文很抽象,即便我覺得我很了解我們的用戶,但我很難確切地用語言表達(dá)清楚為什么會(huì)這樣。我花了很多時(shí)間和產(chǎn)品經(jīng)理、設(shè)計(jì)師交流,傳授我自己積累的經(jīng)驗(yàn)也是個(gè)挑戰(zhàn),畢竟我自己都很難用語言表達(dá)清楚。如此一來,向 LLM 提供這些上下文信息更是難上加難。這是我需努力克服的問題。

以我在 Snap 工作時(shí)為例,我認(rèn)為 Snap 和它的 CEO Evan Spiegel 最獨(dú)特的地方之一,就是他對(duì)用戶有著無人能及的理解。在公司成立的十年里,沒有人能像他那樣理解用戶。他會(huì)提出一些大家都不認(rèn)同的想法,然后我們推出這些想法所對(duì)應(yīng)的產(chǎn)品,結(jié)果卻大受歡迎,一個(gè)接一個(gè)的成功。大家都會(huì)鼓掌稱贊,但沒人知道原因。很多事情都是事后才恍然大悟。比如 Snap 曾宣稱自己是相機(jī)公司,遭到大家嘲笑,我們是要做數(shù)碼相機(jī)之類的東西嗎?為什么是相機(jī)公司呢?實(shí)則 Snapchat 打開直接進(jìn)入相機(jī)界面這一微小決定,成了公司的競爭優(yōu)勢。因?yàn)楫?dāng)你的朋友正在做一些有趣的事情,你需要立刻捕捉這個(gè)瞬間的時(shí)候,Instagram 等應(yīng)用打開不是相機(jī)界面,人們就會(huì)選擇 Snapchat。Instagram 無法模仿,否則指標(biāo)會(huì)下降。所以這種對(duì)用戶的深刻理解,我也是很久后才領(lǐng)會(huì),影響深遠(yuǎn)。

06 AI 創(chuàng)業(yè),先解決有邊界的問題

Colossus:你們是這一波創(chuàng)業(yè)最早 AI 商業(yè)化的公司之一,在創(chuàng)建 AI 公司的過程中,哪些經(jīng)驗(yàn)或教訓(xùn)是與普通軟件公司不同的?

Gaurav:首先需要問的問題是,我們到底在 AI 革命中實(shí)現(xiàn)了什么?今天的 AI 和之前的 AI 有何區(qū)別?

現(xiàn)在的這場 AI 革命,核心其實(shí)是更大規(guī)模模型的訓(xùn)練。要做到這一點(diǎn),我們需要更好的硬件、更先進(jìn)的機(jī)器學(xué)習(xí)架構(gòu):Transformer、Diffusion model 等新型架構(gòu)的突破;還有一些其他新技術(shù)的引入。

事實(shí)證明,當(dāng)我們將模型做得越來越大時(shí),它們能解決更多問題——無論是文本生成、朝著 AGI(通用人工智能)發(fā)展,還是視頻生成、媒體生成等領(lǐng)域的應(yīng)用。關(guān)鍵是,最終重要的因素是數(shù)據(jù);很多公司現(xiàn)在都在抓取互聯(lián)網(wǎng)的數(shù)據(jù),然而互聯(lián)網(wǎng)數(shù)據(jù)總有上限。

從長遠(yuǎn)看,我們需要找到可持續(xù)的數(shù)據(jù)源,以支持更大規(guī)模模型的訓(xùn)練。我認(rèn)為這是決定哪些公司會(huì)在 AI 領(lǐng)域脫穎而出的根本問題。

對(duì)我們來說,專注于視頻生成和視頻編輯,問題就變得非常具體:視頻數(shù)據(jù)比文本或音頻數(shù)據(jù)尺寸更大、更稀缺、創(chuàng)建難度高,因此訓(xùn)練成本更大。在這個(gè)領(lǐng)域,我們面臨的挑戰(zhàn)是,如何創(chuàng)建一個(gè)數(shù)據(jù)飛輪,使我們能持續(xù)地獲取越來越多的數(shù)據(jù),進(jìn)而推動(dòng)模型不斷壯大,從而保持在技術(shù)前沿。

我還想特別指出,當(dāng)前市場上不同 AI 公司的基本區(qū)別。

以文本生成公司為例,很多公司其實(shí)并不單純解決文本生成問題,嚴(yán)格來說,它們是在解決一個(gè)完全不同的挑戰(zhàn)——智能問題。

智能問題至今沒有被解決。雖然我們在模型中發(fā)現(xiàn)了某種程度上的智能,但距離真正的智能仍有很長的路要走。也許我們永遠(yuǎn)無法讓 AI 模型達(dá)到人類智能的水平。那么是否有可能有比最聰明的人還要智能的 AI?也有可能。但那是一個(gè)我們尚未到達(dá)的邊界。

但如果我們看待音頻生成、視頻生成或音樂生成等問題,它們更多的是在解決一個(gè)已經(jīng)被「解答」的問題。

以視頻為例,CGI 技術(shù)(計(jì)算機(jī)生成圖像)已經(jīng)存在,我們可以制作虛擬人物、場景。AI 的作用,實(shí)際上是讓我們更容易、更高效地解決這些問題——不僅是「稍微」提高,而是提高數(shù)百倍。這意味著,視頻生成技術(shù)將變得更加易用,市場也會(huì)更廣泛。

這是一個(gè)根本的區(qū)別。

我們把 AI 公司分為兩類——一種是致力于解決 AGI 問題的公司,另一種是從事媒體內(nèi)容生成的公司。前者更像是在追逐一個(gè)無邊界的智能問題,投入大量資本,訓(xùn)練出一個(gè)好模型,但這個(gè)模型很可能很快被下一個(gè)更新的模型所取代,而這個(gè)過程可能永無止境。

但如果是從事媒體生成的公司,它們創(chuàng)造的實(shí)際上是一個(gè)資產(chǎn),而且很可能很快就會(huì)達(dá)到一個(gè)「足夠好」的水平,甚至接近完美。到那時(shí),技術(shù)就是一個(gè)穩(wěn)定的資產(chǎn),開發(fā)成本巨大,但一旦存在,它將持續(xù)創(chuàng)造價(jià)值,并且不會(huì)輕易貶值。

那哪些因素會(huì)讓這些模型越來越好呢?我認(rèn)為,首先是更多的數(shù)據(jù)精細(xì)調(diào)優(yōu),針對(duì)具體的應(yīng)用場景(比如廣告、電影、社交媒體等)進(jìn)行優(yōu)化。

但也許在不久的將來,技術(shù)會(huì)達(dá)到一個(gè)「非常好、非常真實(shí)」的水平。我們現(xiàn)在正在思考的一個(gè)重要問題是,如何啟動(dòng)數(shù)據(jù)飛輪,推動(dòng)技術(shù)達(dá)到那個(gè)階段。

Colossus:想象力與輸出之間的代溝已經(jīng)不存在了,唯一的問題是成本。所以,實(shí)際上你們的目標(biāo)就是降低成本。你認(rèn)為這一目標(biāo)何時(shí)能夠?qū)崿F(xiàn)?

Gaurav:很多人都看過威爾·史密斯吃意大利面的視頻 meme,它很快就從非常糟糕變得質(zhì)量非常不錯(cuò)。

我覺得大概一年到一年半的時(shí)間,視頻生成的內(nèi)容就會(huì)達(dá)到「非常真實(shí)」的水平。將文本模型與視頻模型作比較,文本模型的規(guī)?,F(xiàn)在已經(jīng)進(jìn)入了 4000 億參數(shù)的范圍,人們已經(jīng)更好地理解如何擴(kuò)大語言模型的規(guī)模,而擴(kuò)散模型的參數(shù)規(guī)模仍然只有幾十億,還遠(yuǎn)未達(dá)到文本模型的水平。

但隨著技術(shù)的進(jìn)步,視頻模型毫無疑問會(huì)越來越好。而且專家們已經(jīng)知道如何去優(yōu)化,只是很少有公司擁有足夠的資金和專業(yè)知識(shí)來實(shí)現(xiàn)這一目標(biāo)。所以這是一個(gè)需要時(shí)間的問題,而非一個(gè)沒有解的問題,我們會(huì)看到這些模型變得越來越好,特別是在視頻領(lǐng)域。

Dwight:視頻模型對(duì)視覺工作的影響——重塑工作流程、更新設(shè)計(jì)思維等方面,實(shí)際上涉及的是設(shè)計(jì)問題和產(chǎn)品問題的結(jié)合。雖然目前仍處于非常早期的階段,但我認(rèn)為,我們離徹底改變?nèi)藗內(nèi)粘9ぷ鞣绞降臅r(shí)刻已經(jīng)不遠(yuǎn)了。

Colossus:你們的 AI 模型訓(xùn)練的具體過程是什么樣的?模型訓(xùn)練的目標(biāo)是什么?這與「預(yù)測下一個(gè) Token」有多相似或不同?在視頻中,所謂的「預(yù)測下一個(gè) X」是如何工作的?

Gaurav:我們訓(xùn)練的模型是擴(kuò)散模型(Diffusion Model)。這些模型的訓(xùn)練方式是從噪聲開始(字面意義上的噪聲),就像你在電視上看到的靜態(tài)圖像一樣。在每一步中,根據(jù)提供的文本,模型會(huì)查看噪聲,并嘗試在噪聲中預(yù)測出一個(gè)清晰的圖層。例如,「穿藍(lán)色襯衫的男人」,于是模型開始從噪聲中繪制出一個(gè)穿藍(lán)色襯衫的男人。隨著模型訓(xùn)練的每一步,它會(huì)不斷揭示出「穿藍(lán)色襯衫的男人」更多的細(xì)節(jié)。這就是文本條件化(text conditioning)幫助它決定如何達(dá)到「穿藍(lán)色襯衫的男人」這個(gè)目標(biāo)的方式。

我們?nèi)匀惶幱跀U(kuò)散模型訓(xùn)練的早期階段,目前我們處于數(shù)十億參數(shù)的范圍內(nèi)。Meta 的 MovieGen 模型大概有 30 億個(gè)參數(shù)。

但很多工作都集中在這些模型的擴(kuò)展上。與文本不同,視頻本身很大,它消耗的空間和訓(xùn)練所需算力都非常龐大。我們光下載視頻的費(fèi)用就可能達(dá)到一百萬美元,它帶來了不同的挑戰(zhàn)。

Colossus:視頻模型相對(duì)于文本模型在資源上的上限如何?在風(fēng)險(xiǎn)投資領(lǐng)域,人們有一個(gè)重要討論就是 GPU 集群的規(guī)模需要多大。為了讓視頻模型達(dá)到完美的程度,它們是否比文本模型更消耗 GPU 資源?

Gaurav:它實(shí)際上是比文本更容易解決的問題。文本問題涉及的是智能,而視頻問題更多的是渲染,而我們已經(jīng)知道渲染的成本。

那么,我們是否能做得更高效呢?這是可能的。今天的視頻渲染模式可能不是最有效率的,或許 AI 的渲染比常規(guī)渲染更便宜、更快速。

盡管現(xiàn)在還是初期階段,但我們大致了解它應(yīng)該往什么方向發(fā)展,現(xiàn)在我們不需要做上百次的擴(kuò)散就能得到一個(gè)清晰的圖像,隨著技術(shù)的提高,擴(kuò)散模型的成本效率可能會(huì)高一個(gè)數(shù)量級(jí),例如 10 倍。

Colossus:我很喜歡你之前對(duì)智能的無界問題和視頻等有界問題的框架劃分。

Gaurav:我認(rèn)為這個(gè)框架同樣適用于技術(shù)領(lǐng)域。即使在文本處理方面,你也可以把它應(yīng)用到某些有界的問題上解決。

比如,我們是否需要通用人工智能來解決編碼問題?不一定,因?yàn)樗龅氖虑楸举|(zhì)上就是在翻譯。想想計(jì)算機(jī)的演變過程。我們過去曾經(jīng)使用穿孔卡片,后來寫匯編語言。然后我們寫 C++,接著出現(xiàn)了像 Python 這樣的現(xiàn)代編程語言。

然后我們就可以說,「新的編程語言就是英語?!惯@并不是一個(gè)瘋狂的跳躍。它其實(shí)是一個(gè)非常有界的問題——本質(zhì)上是在發(fā)明一種新的編程語言,而且這種語言對(duì)人們來說更加易于理解,因?yàn)榇蠹冶緛砭鸵呀?jīng)懂得它。

07 專注「角色生成模型」,更容易達(dá)到 PMF

Colossus:在構(gòu)建產(chǎn)品過程中,你們做出了哪些權(quán)衡?視頻是一個(gè)很大的類別,既有《指環(huán)王》級(jí)別的電影,也有普通視頻內(nèi)容。

Gaurav:我們有意識(shí)地將目標(biāo)范圍縮小了很多,正如你所說,視頻涵蓋的范圍太廣,問題也太多,我們不可能解決所有問題。所以我們的重點(diǎn)是圍繞「交流」來制作視頻,這些視頻的主要是內(nèi)容是人物口播。大部分內(nèi)容傾向于營銷、銷售、教育,或者培訓(xùn)。

我們要做的是制作能夠講述真實(shí)故事的視頻,不只是「兔子在火星上跳躍」之類的內(nèi)容。我們的目的是講述故事、推銷產(chǎn)品,或表達(dá)其他需要溝通的信息。

這使我們在產(chǎn)品與市場契合度(PMF)上有很大潛力。我們是目前唯一一家訓(xùn)練「生成角色」這一類基礎(chǔ)模型的公司。盡管市場上有其他公司,但他們并沒有訓(xùn)練基礎(chǔ)模型,所以我們將對(duì)這個(gè)領(lǐng)域未來的發(fā)展拭目以待。

Colossus:目前這些模型能做的,或者在一年后可能能做的,有哪些限制?比如說,人與物品的互動(dòng)。

Gaurav:我認(rèn)為在六個(gè)月內(nèi)就會(huì)實(shí)現(xiàn),我們很快就會(huì)看到這一技術(shù)的初步版本。

Colossus:那是怎么運(yùn)作的?是通過某種方式創(chuàng)建這個(gè)物體的 3D 表現(xiàn)嗎?要?jiǎng)?chuàng)造這樣的效果,需要哪些步驟?

Gaurav:你得找到已有的人與物體互動(dòng)的視頻——比如一個(gè)人在喝罐裝可口可樂,然后你要識(shí)別這些物體,并用它們作為條件輸入。

以 Fiji 水瓶為例,它有一個(gè)非常獨(dú)特的設(shè)計(jì)。除非模型之前見過這個(gè)瓶子,否則它可能無法準(zhǔn)確地復(fù)現(xiàn)它,僅用文本描述可能不足以傳達(dá)它的外觀。所以你可以使用圖像來做提示:「這是一個(gè) Fiji 水瓶的圖片」,然后附加文字說明:「穿藍(lán)色襯衫的人拿著 Fiji 水瓶。」模型將通過這些信息推測出其他細(xì)節(jié)。

因?yàn)槟P鸵呀?jīng)看過瓶子,所以當(dāng)你給出這個(gè)瓶子某個(gè)角度的圖片,它可以推測出從另一個(gè)角度看起來的樣子。如果你旋轉(zhuǎn)它或移動(dòng)它,模型也能猜測它從其他角度的樣子,準(zhǔn)確度相當(dāng)高。當(dāng)然,如果我們提供多角度的瓶子圖像,這能進(jìn)一步提高準(zhǔn)確性。

Colossus:你認(rèn)為隨著生成這些視頻的成本和門檻降低,它們的價(jià)值會(huì)如何變化?你們所做的事情是否會(huì)引發(fā)其他連鎖反應(yīng)?

Gaurav:回顧 2010 年代,那是設(shè)計(jì)大發(fā)展的階段,不僅 Canva 和 Figma 在那個(gè)時(shí)期出現(xiàn),還有很多公司在做「只需點(diǎn)擊幾下就能制作精美網(wǎng)頁」這類工具,而且它們都不是 AI 驅(qū)動(dòng)的。

那是一個(gè)大規(guī)模的趨勢:如果你想在互聯(lián)網(wǎng)上賣東西,或者經(jīng)營任何業(yè)務(wù),你就需要一個(gè)設(shè)計(jì)得很漂亮的網(wǎng)站;如果你的網(wǎng)頁看起來像是 90 年代的產(chǎn)物,沒人會(huì)買任何東西。

Dwight:我覺得現(xiàn)在這類網(wǎng)站又回潮了。

Colossus:是的,所有的東西都是周期性的。

Gaurav:視頻是最近十年發(fā)展起來的,我們將看到越來越多的人采納它,因?yàn)橐曨l生態(tài)中的創(chuàng)作者比例會(huì)增加。

所以我并不認(rèn)為視頻的價(jià)值會(huì)下降,如果你想做營銷或者銷售,擁有高質(zhì)量的視頻是必須的。但我認(rèn)為視頻的其他方面將變得更加有價(jià)值。

舉個(gè)例子,肖像的生成。如果模型可以隨意生成不存在的人的肖像,而這些虛擬人看起來非常好,適合代表你的品牌——你可以擁有這個(gè)虛擬人的肖像作為公司知識(shí)產(chǎn)權(quán),讓他成為公司的代言人。

但這意味著普通肖像的價(jià)值會(huì)降到零,因?yàn)槿魏稳硕寄軕{空創(chuàng)造一個(gè)肖像。所以,這對(duì)肖像的成本或者在高端領(lǐng)域的影響會(huì)是什么?我認(rèn)為這會(huì)取決于誰更出名——那些廣為人知的肖像,現(xiàn)在會(huì)變得更有價(jià)值。

Colossus:這些技術(shù)有哪些限制?

Gaurav:我們都看過視頻模型在處理人物時(shí)的困難。

Colossus:手指。

Gaurav:對(duì),手指。還有手臂。

Dwight:喝水。

Gaurav:運(yùn)動(dòng)。

Colossus:吃意大利面。

Gaurav:我們采取了一種獨(dú)特的角度,專門訓(xùn)練模型來生成「人」。我們的數(shù)據(jù)全是關(guān)于人的,我們專注于生成人的視頻。我們也計(jì)劃使用「條件輸入」技術(shù)——例如提供一個(gè)骨架:「這是我想要你表演的 TikTok 舞蹈。」模型就會(huì)完成它。

這使模型更好地學(xué)習(xí)人體結(jié)構(gòu),了解什么是正常的,什么是不正常的。有時(shí)候模型會(huì)生成 6 個(gè)手指的人,這種情況確實(shí)存在。當(dāng)然,這并不是因?yàn)橛?xùn)練數(shù)據(jù)造成的,而是它可能并沒有見過足夠多、各種配置下的手,去理解所有的細(xì)節(jié)。所以,我們的目標(biāo)是解決人物生成的問題。

Dwight:稀缺性也是一個(gè)關(guān)鍵點(diǎn)。一部邁克爾·貝的電影:有 2.5 億美元的預(yù)算,可以在電影里把洛杉磯的一半都炸掉,但是像變形金剛這樣的大片,票價(jià)也只有 25 美元。

低預(yù)算電影,如果能進(jìn)院線,它的票價(jià)也是一樣的。

所以我很期待能看到低預(yù)算的電影制作人和視頻創(chuàng)作者可以制作更多、更復(fù)雜的內(nèi)容,不再受預(yù)算的限制。這對(duì)電影制作人和創(chuàng)作者來說,是一個(gè)巨大的突破。這會(huì)幫助視頻制作人們提高創(chuàng)作水平。

08 最適合基礎(chǔ)模型的商業(yè)模式是什么?

Colossuss:你認(rèn)為 AI 產(chǎn)品在未來如何定價(jià)?2500 億美元的埃森哲(咨詢公司),它是靠出售昂貴而重要的勞動(dòng)價(jià)值。你認(rèn)為 AI 應(yīng)用程序會(huì)將勞動(dòng)預(yù)算取而代之,還是最終會(huì)像所有軟件一樣定價(jià)?

Gaurav:我不確定我們完全理解這個(gè)問題。某種程度上,現(xiàn)在去判斷還太早,因?yàn)槲覀儫o法完全替代工作流中所有不同環(huán)節(jié)的勞動(dòng),我們還不知道人們愿意為此付出多少錢。我們現(xiàn)在可能只處于使用案例圖譜的 3% 或 5% 的地方——非常早期,我們還無法完全取代一些操作性繁重的公司流程。但我們會(huì)慢慢去實(shí)現(xiàn)這一目標(biāo)。

一個(gè)大問題是,ToC 和 ToB 的定價(jià)如何劃分?我認(rèn)為 ToC 定價(jià)已經(jīng)相對(duì)明確,趨向于訂閱制,而且似乎人們愿意付出比以前更多的費(fèi)用。

例如,AppStore 或 Web 應(yīng)用中的視頻相關(guān)應(yīng)用,歷史上價(jià)格大約在每月 7.99 美元到 12.99 美元之間。這是正常的免費(fèi)增值模式。但是很長一段時(shí)間,我們沒有免費(fèi)產(chǎn)品。

在以前,這是行不通的,人們會(huì)說,「我不想付錢,」然后轉(zhuǎn)向下一個(gè)產(chǎn)品?,F(xiàn)在,人們的付費(fèi)意愿更高,AI 視頻生成產(chǎn)品的價(jià)格范圍各不相同,但有些人甚至愿意為消費(fèi)者訂閱支付每月 2000 美元。

在 ToB 端,一大問題是企業(yè)是否會(huì)購買基于授權(quán)數(shù)據(jù)訓(xùn)練的模型,他們對(duì)這種模型有一定付費(fèi)意愿,但這個(gè)問題尚未確定。我計(jì)劃全面授權(quán),我們大規(guī)模收集數(shù)據(jù),因此可以訓(xùn)練完全授權(quán)的模型,這是我們獨(dú)特的優(yōu)勢。

我的感覺是,在最終階段,擁有完全授權(quán)的模型會(huì)變得很重要,因?yàn)槟憧梢暂p松地贏得交易,人們會(huì)為這種保證和授權(quán)的聲譽(yù)支付更多費(fèi)用。

除此之外,真正的問題是你能夠涵蓋多少個(gè)使用場景。我們今天覆蓋了 5%,但最終可以覆蓋多少場景?我的猜測是,我們可以做到接近 100%,因?yàn)檫@是一個(gè)已解決的問題。

Dwight:目前熱議的話題是基于產(chǎn)出的定價(jià),但我認(rèn)為,大家可能想得太超前,可能仍然有更多的「超額利潤」可以從傳統(tǒng)訂閱方式中獲取。不過這當(dāng)然是很酷的,我相信我們會(huì)找到某種均衡點(diǎn)。

Colossusss:我想談?wù)勆虡I(yè)模式?;A(chǔ)模型公司面臨兩個(gè)問題:巨額的模型預(yù)訓(xùn)練成本和巨額的推理成本。僅憑 20 美元/月的訂閱費(fèi)用,毛利率都是負(fù)的。雖然推理成本在過去 18 個(gè)月內(nèi)已經(jīng)下降了 100 倍左右。

AI 模型公司會(huì)說:「這是一個(gè)無止境的競爭,我每次都得花 10 倍的錢去做下一個(gè)東西,那我什么時(shí)候能賺錢?」似乎解決更有邊界的問題的公司,會(huì)有相對(duì)正常、優(yōu)秀的商業(yè)模式,有更高的毛利率,你怎么看這個(gè)問題?

Gaurav:我們對(duì)于公司業(yè)務(wù)的思考方式是,解決某個(gè)問題會(huì)有一個(gè)有界限的成本,可能是數(shù)億美元,它可以讓我們得到一個(gè)合理的解決方案——能夠生成任何一個(gè) CGI 工作室可能做的東西。我們現(xiàn)在需要的就是這個(gè)水平。

基礎(chǔ)模型會(huì)繼續(xù)發(fā)展嗎?會(huì)的。

我們需要對(duì)模型進(jìn)行微調(diào),但微調(diào)比從零開始訓(xùn)練一個(gè)基礎(chǔ)模型便宜得多。

我們構(gòu)建了一個(gè)數(shù)據(jù)飛輪機(jī)制:用海量數(shù)據(jù)來持續(xù)訓(xùn)練模型(后訓(xùn)練),讓它能夠感知今天發(fā)生的事情,以及人們今天可能想生成的內(nèi)容。但這只是增量微調(diào),成本相對(duì)較低,這構(gòu)成了業(yè)務(wù)的基礎(chǔ)。

此外,推理成本正在下降,AI 公司將越來越像傳統(tǒng)軟件公司。能真正解決某個(gè)問題的公司將會(huì)擁有一段時(shí)間的護(hù)城河,我們同時(shí)也在建設(shè)數(shù)據(jù)護(hù)城河,以便始終保持領(lǐng)先。

然后,一旦足夠多的數(shù)據(jù)出現(xiàn),并且足夠多的公司獲得更多資金,嘗試相同的打法,并訓(xùn)練模型,這就會(huì)變成一場軟件競賽。

構(gòu)建工作流,打造產(chǎn)品,進(jìn)入各種各樣的應(yīng)用場景,我認(rèn)為這才是未來競爭的焦點(diǎn)所在。

隨著時(shí)間的推移,必定會(huì)出現(xiàn)真正的贏家,贏家將由誰擁有最佳的模型來決定,這個(gè)模型能持續(xù)超越所有其他模型;而模型的能力受數(shù)據(jù)獲取,以及它所產(chǎn)生的飛輪效應(yīng)的影響,這會(huì)不斷提升模型的能力。

從本質(zhì)上講,你可以想象有一系列基礎(chǔ)模型,能解決跨越視頻甚至其他媒體的整個(gè)工作流所面臨的問題。包括各種不同類型的應(yīng)用場景,比如電影、電視、短視頻、配音、后期制作——有很多不同的潛在應(yīng)用場景。

Dwight:我考慮的是,最終這些業(yè)務(wù)的成熟階段會(huì)是什么樣子。我相信,這些業(yè)務(wù)可以變成非常高毛利的公司,無論是由于 GPU 價(jià)格的下跌,還是計(jì)算需求本身的下降。

歷史上,隨著一個(gè)新技術(shù)的發(fā)布,它的價(jià)格基本都會(huì)快速下降,因?yàn)槠渖虡I(yè)模型就是通過讓技術(shù)變得更高效、更強(qiáng)大等方式來降低某種服務(wù)或功能的價(jià)格。

有趣的是,當(dāng)你處于初創(chuàng)階段,真正的問題并不在于盈利或虧損,而是你是否能夠得到足夠的數(shù)據(jù)來保持模型前進(jìn),保持業(yè)務(wù)增長,能夠更有效地開發(fā)新功能,迎合更多的客戶需求。我認(rèn)為這才是我們真正面臨的挑戰(zhàn)。

09 創(chuàng)業(yè)公司應(yīng)該多背負(fù)技術(shù)債務(wù)

Lenny:對(duì)于耗時(shí)數(shù)周的長期項(xiàng)目,以及像后端工作這類基礎(chǔ)設(shè)施方面的事務(wù),你們是如何處理的?能否講講對(duì)長期項(xiàng)目的考量,以及怎樣開展那些用戶不太關(guān)注的后端工作?

Gaurav: 沒錯(cuò),通常我們會(huì)專門安排時(shí)間處理這類事務(wù)。比如,對(duì)我們而言,第四季度一般是基礎(chǔ)設(shè)施建設(shè)季,會(huì)集中精力打造各類基礎(chǔ)設(shè)施。第四季度一般來說,我們已經(jīng)推出了大量產(chǎn)品,對(duì)這一年的其他時(shí)間的工作也感覺很不錯(cuò)。事情逐漸進(jìn)入收尾階段,顯然節(jié)假日也快到了。所以我們會(huì)花所有時(shí)間來償還技術(shù)債務(wù)。

實(shí)際上,我認(rèn)為在技術(shù)債務(wù)這個(gè)問題上有一個(gè)獨(dú)特的思考角度。作為一家初創(chuàng)公司,你的任務(wù)就是承擔(dān)技術(shù)債務(wù),因?yàn)檫@是你比大公司運(yùn)營得更快的方式。大公司不會(huì)承擔(dān)技術(shù)債務(wù),他們通常會(huì)立即償還,或者他們正在償還自己在初創(chuàng)時(shí)期積累的技術(shù)債務(wù)。而且他們當(dāng)時(shí)積累了很多。像我在 Snap 工作時(shí)就有不少這類情況,其他公司想必也如此。

我們會(huì)思考:這是當(dāng)下必須解決的問題,還是能讓第 50 名、第 100 名或第 500 名工程師解決的問題?如果能交給未來的工程師,就將問題后置,實(shí)際上,我們就是這么做的。如果公司失敗了,那個(gè)工程師也永遠(yuǎn)不會(huì)被招聘進(jìn)來,那么所有這些也就無關(guān)緊要了。從很多方面看,技術(shù)債務(wù)類似財(cái)務(wù)債務(wù),承擔(dān)財(cái)務(wù)債務(wù)能創(chuàng)造杠桿效應(yīng),比如貸款買房,能買到超出當(dāng)前支付能力的房產(chǎn)。同理,戰(zhàn)略性承擔(dān)技術(shù)債務(wù),能讓小團(tuán)隊(duì)做出原本做不出的產(chǎn)品,是積極有益的。

Lenny:哇,這個(gè)想法太酷了。我想到的是,那個(gè)未來的工程師可能是一名 AI 代理工程師。專門解決問題,正好符合你的思路。

Gaurav:完全正確,多年后的第 500 名工程師可能會(huì)因?yàn)榻鉀Q了那些早期不太出色的工程師遺留下來的大問題而獲得晉升。

Lenny:顯然,這是有界限的,你肯定不想承擔(dān)過多的債務(wù),不然就會(huì)引發(fā)大問題。關(guān)于如何把握這個(gè)平衡,比如承擔(dān)多少債務(wù)算過多,以及怎樣判斷是否已經(jīng)足夠用于核心功能的工程開發(fā),你有什么想法嗎?

Gaurav:一般而言,經(jīng)驗(yàn)法則是承擔(dān)的每筆債務(wù)都要付「利息」。采用快速開發(fā)方式承擔(dān)債務(wù),每天會(huì)有 1% – 2% 的時(shí)間用于處理因之產(chǎn)生的漏洞、問題、重啟和崩潰等狀況。如果債務(wù)實(shí)在太多,每天可能 80% – 90% 的時(shí)間都耗在這些事上,就沒時(shí)間開展新工作,只能支付「利息」,這是初創(chuàng)公司失敗的原因。某種程度上存在一條技術(shù)債務(wù)的「跑道」,一旦債務(wù)過重,而且在相應(yīng)時(shí)間內(nèi)沒有創(chuàng)造足夠價(jià)值聘請工程師支付「利息」或償還債務(wù),就會(huì)陷入困境。

Lenny:我喜歡這個(gè)觀點(diǎn)。這是一個(gè)很好的啟發(fā),讓我們知道什么時(shí)候該對(duì)某件事進(jìn)行投入。有時(shí)候你必須做出一些重大的技術(shù)決策,可能會(huì)影響到未來所有產(chǎn)品的構(gòu)建方式。對(duì)于這些決策,你會(huì)花更多時(shí)間去認(rèn)真考慮。

Gaurav:是的,我認(rèn)為只要這個(gè)決策是可逆的(雙門決策),你就可以按自己的想法去做。這是一種經(jīng)典的方法,如果這是一個(gè)不可逆的(單門決策),那就值得認(rèn)真思考,并且盡可能正確地做出決策,至少要考慮到這個(gè)不可逆的決策在未來對(duì)你的重要程度。

10 產(chǎn)品經(jīng)理應(yīng)該懂營銷

Lenny:說回 Snap,社交網(wǎng)絡(luò)領(lǐng)域中,除 TikTok 外,Snap 基本是最后一個(gè)成功推出且站穩(wěn)腳跟的,而我認(rèn)為 TikTok 更像內(nèi)容平臺(tái),人們互動(dòng)較少。Snap 于 2011 年推出,距上一個(gè)成功的社交網(wǎng)絡(luò)已過去約 15 年。除了 Evan 的智慧,從宏觀角度看,你認(rèn)為 Snap 成為成功的面向消費(fèi)者的社交網(wǎng)絡(luò)的核心因素是什么呢?

Gaurav:Snap 有幾個(gè)方面表現(xiàn)出色。社交網(wǎng)絡(luò)方面,核心產(chǎn)品與市場的契合度能達(dá)到很高水平。從根本上講,人們下載它的原因、它的傳播、用戶邀請朋友或者發(fā)送快拍的方式等等,這種產(chǎn)品與市場的契合度有時(shí)候會(huì)非常高,以至于實(shí)際開發(fā)產(chǎn)品變得很困難,因?yàn)槟愫茈y判斷你正在開發(fā)的東西是推動(dòng)了產(chǎn)品的增長,還是實(shí)際上在阻礙它。

基本上,你不知道產(chǎn)品的增長是不是與你所做的工作無關(guān),甚至?xí)屓藢W(xué)到錯(cuò)誤經(jīng)驗(yàn),錯(cuò)把反常規(guī)的做法當(dāng)成正確的,即便公司仍在增長。

我認(rèn)為 Snap 做得好也是它需要做好的,就是持續(xù)創(chuàng)新。面臨激烈競爭,而且社交網(wǎng)絡(luò)有壟斷性,F(xiàn)acebook 等很多公司也曾試圖阻止 Snapchat 發(fā)展。而 Snap 避免被壓制的辦法就是創(chuàng)新。其核心在于獨(dú)特架構(gòu),公司 CEO 注重產(chǎn)品,而且自己就是設(shè)計(jì)師,組建了核心設(shè)計(jì)團(tuán)隊(duì),只有 10-12 個(gè)人,規(guī)模相當(dāng)小,即便公司五六千員工時(shí),設(shè)計(jì)團(tuán)隊(duì)規(guī)模依然最小。

Lenny:Snap 在有五六千名員工的時(shí)候,設(shè)計(jì)團(tuán)隊(duì)只有 10 到 12 人?而且在很長一段時(shí)間里都沒有產(chǎn)品經(jīng)理?

Gaurav:Snap 最初沒有產(chǎn)品經(jīng)理,隨著公司重視盈利,產(chǎn)品經(jīng)理才被引入并發(fā)揮作用,如今各部門都有足夠數(shù)量的產(chǎn)品經(jīng)理。在很長一段時(shí)間,尤其創(chuàng)新階段,公司粉絲少,而且公司由設(shè)計(jì)師主導(dǎo)。但這些設(shè)計(jì)師不普通,他們還承擔(dān)著產(chǎn)品經(jīng)理的職責(zé),這是關(guān)鍵。他們身兼設(shè)計(jì)和產(chǎn)品管理雙重任務(wù),責(zé)任重、工作量大,卻讓 CEO 能精細(xì)把控應(yīng)用推出內(nèi)容和位置。因?yàn)?CEO 可以和這 10 到 12 名設(shè)計(jì)師會(huì)面,了解每個(gè)影響用戶的變化。

當(dāng)時(shí)公司有很多改進(jìn)工作,比如基礎(chǔ)設(shè)施、后端、優(yōu)化排名和性能提升等,不過 CEO 主要關(guān)注應(yīng)用添加的 UI。添加 UI 需要設(shè)計(jì),但公司除這幾個(gè)能直接與 CEO 溝通的設(shè)計(jì)師以外沒有其他設(shè)計(jì)師,這使得公司對(duì)推出內(nèi)容把控細(xì)致。所有內(nèi)容都需 Evan 批準(zhǔn),未經(jīng)批準(zhǔn)不會(huì)發(fā)布,所以設(shè)計(jì)團(tuán)隊(duì)在這方面權(quán)力很大。

Lenny:在 Snap,有設(shè)計(jì)師承擔(dān)產(chǎn)品經(jīng)理職責(zé)這個(gè)亮點(diǎn)。可能很多人會(huì)覺得,那只需聘請?jiān)O(shè)計(jì)師就行,傳統(tǒng)產(chǎn)品經(jīng)理只會(huì)拖后腿、一味說「不要做什么」。你能否講講這些設(shè)計(jì)師的能力水平,是什么讓他們在沒有產(chǎn)品經(jīng)理的情況下也能如此成功呢?

Gaurav:是的,當(dāng)時(shí)對(duì)設(shè)計(jì)師的要求不止于設(shè)計(jì)技能。他們都是無下屬的獨(dú)立貢獻(xiàn)者(IC)設(shè)計(jì)師,所有設(shè)計(jì)工作親力親為。此外,他們還得有領(lǐng)導(dǎo)能力,能制定路線圖、撰寫文檔,與不同團(tuán)隊(duì)協(xié)作確定發(fā)布計(jì)劃,不僅要懂技術(shù)工程,還要熟知用戶體驗(yàn)(UX)、用戶界面(UI)和產(chǎn)品需求,明確做事目的并牢記路線圖,需考慮的事情繁多,工作量極大,這些人工作十分努力。并且他們薪酬豐厚,比一般設(shè)計(jì)師、產(chǎn)品經(jīng)理或工程師的薪酬高很多,還有季度獎(jiǎng)金等各類福利。

而且他們的薪酬也很高。我記得,他們的薪酬比你想象中設(shè)計(jì)師、產(chǎn)品經(jīng)理或工程師的薪酬要高得多,還有季度獎(jiǎng)金之類的各種福利。

Lenny:這很有意思。人們會(huì)想為什么沒有產(chǎn)品經(jīng)理呢,畢竟產(chǎn)品經(jīng)理的工作總得有人做,他們并非閑著沒事。要知道,承擔(dān)產(chǎn)品經(jīng)理工作的人,得既擅長又熱愛這份工作??珊芏嘣O(shè)計(jì)師并不想做撰寫文檔之類的,還要協(xié)調(diào)利益相關(guān)者并達(dá)成共識(shí)。

Gaurav:完全正確。這就是為什么很難找到既能夠做設(shè)計(jì)又能承擔(dān)產(chǎn)品經(jīng)理工作的人。實(shí)際上,我認(rèn)為融合不同職能的技能,往往能催生創(chuàng)新,一人身兼兩職或具備相應(yīng)能力時(shí)會(huì)有其獨(dú)特意義。

以我在 Snap 的經(jīng)歷為例,起初我在工程團(tuán)隊(duì),最后兩年加入設(shè)計(jì)團(tuán)隊(duì),期間創(chuàng)建了「設(shè)計(jì)工程」職能,即設(shè)計(jì)師兼工程師,這類人既能構(gòu)思用戶體驗(yàn)、完成設(shè)計(jì),又能構(gòu)建發(fā)布產(chǎn)品。我們讓設(shè)計(jì)師學(xué)工程,工程師學(xué)設(shè)計(jì),目的是在公司規(guī)模擴(kuò)張時(shí)維持創(chuàng)新。

隨著公司工程師從 500 名增長到 3000 名,做事變得困難,項(xiàng)目耗時(shí)久、資源投入大,創(chuàng)新試錯(cuò)成本高。尤其是像 Snap 這樣的公司,因?yàn)榇蠹叶荚谀7滤淖龇āvan 并不抵制那些被抄襲的東西,他更多追求擴(kuò)大市場份額,所以必須不斷創(chuàng)新,創(chuàng)造新的東西,突破界限。于是我們組建小團(tuán)隊(duì),由設(shè)計(jì)工程師快速搭建產(chǎn)品早期版本,嵌入 Snapchat 應(yīng)用,在澳大利亞或幾所高中測試,獲取產(chǎn)品表現(xiàn)數(shù)據(jù),類似初創(chuàng)公司開發(fā)產(chǎn)品的流程,之后再與工程團(tuán)隊(duì)合作規(guī)?;_發(fā)。

這一過程產(chǎn)生了意外好處。在大型組織中,達(dá)成共識(shí)是難題,產(chǎn)品經(jīng)理重要職責(zé)就是促成共識(shí),這工作量很大,因?yàn)槟阋c所有利益相關(guān)者溝通,讓他們達(dá)成一致。而我們發(fā)現(xiàn),公司規(guī)模大時(shí)可通過內(nèi)部傳播達(dá)成共識(shí)。如果你和某個(gè)人分享一些有趣的東西,他們會(huì)因?yàn)橛X得有趣而分享給其他人。我們創(chuàng)建原型產(chǎn)品分享,在公司內(nèi)部引發(fā)傳播,工程師、經(jīng)理等紛紛關(guān)注,所以這是一個(gè)很好的方法。一旦我們真正了解到這個(gè)產(chǎn)品確實(shí)有良好的動(dòng)態(tài)效果,并且我們已經(jīng)進(jìn)行了測試,這就是一個(gè)很好的方式,讓所有人都了解這個(gè)產(chǎn)品,并營造出一種「嘿,我們都在朝著這個(gè)未來努力」的氛圍。

Lenny: 不少公司都是這樣,比如 Stripe,在聘請第一位產(chǎn)品經(jīng)理前就有數(shù)百名工程師,工程師承擔(dān)著產(chǎn)品經(jīng)理的工作,Snap 也是如此。但感覺你的公司不是這樣運(yùn)作,而是有傳統(tǒng)的產(chǎn)品經(jīng)理、工程師、設(shè)計(jì)師。能講講為什么決定不采用那種模式嗎?

Gaurav:我確實(shí)認(rèn)為產(chǎn)品經(jīng)理是一個(gè)非常有價(jià)值的職能。但我認(rèn)為在 Snap 不聘請產(chǎn)品經(jīng)理可能是一個(gè)成功決定,但畢竟相關(guān)工作總得有人做,否則無人負(fù)責(zé),事情難落實(shí),也缺乏問責(zé)機(jī)制,這不是合理架構(gòu)。

話雖如此,設(shè)計(jì)師如果有產(chǎn)品經(jīng)理思維,就有獨(dú)特的優(yōu)勢,同理,工程師具備產(chǎn)品經(jīng)理思維也是一樣。進(jìn)一步看,產(chǎn)品經(jīng)理如果兼具設(shè)計(jì)和工程思維,那就更好了。我覺得核心在于,每個(gè)人都要全面、基礎(chǔ)地了解自己工作涉及的所有職能。

在 Captions,我們甚至更進(jìn)一步。為什么產(chǎn)品經(jīng)理不應(yīng)該了解市場營銷呢?找到有產(chǎn)品所針對(duì)問題的用戶,是產(chǎn)品經(jīng)理的關(guān)鍵工作。從某種程度上講,產(chǎn)品經(jīng)理應(yīng)負(fù)責(zé)到市場營銷環(huán)節(jié)。因?yàn)槭袌鰻I銷是拓展產(chǎn)品覆蓋范圍,比如搜索營銷、臉書廣告,從用戶點(diǎn)擊應(yīng)用的按鈕開始,所有的數(shù)據(jù)就產(chǎn)生了,開啟了整個(gè)用戶旅程,這和產(chǎn)品工作所需技能相似,理解這一節(jié)點(diǎn)的用戶至關(guān)重要。

所以我的核心觀點(diǎn)是:各職能部門應(yīng)盡可能深入了解其他職能,甚至具備相應(yīng)工作能力。這樣,公司在微觀層面做出的所有決策,就更有可能針對(duì)不同人負(fù)責(zé)的整個(gè)業(yè)務(wù)流程的各個(gè)環(huán)節(jié)進(jìn)行優(yōu)化。

Lenny:我十分認(rèn)同。Irene Lee 因?yàn)閷⑺挟a(chǎn)品經(jīng)理頭銜改為產(chǎn)品營銷經(jīng)理而知名,原因就在于她認(rèn)為產(chǎn)品經(jīng)理不僅要打造產(chǎn)品,還應(yīng)負(fù)責(zé)營銷。對(duì)我而言,產(chǎn)品經(jīng)理的工作就是推動(dòng)產(chǎn)品發(fā)展,被用戶接受并受到喜愛??扇藗儾⒎嵌歼@么想。

顯然,掌握付費(fèi)增長、SEO、產(chǎn)品營銷、信息定位等技能并非易事,但這確實(shí)是打造產(chǎn)品的關(guān)鍵。打造產(chǎn)品不能僅做出產(chǎn)品就聽之任之。我想你招聘產(chǎn)品經(jīng)理時(shí),會(huì)尋找有營銷直覺和相關(guān)經(jīng)驗(yàn)的人。

Gaurav:完全正確。至少要具備學(xué)習(xí)這些的能力和直覺。

Lenny:我在思考產(chǎn)品團(tuán)隊(duì)里產(chǎn)品經(jīng)理、工程師、設(shè)計(jì)師構(gòu)成的三角關(guān)系。在 Snap,似乎利用了這個(gè)三角的邊,比如有設(shè)計(jì)工程師,還有設(shè)計(jì)兼產(chǎn)品經(jīng)理。我猜工程師本身也挺有產(chǎn)品導(dǎo)向,近似產(chǎn)品經(jīng)理。那你們有設(shè)計(jì)工程師兼產(chǎn)品經(jīng)理這種職能嗎?

Gaurav:我覺得工程師兼產(chǎn)品經(jīng)理應(yīng)該是一種常見的模式,或者說每個(gè)工程師都應(yīng)該努力去理解產(chǎn)品。

結(jié)語 如何應(yīng)對(duì)一個(gè)全是 AI 生成視頻的時(shí)代?

Lenny:感覺我們快到或者已經(jīng)到了這種情況:難以分辨視頻是真實(shí)還是 AI 生成的。我很好奇,一是你覺得我們離這種情況還有多遠(yuǎn)?二是在一個(gè)可以生成任何你想要的視頻的世界里,會(huì)有哪些影響?

Gaurav:歸根結(jié)底,其實(shí)視頻、圖像、音頻無法被信任的時(shí)代已經(jīng)存在一段時(shí)間了。以前還沒有視頻、音頻或圖像,大多數(shù)情況下,事情都是靠「他說、她說」來證明。如果所有內(nèi)容都能生成而且真假難辨,那么我們可能真的會(huì)回到那個(gè)舊時(shí)代。

我覺得這既可怕,又帶來解決問題的新機(jī)會(huì)。目前創(chuàng)造完全逼真的視頻已很接近,一些前沿模型差一點(diǎn)就能實(shí)現(xiàn),但完全無法區(qū)分真假可能還需要幾年,而且受應(yīng)用場景驅(qū)動(dòng)。就拿 Captions 公司來說,我們對(duì)想要專注的視頻類型有獨(dú)特的看法。當(dāng)下視頻生成大多是無聲、類似備用鏡頭的視頻,很多電影、電視劇、社交媒體帖子或廣告,實(shí)際上都包含對(duì)話或獨(dú)白,是人們相互交流、對(duì)著鏡頭說話、互動(dòng),這才是關(guān)鍵。目前在這個(gè)領(lǐng)域開展的工作并不多,這還是個(gè)尚未解決的問題。

我們正在努力接近目標(biāo),不過當(dāng)前模型有一些分歧。當(dāng)前有公司用神經(jīng)渲染技術(shù)制作虛擬人視頻,該技術(shù)獨(dú)立于 Transformer 和擴(kuò)散模型,和 AI 發(fā)展也沒有關(guān)系,只是能碰巧產(chǎn)生半真實(shí)的輸出,但存在一定局限性,而且必須對(duì)每人單獨(dú)訓(xùn)練,生成針對(duì)個(gè)人的視頻。還有很多公司做無音頻的通用文本轉(zhuǎn)視頻,大型生成模型的能力有待提升。在研究領(lǐng)域,雖然這些問題可解決但目前缺乏人們投入時(shí)間。

Captions 公司核心專注于用于說話視頻的大型生成模型。從安全角度,我們有獨(dú)特的思考框架。一般來說視頻分兩類:

一是記錄類,如個(gè)人聚會(huì)視頻、記者記錄事件視頻等,主要為了留下回憶; 還有一種非個(gè)人版本,比如記錄犯罪事件、自然災(zāi)害等等,客觀記錄涉及時(shí)間地點(diǎn)人物,這是為了留存歷史,我們想知道發(fā)生了什么。AI 生成這一類視頻全是負(fù)面影響,生成虛假的現(xiàn)實(shí)場景欺騙人沒有任何好處,我們要杜絕被用于這類場景。

二是敘事類,像廣告、社交媒體帖子、電視節(jié)目等,它們是為了娛樂和趣味而設(shè)計(jì)的,人們不會(huì)「相信」,知道這是虛構(gòu)的。如果能讓更多人講故事、娛樂并傳播信息,就是積極的。

在產(chǎn)品設(shè)計(jì)上,需思考如何讓產(chǎn)品很難被用在不良用途,同時(shí)便于在積極的方面使用,這是真正的挑戰(zhàn)。

Lenny:字節(jié)跳動(dòng)剛發(fā)布了個(gè)超厲害的模型。我看到輸入一張照片,它就能生成這人以多種方式說話的視頻。那這個(gè)模型屬于你剛才說的哪一類呢?

Gaurav:我覺得它正屬于我們關(guān)注的生成人物說話視頻領(lǐng)域,這也是字節(jié)跳動(dòng)的目標(biāo)。它是大型公司發(fā)布的首個(gè)能生成對(duì)話或獨(dú)白視頻的大型模型之一。你見過了我就不細(xì)說了。它的表現(xiàn)力強(qiáng),看起來不像虛擬人視頻,原因是它采用的是真正的大型擴(kuò)散模型,與多數(shù)做虛擬人技術(shù)公司使用的基礎(chǔ)技術(shù)有本質(zhì)區(qū)別。

Lenny:從 Will Smith 的意大利面視頻出現(xiàn)到現(xiàn)在過了多久?看看事情發(fā)展得有多快。

Gaurav:天啊,發(fā)展太快了,太驚人了。我覺得大概一年半到兩年吧。

Lenny:我在想象,如果是一個(gè)社交網(wǎng)絡(luò),人們通常想知道這些人是誰。我不在乎陌生人分享狀態(tài)更新,但我能想象一個(gè)全是 AI 生成內(nèi)容的抖音(TikTok)。

Gaurav:完全正確。

Lenny:內(nèi)容完全根據(jù)你的喜好定制,全是隨機(jī)視頻。

Gaurav:因?yàn)槟憧炊兑舻囊曨l流時(shí),你現(xiàn)在甚至都不知道誰是真實(shí)的,對(duì)吧?它感覺不真實(shí)。

Lenny:我會(huì)這樣做,去抖音上傳 AI 生成視頻,嘗試搭建這樣一個(gè)網(wǎng)絡(luò)。未來真是瘋狂啊。

本文由人人都是產(chǎn)品經(jīng)理作者【硅兔賽跑】,微信公眾號(hào):【硅兔賽跑】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!