Runway:AI Native Tools工廠,下一個時代的視頻創(chuàng)作工具
本文作者從Runway公司的產品著手進行講解,介紹了Runway的產品歷程及公司特色,分析了其市場定位與外部競爭,并在最后研究探討了Runway公司的未來發(fā)展,推薦給感興趣的伙伴們閱讀~
Runway 是什么?是 Stable Diffusion model 背后的研究團隊的公司;是目前最受關注的 AI native 視頻創(chuàng)作軟件;是新產品 demo 總是很酷炫,但用戶很難拿到內測的“最強廣告公司”;是基于云端和瀏覽器的團隊協(xié)作產品——視頻編輯領域的 figma。
但更進一步看,我們認為 Runway 的模式是一個 AI native tools 工廠,和字節(jié)的路徑很像。字節(jié)以推薦算法+資訊作為載體,制造了段子、新聞、貼圖、短視頻、中視頻等一系列產品,爆款程度不一。而 Runway 以“AI + 視覺創(chuàng)作”為載體,隨著 AI 技術每一次浪潮的迭代推出了 30 多個圖像視頻編輯工具,也有不少在業(yè)界成為爆款。
Runway 的產品哲學很清晰:一直站在 AI 技術演進的前沿,始終基于 AI 新技術的邊界,尋找視頻和圖像編輯的全新方法。他們不希望做一個更好的 Photoshop 或 Premiere,而是希望借助云計算和 AI 的力量塑造全新的工作流。
從技術和產品結合的角度看,Runway 不斷把最前沿的計算機視覺技術封裝成工具,裝入自己的云端視頻編輯平臺,可以說抓住了每次 AI 技術進步的機會:
- 在 StyleGAN 等生成技術成熟時,Runway 做了一個機器學習模型平臺,讓用戶可以方便地訓練、部署視覺模型,許多用戶在 Runway 上調用 StyleGAN 模型生成肖像;
- 在圖像語義理解、分割等技術成熟時,Runway 選擇不斷優(yōu)化綠幕、圖像修復等技術,大幅節(jié)省視頻編輯時間,服務于專業(yè)的視頻編輯師;
- 如今 Stable Diffusion 為代表的圖像生成技術成熟,Runway 于是開始發(fā)力生成相關技術,目前 Runway 的 Gen-2 模型是市場上最好的視頻生成模型,用戶已經可以在簡單場景生成效果驚艷的短視頻。
- 也正因為 Runway 總想走在技術最前沿,而 AI 生成的技術成熟度還不高,Runway 的產品也面臨挑戰(zhàn);
- 視頻編輯工具層面,Runway 不適合精細度要求高、特別專業(yè)的場景,更多專業(yè)用戶把它的 tools 當成 Adobe 的補充而非替代;而中小客戶方面又面臨剪映(Capcut)這種更方便、更移動原生產品的競爭;
- 在圖像生成方面,雖然 Runway 是 Stable Diffusion 的早期作者,圖片生成質量落后于 Midjourney 和 Stability AI,目前內測的視頻生成產品,效果還待更多用戶來驗證。
以下為本文目錄,建議結合要點進行針對性閱讀。
- Thesis
- 全新的 AI 創(chuàng)作方式
- Runway 產品歷程
- Runway 公司特色
- 定位與競爭
- 團隊與融資
- 關鍵討論與未來
一、Thesis
我們認為,Runway 的模式是一個 AI native tools 工廠,是否能從好用的單點工具閉環(huán)成用戶不可或缺的工作流產品,值得長期關注。
1. Runway 的模式是一個 AI native tools 工廠,有利于在目前技術更迭較快的背景下快速發(fā)布產品,獲得用戶反饋和迭代方向。
他們已經發(fā)布了 30 多個 AI Magic Tools,包括文本生成、圖像生成、音頻處理、視頻摳圖等市面上主流 AI 功能:
- 基于 AI tools ,他們研發(fā)了一套基于 Web 端的視頻編輯軟件,主打“協(xié)作”和“快”,試圖幫助視頻后期編輯和特效師提高生產效率;
- 在圖像生成技術成熟后,Runway 基于 Stable Diffusion 模型開發(fā)了圖像生成、無限圖像,類似 Lensa 魔法頭像的 Customer AI Training 等功能,又在近期開始內測視頻生成模型 Gen-1 和移動 APP。
2. Runway 面臨專業(yè)工具 Adobe 和輕量級產品剪映的競爭 :
- 在專業(yè)視頻編輯場景,Runway 難以撼動 Adobe 的護城河,其編輯工具目前無法應對專業(yè)精細化的要求,同時專業(yè)編輯軟件 Adobe 和達芬奇(Davinci Reslove)也在 Runway 發(fā)布的新功能半年后就更新 AI 工具插件;
- 在輕量化視頻制作場景,Runway 面對高度嵌入抖音(TikTok)工作流體系的剪映(Capcut);
- 在圖像生成領域,Runway 在生成圖像的質量上落后于 Midjourney,Stability AI。
3. 從近期發(fā)布看,Runway 有望將單點的 AI Tools 組合成團隊協(xié)作產品,提高對用戶工作流的介入:
- 他們最近發(fā)布的 Custom AI Training 和 Gen-2 視頻生成功能都很適合移動端,比如拍攝一張照片或一段視頻后經過簡單的特效處理和編輯就可以分享至社交和內容平臺;
- Gen-2 功能目前是市場上最好的視頻生成模型,能夠在簡單場景生成令人驚艷的效果,有可能會引起一波熱潮;
- 同時團隊正在 APP 中內測 Image to Image 功能,這與上面兩種功能有著相同的技術棧,倘若未來 Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產品,那么將有大量 Youtube、Tiktok 用戶完全基于 Runway 進行視頻制作創(chuàng)作。
二、全新的 AI 創(chuàng)作方式
Generative AI 的本質是創(chuàng)造性任務的民主化,新的 AI 工具將原本需要多年專業(yè)學習、歷時數個小時的創(chuàng)造性工作壓縮到了幾秒,如今任何人都可以借助 Runway、Midjourney 在專業(yè)廣告、產品攝影等場景里打開創(chuàng)作空間。
Runway CEO 在訪談中表示,圖像的生成問題可能會在幾個月內解決(“解決 ”,表示任何人都可以從電腦和瀏覽器中獲得專業(yè)級視覺效果),而視頻將會趕上。
從各種公開演講我們都沒有看到 Runway CEO 討論新時代內容平臺的問題,他們似乎只想成為未來的內容創(chuàng)作工具,如果我們假設未來十年會有全新的內容形態(tài)和內容平臺,未來的年輕人會希望使用 Runway 來制作視頻, 就像 Primere 和剪映(CapCut)之于Youtube 和 Tiktok 一樣。
1. AI 對視頻編輯的優(yōu)化
傳統(tǒng)的視頻制作分為前期和后期:
在視頻制作的前期工作中,首先需要經驗豐富的人進行劇本創(chuàng)作和分鏡規(guī)劃,通常由 excel 完成,而如今剪映(CapCut)也將其作為前期功能集成進軟件中,未來有望通過聊天形式輔助完成文案、劇本創(chuàng)作。
分鏡規(guī)劃完成后,接下來就是素材拍攝、制作和整理工作:
素材管理的相關工作耗時、枯燥、繁重,一方面需要將各類素材進行文件格式的統(tǒng)一,各類視頻素材庫檢索效率較低,難以滿足需求,另一方面面臨設備、時間約束,甲方需求等挑戰(zhàn)。
而未來我們可以通過多模態(tài)生成模型針對圖片、視頻素材進行管理,對圖像進行語義理解,翻譯成文本 Prompt,每次只需要一個聊天框入口,輸入你想要的圖片內容。算法一方面可以大大提高檢索效率、另一方面可以隨時生成所需的圖片視頻素材,比如我們可以通過 Runway 的特效視頻生成作為某一段視頻的素材。
( 圖源:Runway 官網)
視頻制作的后期則包括了邏輯剪輯、音樂制作、粗調成片、細調和字幕添加等工作,它們占據了專業(yè)視頻編輯工作的 80%,Runway 有提供音頻去噪、自動風格變換等功能。
不僅如此,許多專業(yè)視頻還要包括視覺特效的制作,而在特效制作過程中,最費力的工作便是 Green Screen(綠幕摳圖)及 Inpainting(圖像修復),這也是 Runway 的主打的兩項功能。
綜上,我們可以總結出生成式 AI 技術對于當下視頻創(chuàng)作工作流的優(yōu)化:
三、Runway 產品歷程
1. 從 ML 模型平臺到 AI Tools 工廠
Runway 創(chuàng)業(yè)之初的產品形態(tài)是一個關于 ML(機器學習)模型的應用商店,用戶可以在這上面使用數百個模型。就像我們可以很方便地在 Hugging Face 平臺使用不同的 NLP 模型一樣,用戶可以在 Runway 平臺上方便地調用流行的圖像處理模型,比如 StyleGAN 模型。
在 5 分鐘內將機器學習模型從 GitHub
移植到 RunwayML
GAN (對抗生成網絡)是早期圖像生成的主流算法,基于 GAN 模型發(fā)展出了許多人臉生成的玩法,2018 年 12 月,Nvidia 的研究人員發(fā)表 StyleGAN 相關論文,該模型可以生成無限張假的肖像畫。
在圖像生成方面,GAN 模型在生成內容無法同時滿足高度可控性和高分辨率,而如今的圖片生成模型主流技術是 Diffusion 模型。
隨后 Runway 開始基于最新的 AI 算法開發(fā)相應 AI magic tools,目前已發(fā)布 30 余個 AI 創(chuàng)作工具,包含音頻、圖片、視頻、3D 和生成五個大類,涵蓋了幾乎所有的音視頻內容生成和處理工具。
2. 從單點 AI 工具到云視頻編輯套件
在深度學習的研究過程中,Runway 發(fā)現大約 80% 的視頻編輯時間都是那些逐幀編輯的非創(chuàng)造性操作,并且也有許多視頻制作行業(yè)里的制作人對 Runway 的技術感興趣,于是基于視頻摳圖類的 AI Tool 打造了一套云原生的視頻編輯工具。
Video Editing 是 Runway 目前的主打功能,在產品形態(tài)上,Runway 基于 Web 打造了一個視頻編輯軟件,前端頁面依然遵循著一些傳統(tǒng)視頻創(chuàng)作的用戶習慣,保持了底部界面的軌道,帶有多編輯系統(tǒng),音軌、關鍵幀動畫以及對文本、圖像的支持。
Runway 的前端界面
視頻后期特效/微調中,最耗時費力的便是:Green Screen(綠幕摳圖)、Inpainting(圖像修復)這兩項工作,而 Runway 通過三個 AI Tool 的幫助,可以節(jié)省大量的時間:
1)Green Screen,可以把選擇的對象以綠幕的方式作為視頻主題剪裁出來,通過點選的方式 AI 自動幫你補全貼合主題的輪廓;
2)Inpainting,視頻修復功能,類似圖片的 PS 功能,通過手動選擇對象范圍,將選定范圍內的主題刪除,并用周圍的背景通過 AI 計算進行填充;
( 內容源:Runway 官網)
3)Motion Tracking,選定一個視頻內的主體,當你添加其他的效果(比如標題)時可以跟隨這個主體運動。
(內容源:Runway 官網)
Ruwnay 在官網上展示了兩個案例:
- 使用 Adebo AE 軟件需要多次手工處理修正的人物選框工作,Runway 通過簡單的點擊,整個過程只需要 5s;
- 將一個動態(tài)的人物從背景中剪輯出來加上火焰特效,協(xié)作使用 Runway 和 Adobe 的兩個人只用了 6 分鐘就完成了制作并導出結果,而只用傳統(tǒng)軟件的對照組進度則遠遠落后。
( 圖源:Runway官網 )
但在產品的實際體驗效果中,比如主推的視頻修復功能,我們發(fā)現只有在環(huán)境單一,光源固定,人群稀少的情況下,這個功能可以最大限度的發(fā)揮,但依然穩(wěn)定地無法完成高度精細化的任務,只能作為專業(yè)剪輯軟件的補充,所以在 Runway 推出類似功能后不到半年的時間里,專業(yè)剪輯軟件Davinci和 Adobe 就加入了類似功能。
3. 編輯視頻到生成視頻
團隊在基于 GAN 模型尋找圖像生成方法的時候發(fā)現了 Diffusion模型,于是在團隊算法科學家在 Disco Diffusion 基礎上進行迭代優(yōu)化,構建了 Stable Diffusion 的早期版本。
基于 Stable Diffusion 模型,團隊開發(fā)了 text to image、image to image、無限圖像、Custom Training 等一系列 Magic Tools:
1)“無限圖像”功能
用戶可以通過文字編輯,為世界名畫拓展邊界,也可以生成各種沒有邊界的圖像。
(圖源:Runway 無限圖像功能)
2)Custom AI training 功能
基于 Image to Image tools ,Runway 將過去模型托管平臺的服務升級為 Custom AI Training 產品,這類似于 Lensa AI 去年所推出的魔法頭像服務,用戶只需要上傳特定肖像、動物、物品的多張照片,便可以直接進行生成模型的訓練,相當于將 Fine-tune 民主化:
以前的 Runway ML lab
如今的 Runway AI Training
以肖像為例,用戶需要上傳 15-20 張個人照片,就可以支付 10 美元進行訓練,生成上百張生成圖片。
放入 15-20 張個人照片
( 圖源:Runway 官網展示肖像)
可生成上百張不同風格照片
( 圖源:Runway 官網展示肖像)
每次訓練完成,除了一次性生成上百張肖像照,系統(tǒng)還會生成一個標簽化的 prompt,之后可以在 Runway 文生圖平臺調用該 prompt 生成新肖像。
3)視頻生成功能
2023 年 2 月 6 日, Runway 推出 Gen-1 功能,并在 Discord 中開啟內測,用戶可以在服務器里上傳一段視頻,并 @Gen-1 機器人后輸入風格 Prompt,然后就可以得到相應風格的視頻,在社區(qū)中,我們可以看到用戶的三種輸入形式。
( 圖源:Discord 社區(qū)用戶 vkuoo)
用戶也可以在輸入視頻的同時,輸入風格圖片作為參考,可以得到效果更好的視頻。
( 圖源:Discord 社區(qū)用戶 TecateVirus )
當然,同時輸入風格圖片和文字描述也是允許的:
( 圖源:Discord 社區(qū)用戶 FARGO)
在活躍的社區(qū)氛圍加持下,Gen-1 模型飛速迭代,并在 3 月 20 日發(fā)布升級版 Gen-2,展現出模型的巨大提升,目前已經能夠很好地將場景、色調簡單的幾何體變成酷炫的視頻,但對于復雜場景的視頻無法達到精細化的處理。
近期 Runway 開啟了手機 APP 內測,將 Image to Image 功能引入移動端,模型會將用戶上傳的圖片解碼成 prompt 文本,用戶可以對 prompt 進行編輯,應用也提供了多種風格 prompt 模版。Runway APP 內測版 UI 界面,目前只有圖像編輯功能。
( 圖源:Runway APP 截屏)
四、Runway 公司特色
1. AI 研究驅動產品
Runway 的產品哲學很清晰:一直站在 AI 技術演進的前沿,始終基于 AI 新技術的邊界尋找視覺創(chuàng)作的全新方式。
Runway 除了在 CVPR 和 NeurIPS 等會議上發(fā)表文章,還會舉辦講座和輔導,保持和學界的緊密聯(lián)系,并參與公共社區(qū)的建設,去年 Runway 的研究科學家 Patrick Esser 與德國慕尼黑大學的學者共同撰寫了 Stable Diffusion 的初始論文,Runway 隨后幫助構建了 Stable Diffusion 的原始版本,并將該技術集成進設計軟件的功能中。
Runway 團隊不僅重視底層模型的研究,還十分崇尚全面的技術堆棧,團隊希望能夠完全了解和控制產品部署及與用戶交互的方式,同時,在 CEO Cristóbal 看來,未來的單位算力成本會急劇下降,隨著硬件和軟件的優(yōu)化,我們將持續(xù)看到訓練和模型運行成本隨著時間推移而降低,在工程技術方面的投資是值得的。
Runway 采用 Pytorch 框架建立自己的模型,使用 AWS 的集群,同時會自建系統(tǒng)優(yōu)化模型訓練流程,并且會采用 WebGL 加速器完成前端的優(yōu)化。在推理端,他們使用 C++ 技術棧 ,以方便實時對視頻編碼解碼過程,同時建立了一整套流媒體系統(tǒng),并不斷地權衡模型的精度和速度,這保證了 Runway 對于自家產品的控制和表現力。
2. 云原生驅動協(xié)作
在產品體驗方面,Runway 的套件基于 Web 和云原生,同 Figma 和 Canva 一樣,這帶來了三個非常重要的好處:降低本地計算機性能要求,便于跨平臺協(xié)作,便于內容分發(fā)。
CEO 在訪談中提到,希望未來大家制作視頻的感覺應該類似于在 Google Docs 上的協(xié)作一樣,沒有必要下載和更新軟件,在合作者之間自由分享創(chuàng)作靈感,基于此,Runway 打造了基于合作為中心的一套自動化創(chuàng)作工具。
Runway 關于 AI 相關的計算都是在云端遠程處理的,為此公司針對音視頻的網絡端傳輸做了大量優(yōu)化,可以預見,這家基于 AI 的云產品公司未來將會面臨巨大的網絡和服務器開銷。
五、定位與競爭
1. 市場定位
從 CEO 的分享、客戶訪談綜合來看,Runway 的定位是專業(yè)級、電影級視頻制作,并希望在未來得到更廣泛用戶的青睞,Runway 目前在主推 AI 創(chuàng)作電影節(jié) 和 Gen-2 社群。
(圖:Runway AI 電影節(jié)網站)
CEO 在最近的訪談中提到,Runway 的產品哲學不是做一個更好的 Photoshop 或者 Premiere ,它只是在尋找一種制作視頻、編輯圖像、音頻的新方法,其中的關鍵是 ML 驅動,云原生,讓每個人都可以輕松在電腦和瀏覽器中制作專業(yè)級視頻特效。對于產品定位,Runway 的團隊主要提到四點:專業(yè)、協(xié)作、快、很多 AI Magic Tools。
Runway 目前的客戶主要是電影級視頻編輯和特效制作者,他們的主要優(yōu)勢是更輕便、更高效,但其產品能力尚不足以撼動專業(yè)軟件,他的機會在于基于視頻生成技術,讓更多的年輕人基于 Runway 進行視頻創(chuàng)作和編輯,成為新一代的創(chuàng)作工具甚至內容平臺。
客戶和從業(yè)人員這樣評價 Runway:
? 一位主要在 TikTok 平臺創(chuàng)作視頻的特效編輯師:
Runway 的體驗就是速度,我們想做一些看起來需要很長時間才能完成的東西,但它可能只需要一兩天,擁有能夠非??焖俚刂谱鞒稣嬲哔|量的東西的工具是非常重要的,它改變了我的過程很多,當您的項目截止日期非常緊迫,并且需要交付高質量的東西時,您不想花時間在沒有成效的地方上,你不想做任何動態(tài)描寫和清理工作,只希望專注于添加素材庫、添加所有效果,為了能夠在幾分鐘而不是幾天內清理一些東西,它節(jié)省了項目。
? 一支負責 The Late Show with Stephen Colbert (一檔 CBS 綜藝節(jié)目)的專業(yè)特效團隊:
我們曾經用 Runway 拍攝了 Stephen Colbert 紀念 Americone Dream 冰激凌周年的音樂視頻,有一個場景是需要把冰淇淋放在不同背景中以夸大冰淇淋的影響力,但由于冰淇淋和背景顏色均過于復雜,團隊嘗試了很多方法,都不是很成功,Runway 的圖像修復技術拯救了我們,將數小時的工作降低到幾分鐘,目前 Runway 已經融入進入團隊的工作流。
? 一位自由職業(yè)戲劇導演、編輯和特效藝術家:
他主要使用 Premiere 做編輯和視覺特效,但會在大多數專業(yè)項目中使用 Runway ,Runway 可以幫助節(jié)約大量制作時間,雖然 Adobe 做了類似的功能,但體驗不如 Runway,相比于雇很多專業(yè)的摳圖人員,日薪資 600-800 美元,Runway 每月低廉的訂閱費讓人值得一試。
? 前 Netflix 制片人:
我會主要使用 Runway 的團隊協(xié)作功能,但 Runway 這種基于新技術驅動的編輯軟件,難以撼動 Adobe 。該項目有機會像曾經的 Instagram 一樣,從圖片墻成為新一代社交或者內容平臺。
基于上文的 AI 內容生成對于視頻制作流程的增益和客戶的反饋,我們列出以下表格,并認為 Runway 的客戶主要是專業(yè)影視制作用戶、業(yè)余用戶與潛在用戶:
業(yè)余用戶指的是平均每個月都會制作并在社交媒體發(fā)出一些非專業(yè)化的小視頻,潛在用戶指的是幾乎很少制作視頻,但目前是 Instagram 等社交軟件的用戶,目前除中國外 Instagram 月活用戶為 20 億,而 Tiktok 用戶為 10 億。
2. 競爭分析
在視頻編輯產品層面,Runway 的主要競爭對手既包括 Adobe 這種巨頭公司,也有 Descript、CapCut 類的輕量化視頻制作產品。
1)Premiere/Davinci
Premiere 是 Adobe 旗下的專業(yè)視頻編輯軟件,Davinic 是由 Blackmagic Design 公司開發(fā)的專業(yè)編輯軟件。在實際的工作流中,Runway 和 Premiere/Davinci 往往是相互補充的關系,而非競爭關系,Runway 主打的是云端協(xié)作,便捷快速,在一些特定功能比如綠幕、摳圖,Runway 往往做得更好讓很多專業(yè)團隊愿意為它付費。
2)CapCut
CapCut 是剪映海外版,字節(jié)跳動旗下的免費視頻編輯和創(chuàng)作軟件,擁有各種娛樂性質的視頻編輯功能,目前全球擁有數億用戶,Runway 目前與其沒有直接競爭關系,但他們同時在搶奪未來的“潛在客戶”,隨著 Runway 的發(fā)展,未來勢必要正面挑戰(zhàn) CapCut,而 CapCut 的產品核心競爭力其實是與 TikTok 的強綁定,所以在未來的戰(zhàn)場,Runway 需要綁定或者成為新的內容平臺,才有機會成為最后的贏家。
3)Descript
Descript 是一款可以用文字編輯音頻和視頻的軟件,主推通過編輯文本來編輯視頻,是現在企業(yè)辦公方向視頻制作首選,和 Runway 的客戶群體并不相同,雖然 Runway 也期待面向企業(yè)級用戶,但 Runway 主推的是藝術類的視頻制作,而非辦公場景的視頻。
4)Veed
這是一家倫敦的初創(chuàng)公司,創(chuàng)始人 Keynejad 曾經在設計工作室時要處理很多在線視頻,但他發(fā)現視頻處理軟件都龐大而臃腫,便開始構建網頁視頻編輯器 Veed。截至 2022 年 2 月,Veed 有 100 萬用戶和 700 萬美元的 ARR,主要用戶是社交媒體視頻的創(chuàng)作者,從客群和面向的產品屬性看,目前該項目和 Runway 不構成直接競爭。
5)Vidyo.ai
是一個在線視頻編輯平臺,它使用 AI 技術幫助用戶從長視頻中快速制作出適合在 TikTok、Instagram、LinkedIn 和 Facebook 等平臺分享的短視頻,在 2021 年 11 月獲得了 110 萬美元的種子輪融資,目前用戶數量不詳。Vidyo和 Runway 二者之間的競爭關系是 Generative AI 應用層和全棧應用公司之間的競爭,由于視頻生成和編輯的模型層仍舊在劇烈的變化,所以掌握核心的 AI 技術是更加穩(wěn)妥的選擇。
3. Text to Video 技術進展
在 Diffusion 模型在圖片生成領域取得了重大成功后,各家研究團隊都對 Text to Video 展開了研究,目前比較領先的有:
1)Meta 于 2022 年 9 月發(fā)布了其下一代內容制作工具 “Make-A-Video”。
他們主要將時間維度引入擴散模型,基于對于圖片中關鍵語義生成幾個視頻特定幀,進而通過插幀補全的方式完成視頻生成,目前沒有發(fā)布產品,官網展示了三個方向的 Demo:
- 通過輸入行為文字直接生成視頻;
- 將一張靜態(tài)圖片轉變成短視頻;
- 為一個視頻做背景、風格切換。
Meta 視頻生成技術架構,采用先生成幾個關鍵幀,
再進行插幀優(yōu)化方案
2)Google 在 2022 年 11 月份發(fā)布了 Google Imagen 視頻生成功能。
他們一方面和 Meta 一樣將時間維度引入擴散模型,另一方面采用先生成低分辨率視頻,再進行優(yōu)化的技術方案,目前還沒有公開內測,從 demo 看效果優(yōu)于 Meta 的模型,但依舊存在可控性差、分辨率差、時間較短等各種問題。
Google Imagen 視頻生成系統(tǒng) demo
3)Runway 于 2023 年 2 月發(fā)布了基于擴散器模型的視頻生成模型 Gen-1。
不同于 Meta 和 Google ,他們摒棄了文本直接生成視頻的技術路線,而是將輸入的視頻的進行逐幀風格遷移,最后再將風格進行統(tǒng)一優(yōu)化的方案,這大大降低了視頻生成的難度,可以讓用戶更好地控制視頻的生成效果,并在和用戶的數據高效迭代六周后發(fā)布升級版 Gen-2 模型,可以說這是目前最領先的視頻生成模型:
Runway Gen-1 論文展示案例,
基于時序擴散模型進行視頻風格遷移
OpenAI 在視頻制作和生成角度并沒有過多的進展,但從內部員工了解,他們已經有一個更好的 DALL·E 模型,效果超越 Stable Diffusion,OpenAI 目前具有領先的大模型訓練基礎和多模態(tài)技術,同時堅持“大力出奇跡”的長期戰(zhàn)略,沒有人知道他們未來將視頻數據引入大模型后,還會給公眾釋放什么樣的驚喜。
OpenAI 投資了視頻編輯軟件公司 Descript,并提供了 GPT4 接口的優(yōu)先使用權,Descript 的技術原理是將文本切片、音頻切片、視頻切片一一對應,在用算法相關技術進行快速匹配,而非大家所想象的 text to video 功能。
六、團隊與融資
1. 公司發(fā)展
Cristóbal Valenzuela 是 Runway 項目的 CEO, 他本科就讀于智利排名第一的私立院校阿道夫伊瓦涅斯大學 (AIU) ,獲得經濟學和工商管理學士學位,并于 2012 年獲得了設計藝術碩士學位,畢業(yè)后留校任教。
從 2016 年開始,深度學習的進展給了 Cristóbal Valenzuela 極大的震撼,他便選擇辭職去紐約大學進行深造,成為了 Tisch 藝術學院 ITP (Interactive Telecommunications Program)項目的研究生,并開始尋找制作藝術、生成內容和講述故事的新方法。
而 Runway 則是Cristóbal Valenzuela 的論文項目,在項目的開發(fā)過程中,他遇到了智利同胞 Alejandro Matamala,后者擁有過兩段創(chuàng)業(yè)經歷,他隨后加入項目擔任聯(lián)合創(chuàng)始人,在畢業(yè)后,紐約大學為他們提供了一個研究實習機會,他們在那里遇到了具有豐富開發(fā)經驗的智利同胞 Anastasis Germanidis,并說服他加入 Runway 擔任 CTO。
2022 年 12 月 5 日,Runway 的 CEO Cristóbal Valenzuela 在公司博客上宣布完成了 5000 萬美元 C 輪融資,估值 5 億美元。除著名風險機構 Felicis、Amplify Partners、Lux Capital、Coatue、Compound 和 Madrona 投資外,還有一批豪華天使陣容 —— Guillermo Rauch(Vercel CEO)、Amjad Masad(Replit CEO)、Howie Liu(Airtable CEO)、Soumith Chintala(PyTorch 負責人)、Lukas Biewald(Weights & Biases CEO) 以及 Jay Simons(ex Atlassian 總裁)。
截止到目前,Runway 團隊已經有 42 人,與開源社區(qū)和許多研究機構保持著良好的關系。
2. 收入預測
雖然 Runway 沒透露公司 2022 年的營收,根據福布斯的信源推斷其年營收可能不足五百萬美元,甚至僅有一百萬美元營收,由于最近半年 Runway 的產品形態(tài)發(fā)生了巨大的變化,所以往期收入并沒有足夠的參考價值。
Runway 收費方式是個人專業(yè)版 12 美元/月,團隊版 28 美元/月。
視頻編輯訂閱維度,Runway 可以成為 Adobe 的良好補充,相比于 Adobe 全家桶 110 美元/月 的價格,Runway 的價格便宜了十倍左右,而傳統(tǒng)視頻后期團隊的一個資深編輯的后期制作費用大概在 250 美元/小時,一個只負責摳圖的編輯費用也需要 60-80 美元/小時,而 Runway 可以在這一領域為他們節(jié)省幾個小時甚至幾天的工作,所以在專業(yè)領域層面,用戶有為其付費的理由。
在業(yè)余用戶和潛力用戶客群,Gen-2 目前是市場上最好的視頻生成模型,如果 Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產品,那么將吸引大量的 Youtube、Tiktok 視頻制作團隊完全基于 Runway 進行視頻制作。
參考 Adobe 、Canva、剪映(CapCut)的總用戶數和付費人群,可以估計視頻編輯領域擁有潛力客戶有一個億左右,他們會傾向于嘗試免費版的輕量化軟件,而潛在付費用戶預計和 CapCut 同一數量級,為百萬數量級。
Canva、Figma 付費用戶數量計算方法:基于年營收和客單價進行估算;剪映(CapCut)付費用戶量無數據來源,按總用戶量 1% 進行估算;Davinci 商業(yè)模式更側重于軟硬協(xié)同,財報顯示客戶每年會使用 Davinci 平臺制作 150 萬個項目。
從成本角度,相比于 GPT 動輒千億參數,Stable Diffusion 模型參數量并不大(8.9 億參數),同時其推理速度在快速優(yōu)化,所以相比于傳統(tǒng)的 SaaS 產品,引入 Stable Diffusion 模型并不會給成本帶來顯著增加。
七、關鍵討論與未來
1. 如何打造 AI Native 公司
AI-Native 的公司核心是能夠深入理解模型的能力,讓他們變得更加可控,方便與產品的深入結合。
Runway CEO 說:“多數追求‘一鍵生成視頻’制作工具的人都沒有經歷過甲方的摧殘,盡管一些人將 Runway 當成一站式的視頻制作工具,但 Runway 并不期待這樣,它應該允許其他人使用不同的軟件組合,也可以成為別人工作流的一部分,Runway 主要幫助人們提高視頻制作的效率,降低重復勞動?!?/p>
同時 Runway 希望將人類的創(chuàng)造性引入創(chuàng)作環(huán)節(jié),形成一個持續(xù)的反饋系統(tǒng),這一方面要摒棄端到端的產品設計,另一方面需要掌握全棧 AI 技術。
但在語言模型層面,CEO 認為 OpenAI 已經創(chuàng)造了足夠好的模型,沒有必要自己從零開始訓練,團隊應該專注于如何讓大模型變得更加可控,以期待更好的表現能力。
當你有大型的語言模型,能夠將想法轉化為內容,你以你想要的方式在特定的空間或矢量方向上導航和移動,你需要新的隱喻,你需要新的抽象。真正有趣和具有挑戰(zhàn)性的是,這些隱喻是什么?那些接口是什么?你如何確保你所建立的系統(tǒng)是真正具有表現力的?
2. Runway 的未來可能性
Runway 一直站在 AI 技術演進的前沿,始終在基于 AI 新技術的邊界尋找創(chuàng)造、編輯圖像和視頻全新的方式。他們不希望做一個更好的 Photoshop 或 Premiere,而是希望借助云計算和 AI 的力量塑造全新的工作流。
Runway CEO 在接受訪談中表示:
“未來每一家公司都將會成為一家媒體公司,各種規(guī)模的公司都需要源源不斷的內容來建立敘述,接觸他們的受眾和市場,特別是許多小型企業(yè),他們的業(yè)務依賴于此。而當涉及到客戶參與時,視頻的轉化效率比任何其他格式都要好得多。
Runway 的核心就是速度,未來創(chuàng)造專業(yè)的視頻,未必需要專業(yè)的機構和工作室,和編輯過程打交道時昂貴且冗長的,這就需要一款快速輕量化的工具軟件,我們看到了視頻領域強勁的長尾效應,因為各細分市場的大量客戶始終將視頻列為未來投資和工作的最重要的創(chuàng)意媒介。”
從近期發(fā)布看,Runway 有望成為下一個時代的內容創(chuàng)作工具:
- 他們最近發(fā)布的 Custom AI Training 和 Gen-2 視頻生成功能都很適合移動端,比如拍攝一張照片或一段視頻后經過簡單的特效處理和編輯就可以分享至社交和內容平臺;
- 同時團隊正在 APP 中內測 Image to Image 功能,這與上面兩種功能有著相同的技術棧;
- 倘若未來Runway 可以將視頻生成功能和編輯工具形成閉環(huán)的產品,那么將吸引大量的 Youtube、Tiktok 視頻制作團隊完全基于 Runway 進行視頻制作。
Reference
https://research.runwayml.com/the-research-origins-of-stable-difussion
https://runwayml.com/blog/training-an-object-detection-model-in-runwayml-to-analyze-posters/
https://sacra.com/research/cristobal-valenzuela-runway-business-video-primitives/
https://lspace.swyx.io/p/open-source-ai?utm_source=twitter&sd=pf
https://www.businessofapps.com/data/lensa-ai-statistics/
https://swyx.substack.com/p/open-source-ai?sd=pf&utm_source=twitter
https://twitter.com/runwayml/status/1622594989384519682?s=46&t=7B9oi79_pVnoIt_NHpzW6w
https://m.youtube.com/watch?v=60gzrrAFGeY
作者:Johnson;編輯:penny;公眾號:海外獨角獸(ID:unicornobserver)
原標題:Runway:AI Native Tools工廠,視頻生成領域的字節(jié)跳動
本文由 @海外獨角獸 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。
題圖來自 Pixabay,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信存儲空間服務。
深入思考,才能找到解決方案