如果你是Sora的產(chǎn)品經(jīng)理,你會如何設(shè)計這款產(chǎn)品?
OpenAI發(fā)布了文生視頻模型Sora,這是一幫純技術(shù)的成需要發(fā)布的大模型。但如果是從產(chǎn)品經(jīng)理的角度設(shè)計的大模型,會不會不一樣。這篇文章,我們考慮技術(shù)特性、應(yīng)用場景、操作流暢度和個性化定制程度這幾點,分別展開來聊聊。
Sora的出現(xiàn),引發(fā)一眾討論熱潮,但這款未正式發(fā)布的跨時代AI產(chǎn)品,還無法讓我們直觀感受到它的操作界面和使用效果。
那身為一名產(chǎn)品經(jīng)理,我不禁好奇,這款產(chǎn)品會給人什么樣的交互體驗?如果我是它的產(chǎn)品經(jīng)理,我會如何設(shè)計?
是像DALL-E 3那樣直接融入ChatGPT里?還是像Pika那樣單獨的輸入框和調(diào)試界面?又或者干脆做成剪映那種一站式視頻生成和編輯器?
AI產(chǎn)品設(shè)計,要同時考慮技術(shù)特性、應(yīng)用場景、操作流暢度和個性化定制程度這幾點,下面我分別展開來聊聊。
一、技術(shù)特性
采用Diffusion Transformer架構(gòu)的Sora,特點在于能夠處理和生成具有復(fù)雜動態(tài)和空間關(guān)系的高質(zhì)量視頻。因此產(chǎn)品設(shè)計要重點考慮如何有效調(diào)整模型性能,控制它的泛化能力。利用Transformer的特性來提高視頻的質(zhì)量和多樣性。
因此從產(chǎn)品設(shè)計上,提供高清分辨率、多場景模版、多鏡頭選擇肯定是Sora和其他視頻有差異化的配置參數(shù)。
與此同時,考慮到過度復(fù)雜的參數(shù)配置導(dǎo)致的過擬合問題,這類配置的選擇也要控制邊界,限制約束條件,不能讓用戶通過自然語言來隨意控制。
二、應(yīng)用場景
Sora的應(yīng)用范圍非常廣泛,因此,在產(chǎn)品設(shè)計時,應(yīng)考慮如何將Sora應(yīng)用到如影視制作、游戲開發(fā)、教育教學(xué)、產(chǎn)品演示、內(nèi)容營銷等更多領(lǐng)域,從而擴大其市場影響力,覆蓋到更多元的職業(yè)類型。
舉個例子,影視制作就是官方指定的Sora應(yīng)用場景之一。OpenAI曾公開表示,通過使用Sora,視覺藝術(shù)家、設(shè)計師和電影制作人可以獲得關(guān)于如何推進模型對創(chuàng)意專業(yè)人士最有幫助的反饋。
但對產(chǎn)品經(jīng)理而言,這樣的定位更要求產(chǎn)品設(shè)計風(fēng)格面向?qū)I(yè)人士而不是普世大眾。也許我們的界面,不應(yīng)該只提供一個對話框,而是要以更貼近鏡頭語言、電影腳本那樣的風(fēng)格來給用戶輸入提示。就像DALL·E3的提示詞生成器那樣,明確規(guī)定用戶要按:場景、人物角色、形象描述、背景介紹、表現(xiàn)說明那樣的格式來撰寫提示詞。以劇本撰寫為例,一個劇本通常由5個主要元素組成:時間、地點、人物、行為、對話。那我們的界面設(shè)計,就應(yīng)該要求用戶完善這些設(shè)定,才能享受到一部精彩的劇作。
當然,不同行業(yè)Sora提供的能力范圍也要有區(qū)別,比如在游戲領(lǐng)域,游戲開發(fā)者就可以利用Sora制作游戲中的角色動畫和場景效果,提供更逼真豐富的游戲體驗。從這個角度看,就無需復(fù)雜的腳本設(shè)定,只考慮如何把技術(shù)融入到游戲設(shè)定中就可以了。
三、操作流暢度
設(shè)計一個用戶友好、操作簡便的Sora視頻生成界面,首先要確保界面的設(shè)計遵循人機界面的友好性和操作便利性原則
具體來說,可以考慮以下幾個方面:
第一,簡化操作流程:剛剛我有提到,Sora使用過程中,用戶必須對想要顯示的內(nèi)容進行詳細描述,包括場景、人物、動作和整體基調(diào)等。這意味著在設(shè)計界面時,應(yīng)盡量減少用戶的輸入工作量,提供清晰、直觀的選項和反饋,以幫助用戶快速完成描述和設(shè)置,這時候就可以融入AI Copilot角色來輔助用戶撰寫內(nèi)容。
第二,增強視覺體驗:通過合理的排版和配色,使用戶能夠直觀地了解頁面內(nèi)容,并享受到視覺上的美感。這不僅能提升用戶體驗,還能增加工具吸引力。我個人推薦類似GPTs那樣的布局。既可以自然語言交互,又支持輸入框配置參數(shù),還可以直接預(yù)覽,方便直觀。
第三,靈活的編輯功能:Sora需要允許用戶靈活地編輯和更改生成的場景。因此,在設(shè)計界面時,應(yīng)考慮到用戶可能會有不同的需求和偏好,提供多種編輯選項,如調(diào)整視頻的長度、添加或刪除場景元素等,以滿足用戶的個性化需求。
第四,實時預(yù)覽和反饋機制:在生成視頻之前,用戶可以預(yù)覽生成的視頻。這樣的設(shè)計可以讓用戶更好地理解生成效果,并根據(jù)預(yù)覽結(jié)果做出相應(yīng)調(diào)整。同時,也應(yīng)該提供一個反饋機制,讓用戶知道他們的描述被Sora理解了多少,以及哪些部分沒有得到很好的表現(xiàn)。還能避免無效的patch資源浪費。
第五,易于學(xué)習(xí)和使用:Sora的使用,對普通大眾而言上手門檻可能會較高。因此,在設(shè)計界面時,應(yīng)確保所有的指示和說明都是清晰易懂的,避免復(fù)雜的術(shù)語或難以理解的概念。增加示意圖和解釋說明手冊就是個很好的設(shè)計。
四、個性化定制程度
就像上面提到的,面向?qū)I(yè)人士的設(shè)計,相比普通C端,區(qū)別就在于可個性化定制的范圍。對Sora而言這可能是關(guān)鍵環(huán)節(jié),也需要認真設(shè)計。具體可以分下面幾個維度來考慮:
第一,提供可調(diào)節(jié)的視頻長度和分辨率,以及各種模板和主題:Sora需要允許用戶根據(jù)特定需求和偏好定制他們的視頻,包括視頻長度和分辨率的調(diào)節(jié),以及提供各種模板和主題,從而滿足不同場景和需求
第二,利用用戶數(shù)據(jù)生成個性化視頻:作為企業(yè)級用戶,可以基于用戶數(shù)據(jù),讓Sora生成針對不同用戶群體的定制視頻,從而提高營銷活動的針對性和最終售賣的轉(zhuǎn)化率
第三,支持生成支持多設(shè)備多尺寸內(nèi)容的能力:由于Sora訓(xùn)練的視頻是全尺寸,它也就支持為多樣化設(shè)備定制內(nèi)容的能力,從產(chǎn)品設(shè)計上也要支持多設(shè)備屏幕預(yù)覽功能。
第四,視頻風(fēng)格定制:視頻風(fēng)格也是AIGC產(chǎn)品的標配,卡通、寫實、科幻、幽默,用戶都可以根據(jù)自己的需求和喜好,輸入特定的文本信息,讓Sora生成符合預(yù)期的視頻內(nèi)容,也給用戶提供了充分發(fā)揮想象力的空間,這也是平臺型產(chǎn)品的標準設(shè)計思路。
五、總結(jié)一下
總的來講,我覺得sora的設(shè)計,不應(yīng)該只局限在某個功能、某個界面上,更應(yīng)該綜合考慮技術(shù)實現(xiàn)、使用人群、實現(xiàn)目的和用戶反饋。
這個過程肯定不是一蹴而就,尤其目前作為一款視頻生成工具,sora還有大量不完善的地方,比如物體動作表現(xiàn)遲緩不自然、視頻無聲音、仍舊存在幻覺問題等等。就連已經(jīng)很成熟的GPT4,OpenAI仍舊在使用過程中用各種方法收集用戶反饋。
這也是身為產(chǎn)品經(jīng)理要特別關(guān)注的。
希望這篇文章能對你有所啟發(fā)。
專欄作家
申悅,微信公眾號:互聯(lián)網(wǎng)悅讀筆記(ID:pmboxs),人人都是產(chǎn)品經(jīng)理專欄作家,前360產(chǎn)品總監(jiān),起點學(xué)院優(yōu)秀導(dǎo)師。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!