虛擬數(shù)字人的應(yīng)用和觀察
隨著AI的出現(xiàn),虛擬數(shù)字人逐漸成熟,而讓虛擬人富有生命力和有影響力,是當(dāng)前未來的行進(jìn)方向。作者總結(jié)了虛擬數(shù)字人的應(yīng)用和觀察,一起來看看吧。
生成式AI的技術(shù)讓虛擬數(shù)字人不僅僅只有系統(tǒng)設(shè)置好的能力,更可以具備“靈魂”。
如何讓虛擬人有生命力和有影響力,是未來行進(jìn)的方向。
21年我關(guān)注這方面的時(shí)候,大部分還是處于電影特效環(huán)節(jié),一個(gè)真人需要穿一些專業(yè)的動(dòng)捕設(shè)備,然后需要設(shè)計(jì)同學(xué)進(jìn)行大量的人工建模和綁定;
23年年底到現(xiàn)在我再次對(duì)這個(gè)行業(yè)的現(xiàn)狀進(jìn)行了一些摸索,發(fā)現(xiàn)確實(shí)有了驚人的迭代。
剛開始還是處于應(yīng)用本身的更新,22年我有次在廣州一個(gè)展會(huì)上看到了做數(shù)字人直播的SaaS公司,印象非常清楚,當(dāng)時(shí)還詢價(jià),大概是8000/人/月;而且其他的展位都是有商品的,只有這家放了ppt,而且連海報(bào)都還沒有,只是一個(gè)黑白A4紙,打印的產(chǎn)品說明。
當(dāng)時(shí)這家公司的人還是一些“假人”建模出來的,并且音和形的擬合度也非常低。
整體觀看,非常假。
但是時(shí)日至今,現(xiàn)在確實(shí)能夠夠看到一些還不錯(cuò)的數(shù)字人。
一、虛擬數(shù)字人的幾個(gè)常見應(yīng)用
1. 虛擬偶像
產(chǎn)出一些音樂、小短劇、照片等,主體基本由公司進(jìn)行運(yùn)營,在各大社交平臺(tái)進(jìn)行圈粉。
商業(yè)化變現(xiàn)路徑:粉絲經(jīng)濟(jì)
代表作:洛天依(二次元音樂)
柳夜熙(劇情)
2. 虛擬主播
播音主持專業(yè)賽道,對(duì)新聞、綜藝等進(jìn)行專業(yè)的主持;也有在抖音小紅書代替真人出鏡,呈現(xiàn)內(nèi)容;
商業(yè)化的變現(xiàn)路徑:節(jié)省人力 + 資本價(jià)值
代表人物:央視的主播小C
3. 數(shù)字員工
服務(wù)于企業(yè),多有IP屬性、品牌代言和跨界屬性,帶來一些“噱頭”,視覺效果加持,提供一些客服能力。
商業(yè)化路徑:品牌價(jià)值、資本價(jià)值
代表人物:百信銀行的員工AIya
4. 虛擬導(dǎo)游
服務(wù)于各地的文旅局,作為旅游IP的特性進(jìn)行呈現(xiàn);現(xiàn)在這這兩年的商業(yè)化路徑看起來還不錯(cuò)。
古人現(xiàn)代化呈現(xiàn)(虛擬李白)
商業(yè)化路徑:代言人、AI概念加持
代表人物:劉三姐
5. 數(shù)字分身
概念:大多數(shù)是對(duì)現(xiàn)實(shí)生活中的人提供一個(gè)第二數(shù)字分身進(jìn)行呈現(xiàn),比如現(xiàn)在的老黃,主要是作為公司的代表作進(jìn)行呈現(xiàn),比如最近的劉強(qiáng)東直播、黃仁勛數(shù)字分身。
二、技術(shù)方案
實(shí)現(xiàn)路徑:造個(gè)虛擬人出來–>能表達(dá)(說話不假)—>能夠產(chǎn)生交互(能回復(fù)問題)
最原始的狀態(tài):動(dòng)捕設(shè)備+手工渲染
現(xiàn)在的方案:
1. 人怎么造出來
- 手動(dòng)建模:通過unity3D.c4d等等都可以建模(原始)
- AI繪畫的技術(shù):
- 文生圖通過文生圖的形式,構(gòu)建一個(gè)人(通過
- AI換臉通過真人圖像轉(zhuǎn)虛擬人的形式(比如抖音的一些頭像、寫實(shí)畫像轉(zhuǎn)二次元、妙鴨..)
2. 人怎么動(dòng)
真人驅(qū)動(dòng):通過動(dòng)作捕捉設(shè)備進(jìn)行關(guān)聯(lián),記錄動(dòng)作坐標(biāo);
代碼驅(qū)動(dòng):對(duì)生成的數(shù)字人模型進(jìn)行骨骼、表情的綁定以實(shí)現(xiàn)后續(xù)驅(qū)動(dòng);
智能驅(qū)動(dòng):通過動(dòng)作的描述、口型、表情,等等,自動(dòng)進(jìn)行有動(dòng)作流的綁定與生成。
3. 聲音擬合
這里就像是我給一個(gè)視頻配音,如何提高精準(zhǔn)度,這里大家應(yīng)該都感受過,需要一直不斷地拉大視頻的幀,這樣才能對(duì)的更整齊
但是這里還有一個(gè)問題,我們還需要讓這個(gè)人的口型和語音對(duì)上,這個(gè)其實(shí)就是一個(gè)技術(shù)難點(diǎn)了(比如前幾年電視劇的后期配音大家是非常能明顯的感覺到區(qū)別)
過去的做法,是我需要人工把人物模型說話的模型建模渲染出來,然后讓語音對(duì)齊這個(gè)口型;
口型動(dòng)畫生成技術(shù):現(xiàn)在的技術(shù)已經(jīng)攻克了口型和語音的自動(dòng)擬合,能夠?qū)崿F(xiàn)我通過語音驅(qū)動(dòng)這個(gè)人物模型的口型;
但是坦白講,隨著語言而變動(dòng)表情和語氣,這個(gè)點(diǎn),確實(shí)現(xiàn)在還沒有看到,或許也是成本太高了,一時(shí)半會(huì)不太能呈現(xiàn)出來。
4. 如何產(chǎn)生交互?
對(duì)話這件事情,現(xiàn)在已經(jīng)有了生成式大模型、知識(shí)庫,對(duì)于信息的輸入和賦予靈魂的輸出,這件事情,倒不是技術(shù)困境了,阻力核心還是集中在,如何結(jié)合多模態(tài)讓人類感知到這個(gè)“數(shù)字人”真實(shí)性。
三、未來來商業(yè)化的方式(個(gè)人思考)
1. 電商的應(yīng)用場(chǎng)景,真實(shí)度提升的那一刻,虛擬主播會(huì)逐步進(jìn)入大家的世界
現(xiàn)在能看到的一些數(shù)字人直播間還是非常初級(jí)的階段,大多還是基礎(chǔ)的實(shí)現(xiàn)口播,在情緒和問答數(shù)據(jù)交互上存在一些瓶頸,但是這些是可以通過現(xiàn)有的模型技術(shù)進(jìn)行解決的,相信很快會(huì)有大的廠商在這里解決這里的技術(shù)問題
- 在一些大廠的基礎(chǔ)商鋪會(huì)首批上線,比如集團(tuán)下的多個(gè)化妝品品牌等等;
- 一些本地生活的連鎖門店的直播間,交互范圍有限,且需要靠抖音直播的時(shí)長來轉(zhuǎn)化優(yōu)惠券和流量的;
四、文旅行業(yè)會(huì)快速落地
現(xiàn)在各地的文旅局,都在推進(jìn)AI的應(yīng)用,不管是博物館的ar眼鏡還是一些全息投影疊加AI人物的生成
導(dǎo)覽數(shù)字人、代言人,這些都可以快速提升游客的感官體驗(yàn)。并且在這個(gè)場(chǎng)合中,“假”并不會(huì)被過度放大。
eg:上次在山東省博物館和河南省博物院,都有看到類似的應(yīng)用,通過ai的方式展現(xiàn)了京杭大運(yùn)河當(dāng)前的開鑿和狀況;還有李白杜甫這些詩人的經(jīng)歷,都有通過虛擬人+生成式視頻+現(xiàn)場(chǎng)交互的方式,給游客帶來較好的體感
助手?jǐn)?shù)字人化
日常大家會(huì)使用siri和小愛同學(xué)等等的語音對(duì)話助手,但是這里的siri是一個(gè)同樣的siri,而且只是語音
如果現(xiàn)在你可以真實(shí)的構(gòu)建一個(gè)數(shù)字人助手,可以yy一下,我可以線上設(shè)定他參數(shù),比如我希望他是boy or girl ,語氣是怎么樣的,學(xué)歷背景和工作履歷是如何的,從一維二維的對(duì)話,走向三維的視頻,同時(shí)再結(jié)合一些VR眼鏡等等硬件,可以在特定的環(huán)境實(shí)現(xiàn)真實(shí)對(duì)話。。純yy暫無一些資料表明。
五、國內(nèi)的一些商業(yè)化方案
1. 單一IP的定制化方案
- 強(qiáng)定制化品牌形象的數(shù)字人:央視電視臺(tái)主播、政務(wù)IP
- 賣捏好的人(SaaS方案)-for電商直播(百度的智能云)
- 軟硬件一體化方案-for電商(訊飛)
- 重點(diǎn)發(fā)力重視數(shù)字人直播賽道
會(huì)員制,賣時(shí)長和做好的視頻–For內(nèi)容制作者(云平臺(tái))如影
數(shù)字員工解決方案(小冰)
六、技術(shù)困境
1. 生動(dòng)性:包括最近大家看到的劉強(qiáng)東京東直播,都是非常死板,沒有“人味”
雖然解決了口型的問題,但是對(duì)于情緒和表情上,還是沒有辦法進(jìn)行通用的商業(yè)化,這里在未來的一段時(shí)間必然是攻克的瓶頸。
2. 算力:大模型的通病了,如何降本,讓這件事情走進(jìn)千家萬戶
本文由 @聞一 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!