智能相冊(cè)AI化的“道與法”
編輯導(dǎo)讀:手機(jī)里的相片越來(lái)越多,很多人會(huì)習(xí)慣把它們存在網(wǎng)上,因此出現(xiàn)了很多智能相冊(cè)產(chǎn)品。本文從相冊(cè)本身這個(gè)產(chǎn)物去探討其背后的底層邏輯,探尋相冊(cè)這個(gè)現(xiàn)象背后的道與法,希望對(duì)你有幫助。
引言:今天要談的這個(gè)產(chǎn)品是一個(gè)大家每天都在用,但是大部分人感知特別弱的產(chǎn)品,但實(shí)現(xiàn)這個(gè)產(chǎn)品的智能化會(huì)給用戶體驗(yàn)帶來(lái)極大的改善,創(chuàng)造用戶的“aha時(shí)刻”。他不僅僅依賴于某一個(gè)單一的深度學(xué)習(xí)算法,而是多模態(tài)的算法融合,構(gòu)建的系統(tǒng)級(jí)的AI產(chǎn)品。
這個(gè)產(chǎn)品就是我們?nèi)粘6紩?huì)用的智能相冊(cè)。市面上智能相冊(cè)的產(chǎn)品很多,優(yōu)秀的產(chǎn)品也很多,隨便抄一個(gè)疊加一些差異化功能都能做到70-80分。因此接下來(lái)我們不談智能相冊(cè)具體如何打造從0-1的術(shù)和器,而是從相冊(cè)本身這個(gè)產(chǎn)物去探討其背后的底層邏輯,探尋相冊(cè)這個(gè)現(xiàn)象背后的道與法。
了解相冊(cè)背后的底層邏輯,我們還是套用常用的方法論,從what、where、when、why和how來(lái)進(jìn)行拆分。
一、what
什么是相冊(cè)?其實(shí)相冊(cè)這個(gè)產(chǎn)品并不是近些年才有,應(yīng)該是伴隨人類文明誕生就存在。從遠(yuǎn)古時(shí)代的人類祖先在洞穴居住的時(shí)候,就會(huì)洞穴墻壁上進(jìn)行繪畫(huà),這一副一副的畫(huà)作我們就將其定義為相冊(cè)集。通過(guò)這種方式人們來(lái)記錄對(duì)于世界的理解,人物之間的關(guān)系、發(fā)生的事件、世界的萬(wàn)物(動(dòng)物、植物等)、人們腦海里的想象、夢(mèng)境等等;
隨著宗教逐漸的發(fā)展,記錄的內(nèi)容除了客觀存在的世間萬(wàn)物之外,相冊(cè)內(nèi)容包含了大量的宗教傳說(shuō)中描繪的景象;隨著人們對(duì)于工具的開(kāi)發(fā)和應(yīng)用,內(nèi)容更加精美,可讀性更好,更易于傳遞創(chuàng)作者想要表達(dá)的意圖和人物所處的環(huán)境。
到了近代,在照相機(jī)發(fā)明之前(1839),我們對(duì)于相冊(cè)的定義是通過(guò)各式各樣的畫(huà)作的集合,比如藝術(shù)大家的作品集,里面的內(nèi)容范疇與史前人們對(duì)于世界理解和記錄并無(wú)二致;比如宮廷帝王在一些重要場(chǎng)合下聘請(qǐng)畫(huà)師進(jìn)行寫實(shí)的肖像繪畫(huà),畫(huà)家戶外的寫生,同樣也包含大量基于宗教故事、宗教人物的理解再創(chuàng)作。
隨著相機(jī)的發(fā)明,人們對(duì)于世界的記錄和理解方式又多了一種。但是記錄的東西想要傳達(dá)的情感并沒(méi)有因?yàn)橛涗浀墓ぞ甙l(fā)生變化而改變。通過(guò)相機(jī)的方式,讓相冊(cè)不再是王公、宗教貴族等少數(shù)社會(huì)頂層的人們擁有的東西,相冊(cè)的全民化與普及,讓普通人也可以通過(guò)更豐富的元素光影、色彩來(lái)記錄下對(duì)于世界的理解、人與世界的關(guān)系,幫助人們更好的審視自己的人生。
綜上,相冊(cè)雖然隨著科技的進(jìn)步載體和表現(xiàn)形式不同,但是其本質(zhì)及發(fā)揮的作用并沒(méi)有改變。且是人做為人區(qū)別于其他生物最大的區(qū)分,通過(guò)一種形式承載情感與傳遞思想,記錄每個(gè)人與外界交互產(chǎn)生的片段。相冊(cè)的歸屬可以是個(gè)體、家庭又或是一個(gè)組織。
二、where&when
什么場(chǎng)景下會(huì)使用相冊(cè):
- 比如在一些儀式上,畢業(yè)日、婚禮、生日上、家庭聚會(huì)等,與其他人產(chǎn)生交集的會(huì)分享的場(chǎng)景(用于傳遞表達(dá)情感);
- 自己日常使用,查找一些過(guò)去的記憶(基于時(shí)間、事件、人物、地點(diǎn)、場(chǎng)景);比如去年今日、婚禮上的照片、閨蜜的照片、馬爾代夫的旅游記憶、備忘錄(知識(shí)、信息、名片、證照等)
- 基于相冊(cè)的內(nèi)容進(jìn)行進(jìn)一步加工二次創(chuàng)作,基于某個(gè)主題進(jìn)行編輯加工制作短視頻、vlog等等;(圖片、視頻、其他素材等等)
隨著進(jìn)入“萬(wàn)物皆可屏”的時(shí)代到來(lái),相冊(cè)存在的載體也更加豐富了:比如車載的中控大屏,內(nèi)容可以是行車記錄儀、車內(nèi)的旅行乘客記錄、車外的風(fēng)景等;
比如電視大屏,內(nèi)容可以是適合家庭一起觀看的家人們的視頻與照片,生活記錄的點(diǎn)滴;
家中的電子相冊(cè)(帶屏音箱等其他智慧中屏),內(nèi)容可能是藝術(shù)畫(huà)作、亦或是家庭的合影等等;
手表上的相冊(cè),可以是人物的大頭照、自然風(fēng)景、寵物、建筑或者是用于作為壁紙的內(nèi)容;如果是兒童手表的話,內(nèi)容則更加豐富(現(xiàn)在兒童手表很多支持雙攝),自拍、合影,小朋友的第一視角認(rèn)知的這個(gè)世界、周遭的環(huán)境;
三、why
為什么相冊(cè)亟需智能或者是AI加持,賦予其更多功能呢?
其原因在于我們的電子相冊(cè)里面記錄了人與世界交互產(chǎn)生的痕跡,人看外界的視角、人抽象的情感&思想、人與人的關(guān)系;如何理解相冊(cè)內(nèi)容,其實(shí)是能幫助智能體更好的理解人本身理解人的情感、意圖,從而進(jìn)一步幫助智能體更好的為人提供千人千面的進(jìn)一步服務(wù)(航班信息、證件信息、名片信息等)。
其次,前面提到人使用相冊(cè)很大一部分原因是需要進(jìn)行查找、分類進(jìn)行進(jìn)一步的創(chuàng)作,因此通過(guò)人工智能機(jī)器學(xué)習(xí)的算法可以作為工具提升查找效率、并且?guī)椭藗冞M(jìn)行二次加工創(chuàng)作。
最重要的是,相冊(cè)本身承載了人的情感,通過(guò)機(jī)器學(xué)習(xí)的方法理解相冊(cè)的內(nèi)容,理解人們的情感、記錄人生活的點(diǎn)滴,在合適的時(shí)間通過(guò)已有相冊(cè)內(nèi)容制作視頻幫人們喚起一段回憶,與人們產(chǎn)生共情。這可能是一個(gè)好的相冊(cè)產(chǎn)品能達(dá)到的最高境界了。而想要做到這些必須依賴于人工智能機(jī)器學(xué)習(xí)算法模型的加持,相冊(cè)需要背后有強(qiáng)大的算力支持。
四、how
如何打造一款有情感方便好用的相冊(cè)呢?有什么可以應(yīng)用的機(jī)器學(xué)習(xí)算法,像魔法一樣,讓相冊(cè)也可以像哈利波特世界中的一樣鮮活起來(lái)?
首先我們可以看看國(guó)內(nèi)外的科技巨頭都是怎么做的?
競(jìng)品分析
我們?nèi)绾未蛟煲粋€(gè)情感化屬性的智能相冊(cè)呢?
首先是基礎(chǔ)的圖像分類能力,這個(gè)是計(jì)算機(jī)視覺(jué)最為基礎(chǔ)的任務(wù),但如何分類更符合用戶相冊(cè)的場(chǎng)景定義,如何分類卻不冒犯到用戶(之前有人提到過(guò)某相冊(cè)把某用戶的母親分類為黑猩猩,當(dāng)時(shí)引起爭(zhēng)議),寧不分也不要分錯(cuò)(再同樣的前提下,優(yōu)先保證準(zhǔn)確率而不是召回率),在相冊(cè)分類的場(chǎng)景下人們可能更希望的是大類的區(qū)分而不是像學(xué)術(shù)人物里面針對(duì)物種的類間區(qū)分;
除了事物的分類之外,另外一大類就是對(duì)于人臉聚類,就是按人物ID進(jìn)行區(qū)分,把同一個(gè)人分到一起,可以找到這個(gè)人的照片。但是某個(gè)人的照片哪些要展示出來(lái),哪些不展示,也需要進(jìn)行設(shè)計(jì),比如說(shuō)用戶并不愿意看到自己臉部很模糊、或者很丑態(tài)的照片,在人臉質(zhì)量打分中、質(zhì)量分低于某個(gè)閾值的是否就不以分類的結(jié)果進(jìn)行展示。
圖像美學(xué)質(zhì)量評(píng)價(jià):如何選擇機(jī)器學(xué)習(xí)里質(zhì)量分較高(人臉大小、光照、正面角度、清晰度等等)、且人主觀也認(rèn)為比較好看的照片進(jìn)行圖片優(yōu)選?甚至進(jìn)行進(jìn)一步加工創(chuàng)作、制作回憶視頻等等,這里就涉及到關(guān)于圖像美學(xué)質(zhì)量的模型設(shè)計(jì)以及人像美學(xué)質(zhì)量的深度學(xué)習(xí)模型設(shè)計(jì)了。
看圖說(shuō)話:基于已建立好的照片/視頻(多幀時(shí)序圖片)分類及美學(xué)評(píng)價(jià)體系建立的基礎(chǔ)上,我們進(jìn)一步可以理解照片所表達(dá)的背后意圖,傳遞的感情,比如現(xiàn)在主流的image caption方向和visual question answering方向,都是基于CV+NLP的多模態(tài)學(xué)習(xí)任務(wù),非常適用于相冊(cè)智能化的場(chǎng)景中。image caption就是看圖說(shuō)話,比如我們提到Instagram做的視覺(jué)障礙人士可以聽(tīng)見(jiàn)ins上的圖片所表達(dá)的含義就是image caption的典型應(yīng)用。
VQA:(visual question answering)其實(shí)是更近了一步,除了理解畫(huà)面所表示的含義之外,還可以基于圖片進(jìn)行提問(wèn),機(jī)器需要理解的內(nèi)容除了表述畫(huà)面所顯示的內(nèi)容之外,還要理解問(wèn)題,并且在畫(huà)面中找到相應(yīng)的答案,VQA無(wú)疑是將圖像理解更推進(jìn)了一個(gè)維度。包含的問(wèn)題包括二分類問(wèn)題、計(jì)數(shù)問(wèn)題、開(kāi)放問(wèn)題等等。
在比如通過(guò)一些全局搜索/語(yǔ)音助手的query可以找到滿足用戶意圖的相冊(cè)里的匹配圖片、視頻,理解了用戶意圖的基礎(chǔ)上,進(jìn)行相應(yīng)的回復(fù),這也是讓相冊(cè)更加理解用戶,與用戶共情的必要條件。
GAN-趣味體驗(yàn):最后增加相冊(cè)體驗(yàn)的可玩性,趣味性,增加產(chǎn)品的魅力因素的功能包括。比如,讓2D平面照片像施了魔法一樣動(dòng)起來(lái)的3D photo,通過(guò)深度估計(jì)、matting、inpainting等一系列技術(shù),如果想要將人臉也變得立體,需要將人臉進(jìn)行三維重建,現(xiàn)在也有基于單張或多張RGB相片進(jìn)行3D人臉重建的技術(shù),可以想象一下未來(lái)你相冊(cè)里的人臉可以轉(zhuǎn)動(dòng),可以做不同的表情,是不是非常有趣呢?
此外圍繞GAN展開(kāi)的一系列應(yīng)用,也非常適合在相冊(cè)里作為拓展功能增加用戶的粘性,比如把舊時(shí)的黑白老照片進(jìn)行修復(fù),恢復(fù)色彩、變得清晰,把相冊(cè)里的人物制作漫畫(huà)風(fēng)格、迪士尼風(fēng)格的各種人像的風(fēng)格遷移頭像;同樣可以進(jìn)行年齡編輯,看看老了什么樣子、小的時(shí)候什么樣子、換一種性別又是什么樣子,人臉與人臉融合是什么樣子等等。
同樣對(duì)于相冊(cè)里拍攝的各種風(fēng)景、建筑照片也可以模仿藝術(shù)家的各種風(fēng)格,一鍵變梵高風(fēng)、一鍵變莫奈風(fēng);雖然這些名師大家已經(jīng)離我們遠(yuǎn)去了,但是通過(guò)AI的技術(shù)我們還是能得到他們風(fēng)格的畫(huà)作,不也是一種人類文明精神的傳承與延續(xù)。
最近這兩年做了人工智能的產(chǎn)品并積攢了相應(yīng)的經(jīng)驗(yàn),逐步了解探索深度學(xué)習(xí)學(xué)科的邏輯并發(fā)現(xiàn)能佐證哲學(xué)中關(guān)于人與世界關(guān)系的一些設(shè)定,通過(guò)深度學(xué)習(xí)能幫助我們看到客觀世界與人們的主觀感受投射之融合,對(duì)立統(tǒng)一的呈現(xiàn)于世。
最后送給大家一句話,來(lái)自王國(guó)維的《人間詞話》: “詩(shī)人對(duì)宇宙人生,須入乎其內(nèi),又須出乎其外。入乎其內(nèi),故能寫之;出乎其外,故能觀之?!?希望大家既入世又出世,既現(xiàn)實(shí)又浪漫的生活,讓AI賦能的產(chǎn)品為人類社會(huì)創(chuàng)造更大價(jià)值、給予更多美好。
作者:大仙河? 微信號(hào) :大仙河知識(shí)學(xué)堂。專注分享關(guān)于人工智能產(chǎn)品、智能硬件、哲學(xué)的思考。
本文由 @大仙河? 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于 CC0 協(xié)議
相冊(cè)還有這么多玩法 學(xué)到了