人臉識(shí)別:技術(shù)應(yīng)用與商業(yè)實(shí)踐
人臉識(shí)別,已成趨勢(shì)。關(guān)于人臉識(shí)別各種碎片式的報(bào)道也層出不窮,但對(duì)于大多數(shù)人而言,依然是管中窺豹,霧里看花。本篇文章中,筆者將從技術(shù)應(yīng)用與商業(yè)模式兩個(gè)維度,系統(tǒng)性地說(shuō)明人臉識(shí)別,力求讓讀者,尤其是在考慮AI+應(yīng)用的從業(yè)者,看到全貌。
根據(jù)前瞻產(chǎn)業(yè)研究院對(duì)對(duì)人臉識(shí)別市場(chǎng)的預(yù)估,到2022年,中國(guó)人臉識(shí)別市場(chǎng)規(guī)模將超過(guò)66億元。
本篇,我們先來(lái)講人臉識(shí)別的技術(shù)應(yīng)用。
基礎(chǔ)能力決定上層應(yīng)用——基礎(chǔ)層算法
我們可能斷斷續(xù)續(xù)聽說(shuō)過(guò)人臉檢測(cè)、人臉識(shí)別等算法,但這些算法之間是否有聯(lián)系,是否有體系?答案的是“有的”。
我們可以將人臉識(shí)別算法分為基礎(chǔ)層算法與應(yīng)用層算法。
基礎(chǔ)層算法,相當(dāng)于人臉的預(yù)處理。一張人臉,首先要經(jīng)過(guò)人臉檢測(cè)、特征關(guān)鍵點(diǎn)處理,質(zhì)量模型過(guò)濾之后,才能到應(yīng)用層算法做處理,并應(yīng)用到實(shí)際場(chǎng)景中。
基礎(chǔ)層算法的優(yōu)劣,很大程度上會(huì)影響最終的人臉識(shí)別準(zhǔn)確率和效果。
應(yīng)用落地,各取所需——應(yīng)用層算法
目前,人臉識(shí)別在身份認(rèn)證領(lǐng)域與互娛領(lǐng)域應(yīng)用最為廣泛;在智能交互,數(shù)據(jù)分析處理等方向上,人臉識(shí)別也在進(jìn)行著積極探索。
身份認(rèn)證/安防的核心功能在于確認(rèn)“你是誰(shuí)”,互娛領(lǐng)域的核心在于“人臉特效處理”;兩個(gè)領(lǐng)域,兩條賽道,分別擁有各自不同的產(chǎn)業(yè)鏈。
身份認(rèn)證猶如一位思維嚴(yán)謹(jǐn)?shù)墓こ處?,狠抓識(shí)別準(zhǔn)確率,防攻擊等指標(biāo),并結(jié)合應(yīng)用落地場(chǎng)景,串聯(lián)業(yè)務(wù)流程,也是當(dāng)下AI結(jié)合產(chǎn)業(yè)互聯(lián)網(wǎng)的典型。
互娛領(lǐng)域就像一位鉆研人性的產(chǎn)品經(jīng)理,打造各種人臉特效,美顏、貼紙等都不在話下,并結(jié)合平臺(tái)用戶偏好,使用針對(duì)性的人臉特效策略,引領(lǐng)甚至塑造人們的審美潮流。
1. 你是誰(shuí)?無(wú)介質(zhì)證明身份
日常生活中,原來(lái)我們都是需要通過(guò)介質(zhì)(身份證、工牌、駕駛證等)來(lái)證明身份,而以人臉識(shí)別為代表的生物識(shí)別,則無(wú)需介質(zhì)。
身份認(rèn)證/安防的核心技術(shù)在于活體檢測(cè)、人臉比對(duì)、人臉?biāo)阉?;主要用于:線上遠(yuǎn)程認(rèn)證場(chǎng)景(金融開戶、刷臉注冊(cè)、刷臉登錄等)、線下無(wú)人值守場(chǎng)景(智慧交通、人臉門禁、刷臉取款、刷臉支付等)。
(1)活體檢測(cè)
是身份認(rèn)證的第一步,因?yàn)槭紫任乙_認(rèn)這個(gè)人是真人,而不是視頻、照片、面具等欺詐盜用行為。
活體檢測(cè)的技術(shù)上,目前也主要有兩大類:
- 對(duì)硬件依賴度比較低的,如動(dòng)作活體,靜默活體;
- 對(duì)硬件有一定要求,需要和硬件適配的,比如雙目活體、3D結(jié)構(gòu)光活體等。
雖然后者的成本比前者高,但是防攻擊效果更好,而在線下場(chǎng)景中,天然的需要硬件,因而后者也成為線下場(chǎng)景的最好選擇。
原理上,都是采集人臉照片,并將照片做上標(biāo)記(真/假樣本),并送到模型中訓(xùn)練從而得出算法。
不同的活體檢測(cè),因?yàn)闃颖驹床灰粯?,比如紅外攝像頭采集的照片,帶有黑白特征;3D結(jié)構(gòu)光采集的照片帶有深度信息,導(dǎo)致識(shí)別效果也不同。
所以,活體檢測(cè)的關(guān)鍵,除了算法、模型構(gòu)造,還有一個(gè)就是圖片樣本本身所帶有的信息量。
(2)人臉比對(duì)
是將兩張人臉照片進(jìn)行比對(duì),得出相似度;第一張是現(xiàn)場(chǎng)采集的,第二張?jiān)撊绾蔚脕?lái)?一般有兩個(gè)來(lái)源:
- 能代表你身份的載體,比如身份證、行駛證、駕駛證等證件照,這類場(chǎng)景用來(lái)做金融開戶、人臉注冊(cè)、網(wǎng)約車司機(jī)認(rèn)證等場(chǎng)景,通過(guò)現(xiàn)場(chǎng)采集照比對(duì)你的證件照信息,確認(rèn)你就是本人;
- 賬號(hào)下已經(jīng)綁定的人臉:一般需要先輸入賬號(hào),獲取對(duì)應(yīng)人臉。這類場(chǎng)景的典型應(yīng)用是取代原來(lái)的密碼功能,比如刷臉登錄、刷臉支付等。
(3)人臉?biāo)阉?/strong>
是將采集到的人臉,和底庫(kù)中的人臉全部進(jìn)行比對(duì),得出相似度最高的幾張人臉底庫(kù)照,并得出相似度,超過(guò)一定閾值,則可以認(rèn)為是同一人。
人臉?biāo)阉?,無(wú)需事先得到底庫(kù)人臉照,只需要刷臉即可,在線下門禁、安防、刷臉支付等領(lǐng)域應(yīng)用廣泛。當(dāng)然,不同的業(yè)務(wù)領(lǐng)域中,根據(jù)誤識(shí)的后果,對(duì)人臉?biāo)阉鞯娜蒎e(cuò)性也不一樣;比如在工地人臉識(shí)別中的容錯(cuò)率,就要比在刷臉支付中的容錯(cuò)率要低。
需要說(shuō)明的是,人臉?biāo)阉鞯臏?zhǔn)確率,是要結(jié)合底庫(kù)中人臉照片的數(shù)量來(lái)的,底庫(kù)中人臉照片越多,識(shí)別準(zhǔn)確率越低。
這個(gè)和人一樣,在2~3個(gè)人中,找出你曾經(jīng)認(rèn)識(shí)的人,比較容易;但是上百萬(wàn)個(gè)人,則長(zhǎng)相相似的人也越多,辨識(shí)更困難。目前業(yè)界做的好的一般是百萬(wàn)級(jí)別的人臉庫(kù),識(shí)別準(zhǔn)確率在95%以上。
2. 從工具到社交,娛樂(lè)至上
互娛應(yīng)用,也深深契合著行業(yè)發(fā)展。起初隨著智能手機(jī)興起,人們的自拍分享需求漸漸旺盛,美顏濾鏡,作為與手機(jī)硬件深度結(jié)合的產(chǎn)品,見證著人們變美的時(shí)代,此時(shí),算法主要由第三方算法公司提供。
隨著4G時(shí)代帶來(lái),短視頻社交成為人們生活熱點(diǎn),美顏濾鏡、貼紙也應(yīng)用于各大互娛平臺(tái)中,并成為不可分割的一部分;對(duì)于短視頻內(nèi)容生產(chǎn)者來(lái)說(shuō),甚至已成為核心競(jìng)爭(zhēng)力。
因此,諸如快手、抖音等平臺(tái),都以自研算法,并結(jié)合客戶群畫像,獨(dú)自研發(fā)。
(1)濾鏡美顏
濾鏡是圖像美化中必不可少的步驟, 所謂濾鏡,最初是指安裝在相機(jī)鏡頭前過(guò)濾自然光的附加鏡頭,用來(lái)實(shí)現(xiàn)調(diào)色和添加效果。2008年,美圖一炮而紅,人們發(fā)現(xiàn),原來(lái)濾鏡還可以這么玩,自此,美顏濾鏡開始了從工具到美學(xué)定義者的轉(zhuǎn)變。
早期的傳統(tǒng)算法,主要是先使用人臉特征關(guān)鍵點(diǎn)算法,勾畫有效區(qū)域,然后在不同的區(qū)域進(jìn)行亮度提升、去噪聲等算法,實(shí)現(xiàn)美顏濾鏡。
隨著深度學(xué)習(xí)的興起,研究人員們開始更關(guān)注結(jié)果,設(shè)計(jì)師將原圖P成美化完成后的結(jié)果圖,并用于訓(xùn)練。人們美顏后,究竟想變成什么樣?研究重心也開始偏移。
(2)人臉融合與貼紙
貼紙,人臉融合,則是更高階的玩法。核心還是人臉特征關(guān)鍵點(diǎn),對(duì)于貼紙和人臉融合來(lái)說(shuō),關(guān)鍵點(diǎn)的數(shù)量越多越好,對(duì)齊的越準(zhǔn)確。人臉融合,則是將兩張人臉的關(guān)鍵點(diǎn)進(jìn)行融合。
3.?不斷進(jìn)取,跨越感知智能
人工智能承載了業(yè)界對(duì)于改造世界的期望,一定程度上說(shuō),屬性識(shí)別、視線估計(jì)、GAN等,從感知智能往前更進(jìn)了一步,但是因?yàn)榧夹g(shù)不夠成熟、商業(yè)應(yīng)用領(lǐng)域狹窄等原因,至今未得到大規(guī)模商業(yè)應(yīng)用。
可以說(shuō),視覺(jué)AI想跨越到認(rèn)知智能,AI與AI之間相互融合,依然還有很漫長(zhǎng)的路要走
(1)屬性識(shí)別
年齡、性別,高興、悲傷、憤怒等情緒,獲取用戶更多維的數(shù)據(jù),豐富用戶畫像,用于個(gè)性化推薦、廣告展示等場(chǎng)景,聽著很美好,對(duì)不對(duì)?畢竟在數(shù)據(jù)為王的時(shí)代,數(shù)據(jù)就是價(jià)值。但是,商用化還是存在技術(shù)硬傷,識(shí)別準(zhǔn)確率也就70%左右。
近日,美國(guó)等5名專家,耗時(shí)兩年,查閱1000多項(xiàng)研究,在論文《再論人類情感表達(dá):從人類面部表情辨別情緒的方法論面臨的挑戰(zhàn)》(論文原名為:《Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements》)中表示:人類情緒的表達(dá)方式及其豐富復(fù)雜,很難靠簡(jiǎn)單的面部表情識(shí)別,人們生氣時(shí),在平均不到30%的時(shí)間里他們會(huì)皺眉,故皺眉不等于憤怒,皺眉只是“憤怒”的眾多表達(dá)方式之一。同時(shí),表情和語(yǔ)言、情境的相關(guān)關(guān)系也非常大。
(2)視線估計(jì)
視線估計(jì)與人臉特征關(guān)鍵點(diǎn)比較像,檢測(cè)完人臉之后,再檢測(cè)人眼以及眼球,并鎖定眼球中心等關(guān)鍵點(diǎn)位置,根據(jù)坐標(biāo)來(lái)鎖定視線方向。主要應(yīng)用于課堂上,評(píng)估學(xué)生注意力;
AR VR等新型硬件交互,通過(guò)視線方向,自動(dòng)切換視頻中的位置等;廣告投放,評(píng)估行人對(duì)廣告的注意力;目前而言,市場(chǎng)體系還是比較小,未得到大規(guī)模應(yīng)用。
(3)GAN
GAN全稱為生成對(duì)抗網(wǎng)絡(luò),初衷是生成不存在于真實(shí)世界中的數(shù)據(jù),使得AI具有創(chuàng)造力或者想象力,也是目前AI領(lǐng)域一個(gè)比較熱門的研究方向。
GAN的核心網(wǎng)絡(luò)分為生成器與判別器;生成器負(fù)責(zé)憑空捏造數(shù)據(jù),判別器負(fù)責(zé)判斷數(shù)據(jù)是否是真實(shí)數(shù)據(jù);兩個(gè)核心網(wǎng)絡(luò)相互博弈,直至動(dòng)態(tài)平衡,讓生成的數(shù)據(jù)無(wú)限接近與真實(shí)數(shù)據(jù)。
如圖,隨機(jī)噪聲就是隨機(jī)生成的一些數(shù),也就是GAN生成圖像的源頭。
生成器根據(jù)一串隨機(jī)數(shù)生成一個(gè)假圖像,并用這些假圖去欺騙判別器
而判別器通過(guò)真圖和假圖的數(shù)據(jù)(相當(dāng)于天然的label),進(jìn)行一個(gè)二分類神經(jīng)網(wǎng)絡(luò)訓(xùn)練,并判別輸入的是真圖還是假圖,給出一個(gè)分值。
舉個(gè)例子,真圖是一系列的人臉照。起初,生成器生成的照片,肯定是亂七八糟的,但是判別器會(huì)去判斷打分,告訴生成器,你生成的不是真圖(人臉照),于是生成器根據(jù)深度學(xué)習(xí),反向傳播等,不斷去修改自己的圖片,然后,生成的圖片會(huì)越來(lái)越趨近于真實(shí)人臉,直至動(dòng)態(tài)平衡。
GAN受到關(guān)注,很多原因,比如:
- 本身是無(wú)監(jiān)督的,目前人工智能的絕大部分能夠商業(yè)應(yīng)用算法都是監(jiān)督算法,所謂監(jiān)督算法,就是需要海量的樣本,并進(jìn)行人工標(biāo)注,傳播訓(xùn)練,所以行業(yè)也有“有多少人工,就有多少智能”的調(diào)侃;
- 讓AI具備想象力,比如將模糊圖變清晰(去雨、去霧、去抖動(dòng)、去馬賽克等),能腦補(bǔ)情節(jié) 很多paper都在研究gan的發(fā)展前景。
結(jié)語(yǔ)
任何技術(shù),也都遵循著從技術(shù)發(fā)展—>技術(shù)成熟—>商業(yè)落地的發(fā)展規(guī)律。技術(shù)的池子不斷創(chuàng)新,同時(shí)商業(yè)也從技術(shù)池中,探索合適的技術(shù),改造世界;
人臉識(shí)別作為一項(xiàng)復(fù)合性技術(shù),既擁有現(xiàn)在,同時(shí)也在不斷開拓未來(lái)。雖然困難重重,但前景令人心動(dòng)。
作者:云識(shí)客,公眾號(hào): 云識(shí)客(ID: zhiquysk),立足視覺(jué)AI,專注場(chǎng)景識(shí)別的AI服務(wù)商
本文由 @胡安安 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!