OCR技術(shù)用于在線身份認(rèn)證的運營效果分析

1 評論 4732 瀏覽 11 收藏 18 分鐘

編輯導(dǎo)語:當(dāng)前線上身份認(rèn)證,主要依賴的仍是OCR技術(shù),即光學(xué)字符識別。然而依托于這一技術(shù)的在線身份認(rèn)證服務(wù)過程中,用戶流失可能十分嚴(yán)重,這是為什么呢?本篇文章里,作者就OCR技術(shù)應(yīng)用于在線身份認(rèn)證過程中的運營效果做了分析,一起來看一下。

一、線下的身份認(rèn)證:我國擁有著全球領(lǐng)先的方式

我們在銀行柜臺辦理金融業(yè)務(wù)、入住酒店、高鐵通行、營業(yè)廳購買手機SIM 卡號時,必然需要現(xiàn)場身份認(rèn)證,也就是核驗?zāi)愕纳矸葑C和本人信息。我們只需要掏出身份證,放置在指定的身份證識讀設(shè)備上感應(yīng)一下就可以了,十分便利和安全。

2004年,我國推出二代身份證并大力普及,時至今日應(yīng)該所有國民都已統(tǒng)一更換了。二代身份證中內(nèi)嵌有一枚國密智能芯片,加密存儲了公民的所有基本信息(姓名、性別、民族、出生日期、身份證號、證件照片、家庭住址、簽發(fā)機關(guān)、有效期,合稱為“身份九要素”)。這些加密信息需要通過專用的身份證識讀設(shè)備來解碼讀取,從而同時保證了公民信息的安全和有效。

二代身份證以及身份證識讀設(shè)備的普及發(fā)展,讓我們在需要實名認(rèn)證的各種場合享受到了極大的便利。相比全球其他國家,我國這種人手一張高密安全證件的方式是極其先進的,是我們?nèi)缃衲軌蛳硎苁澜珙I(lǐng)先的便捷生活的堅實基礎(chǔ)。

試想,就算有了世界第一的高鐵技術(shù),如果沒有“刷身份證即可通行”的配套保障,仍然需要每個人去柜臺排隊買票、再到閘機驗票方可上車的話,那何來效率提升呢?有過慘痛排隊經(jīng)驗的人,誰也不想再回到那個時代吧?

從技術(shù)底層來說,我們的二代身份證是一張由國家統(tǒng)一制作的高密級安全芯片,發(fā)到每個人手上也就賦予了這個公民可以“自證身份”的權(quán)利。

在這方面,我國的管理理念和技術(shù)是非常先進的,拿現(xiàn)在流行的話來說,就是很早就采用了去中心化的思維和技術(shù),把信任和便捷最大程度地放到了每個人的手中,只要你手持合法的身份證就可以完全代表你自己,而不需要其他中心化的數(shù)據(jù)庫來驗證。

作為對比,美國等老牌西方國家,至今仍然在用的是基于“社會保障號碼(SSN)”的政府?dāng)?shù)據(jù)庫驗證方式,也就是說,你其實是無法獨立驗證自身“你是誰”的,你所能做的僅僅是記住自己的姓名和 SSN 號碼,然后請求政府?dāng)?shù)據(jù)庫來校驗這些信息是否正確,如果網(wǎng)絡(luò)不好、或者中間過程出了差錯(比如警察作惡、數(shù)據(jù)庫臨時故障等),你就無法證明“你是誰”了。

這兩種方式不能說就一定誰比誰更好了,而是在不同的場景中各有利弊,因此我國其實也具備中心化數(shù)據(jù)庫驗證的公民管理方式。但我們相對獨有的“安全證件”方式,已經(jīng)在國民經(jīng)濟場景中發(fā)揮越來越大的保駕護航作用,構(gòu)成了我國境內(nèi)特有的便利生活服務(wù)。

國外近些年其實也注意到了這個差異,比如法國等歐洲大陸國家就已經(jīng)在加速發(fā)放他們的國民身份證了,而美國在很多服務(wù)場景中其實在推行和使用內(nèi)含芯片的護照來補充傳統(tǒng) SSN 機制的不足。

二、線上的身份認(rèn)證:我們與全球其他國家一樣,仍處于發(fā)展早期,主要依賴于 OCR 技術(shù)

OCR (Optical Character Recognition,光學(xué)字符識別),是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。主要用于將紙質(zhì)文檔中的印刷體文字轉(zhuǎn)換成計算機能夠處理的文本格式,再供文字處理軟件進一步編輯加工。

身份證雖好,卻在我們的生活越來越多得轉(zhuǎn)入線上服務(wù)的過程中遇到了障礙:手機可不是專用身份證識讀設(shè)備,如何才能讀取身份證中的安全芯片信息,從而完成實時的身份認(rèn)證呢?這里很明顯需要一套全新的技術(shù),但是時間不等人,怎么才能服務(wù)當(dāng)下就已經(jīng)如火如荼的數(shù)字經(jīng)濟呢?

當(dāng)前主流的方式是 OCR。

通過手機攝像頭來拍攝身份證照片,再通過 OCR 技術(shù)來提取身份證表面上印刷的文字信息,最終再通過中心化的政府?dāng)?shù)據(jù)庫來驗證這些信息是否正確,若成功則留存用戶的身份證影印件以作后續(xù)審計使用。

將這些流程拼接在一起,就構(gòu)成了完整的 OCR 身份認(rèn)證服務(wù),如果還有特殊需要就再加上人臉識別比對。這就構(gòu)成了我們在“手機無法直接識讀身份證芯片”的過渡時期的標(biāo)準(zhǔn)解決方案,也是當(dāng)前我們在線開展各類需要身份認(rèn)證的業(yè)務(wù)的基礎(chǔ)。

從技術(shù)底層來講,我們暫時放棄了中國相對獨有的“去中心化公民自證”特色,轉(zhuǎn)而使用“中心化政府?dāng)?shù)據(jù)庫”的驗證方式,因此在這一領(lǐng)域,我們與西方國家的很多公司就形成了同頻,可以相互借鑒而共同提升技術(shù),但也共同承受這個技術(shù)帶來的缺陷和管理風(fēng)險,比如:OCR技術(shù)的識別準(zhǔn)確率、人臉識別技術(shù)的準(zhǔn)確率、個人隱私數(shù)據(jù)的保護、政府?dāng)?shù)據(jù)庫的合法合理使用等。

客觀來說,我國在技術(shù)方面絲毫不落后,但是在數(shù)據(jù)的管理和保護層面則差強人意,事實上造成了國內(nèi)的身份數(shù)據(jù)滿天飛的亂象。隨著近期我國《數(shù)據(jù)安全法》、《個人信息保護法》、《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》的發(fā)布和落實,這方面后續(xù)應(yīng)該會有顯著的改善。

接下來,本文不糾結(jié)于 OCR 身份認(rèn)證服務(wù)中的技術(shù)和管理問題,而是轉(zhuǎn)向這個服務(wù)的運營效率問題,即:業(yè)務(wù)流程中引入 OCR 身份認(rèn)證服務(wù)的用戶留存和轉(zhuǎn)化效果。

三、OCR身份認(rèn)證服務(wù)的用戶轉(zhuǎn)化漏斗:不算不知道,算了嚇一跳的驚人損耗

我們來詳細拆解下OCR身份認(rèn)證服務(wù)中的關(guān)鍵步驟:

1)從用戶處獲得身份證圖片,可能從相冊里獲取,也可能直接調(diào)用手機攝像頭實時拍攝。由于個人將身份證照片存儲在相冊中的安全風(fēng)險實在太大,且該方式極其容易造假,因此現(xiàn)在以手機銀行為代表的業(yè)務(wù)方已禁止使用。本文中只分析第二種獲取方式:即調(diào)用手機攝像頭實時拍攝身份證。

2)從身份證圖片中解析出身份要素信息;若無法解析,則回到步驟 1。

3)后臺發(fā)送給某供應(yīng)商提供的“政府?dāng)?shù)據(jù)庫”云端驗證接口,進行信息驗證。若不通過,則回到步驟 1。

對應(yīng)的轉(zhuǎn)化漏斗圖如下:

步驟一的用戶流失率是最嚴(yán)重的,約達 40%:

1)若用戶的身份證不在身邊,將無法完成本流程。這部分用戶約占 20%。要徹底解決的話需要全新的技術(shù)解決方案,比如前些年公安部在試點創(chuàng)新的 eID、CTID 等,但目前來看距離全面的實用化都還很遠,因此可以簡單認(rèn)為短期內(nèi)無解。

2)若拍攝效果不好,也將無法完成本流程。這部分用戶也達到20%。一方面是受光線、拍攝角度、拍攝穩(wěn)定性、攝像頭質(zhì)量等外界客觀影響,導(dǎo)致攝像頭始終無法鎖定聚焦到身份證,另一方面則是因為頁面設(shè)計的易用性問題、軟件bug或網(wǎng)絡(luò)不穩(wěn)定等原因,導(dǎo)致用戶在過程中放棄。這方面應(yīng)該可以有很大的優(yōu)化提升空間。

步驟二的用戶流失率彈性很大,約 10%~30%:

可以簡單地認(rèn)為,該步驟的用戶流失率就幾乎等同于 OCR 識別結(jié)果的錯誤率。因為按照風(fēng)控原則,這一步驟是不能讓用戶手動修正的,否則就失去了身份認(rèn)證的意義了,因此一旦信息識別錯誤最終就只能回到上一步重新來過。

流失率彈性的關(guān)鍵,主要取決于是否需要識別住址信息。

若僅需要識別姓名、身份證號碼乃至身份證有效期,現(xiàn)在業(yè)內(nèi)成熟的 OCR 算法已可做到 85%以上的正確率,最好的據(jù)說能做到 90%。然而如果要準(zhǔn)確識別出身份證上的住址,OCR 的技術(shù)難度則幾何級別增長,經(jīng)常會識別出非法字符。幸運的是,目前除了金融、出行、用工等少數(shù)場景外,對識別住址的需求還并不普遍。

(地址識別為非法字符)

步驟三的用戶流失率,約 5%-10%:

通常來說,只要OCR在第二步中正確識別出身份證信息,就一定可以順利通過“政府?dāng)?shù)據(jù)庫”的校驗。

但實際上,受限于自身的業(yè)務(wù)風(fēng)控規(guī)則(如限制未成年人、特殊年齡的人、黑名單用戶等,通常約 5%),以及第三方供應(yīng)商的數(shù)據(jù)源和服務(wù)穩(wěn)定性等原因(通常不到 5%),會導(dǎo)致部分用戶無法通過。

其中,因業(yè)務(wù)風(fēng)控規(guī)則而產(chǎn)生的用戶損耗是無法避免的,但對第三方供應(yīng)商的質(zhì)量把控則是可以優(yōu)中選優(yōu)。

綜上所述,完整的 OCR 身份認(rèn)證服務(wù)做下來,用戶流失可能會高達 60%(1-0.6*0.7*0.9),極限優(yōu)化后也會高達30%(1-0.8*0.9*0.95),是不是會很驚人?

業(yè)務(wù)還沒真正開始做呢,1/3的用戶已經(jīng)跑去火星了,這還怎么活?

雖然可以通過其他方式把用戶拉回來再試一次,但終究是個讓人害怕的運營黑洞。必須要解決才好。

從關(guān)鍵因素來看,需要解決的要點在于:優(yōu)化拍攝身份證照片這個過程的不確定性,和OCR 識別信息(特別是大段地址信息)的準(zhǔn)確度。如果這兩個過程能夠做到無損,則整個服務(wù)流程的用戶流失率可以降低到75%(1-0.8*1*0.95),而且都是由于純粹的客觀因素而造成的,不會引發(fā)用戶的不滿,或者說對于有價值的用戶,不會產(chǎn)生無謂的損耗。

那這兩個過程解決起來的難度有多大呢?筆者現(xiàn)在還在請教專業(yè)人士,但就目前所聞,并不算樂觀。

四、還有一些值得注意的潛在風(fēng)險:黑天鵝事件隨時會到來

做業(yè)務(wù)不可能完全零風(fēng)險,這是當(dāng)然的。但我們需要知曉風(fēng)險的可能來源,并提前做好一定的準(zhǔn)備,特別是那些涉及到合規(guī)層面的隱患。絕大部分公司在實際設(shè)計和使用 OCR 身份認(rèn)證的流程中,普遍存在如下兩種潛在風(fēng)險:

1. OCR 的識別是否在使用“SaaS 公有云服務(wù)”?

若采購并本地化部署OCR 軟件,那就不存在本條所說的隱患。但是因為價格較高,絕大部分公司還是傾向于選擇第三方供應(yīng)商提供的、按次付費的 SaaS 云服務(wù),這就存在“個人信息保護”的風(fēng)險隱患了。

將用戶的身份證圖片傳輸給這些第三方供應(yīng)商,是否應(yīng)該征得用戶的明確同意呢?但若在流程中加入提示并等待用戶選擇的話,留存轉(zhuǎn)化率是否會更低呢?其實,將用戶信息提交給某某供應(yīng)商提供的“政府?dāng)?shù)據(jù)庫”去校驗,也是同樣的問題。

2. 是否考慮過對身份證圖片的驗真呢?

OCR 技術(shù)說穿了畢竟只是對圖片的識別和計算,如果這個圖片本身就是被惡意偽造的,那 OCR 身份認(rèn)證流程完全是不設(shè)防的(這里我們不考慮再加入人臉識別技術(shù)作為輔助驗證手段,一方面這必然會帶來更高的成本和更低的用戶轉(zhuǎn)化,另一方面人臉識別有自身的適用場景和安全風(fēng)險問題會將本文的主題給帶歪)。

然而又該如何在整個流程中加入反欺詐呢?很不幸,非常之難。如果惡意分子偽造一張身份證,單純使用 OCR 身份認(rèn)證流程是無法辨別出來的,而這種偽造成本也極其低,比如:通過覆膜將身份證上的地址和有效期改掉,或者頭像換掉。

因此,對于金融、政務(wù)、租賃、出行、用工等領(lǐng)域的公司,需要慎重考慮自身被惡意分子盯上的風(fēng)險。

注意,以上兩個潛在風(fēng)險都是由于“身份認(rèn)證”業(yè)務(wù)本身的特殊性所帶來的,而非 OCR 技術(shù)所源生的。

但是,隨著數(shù)字經(jīng)濟的盛行,國際國內(nèi)對傳統(tǒng)業(yè)務(wù)的合規(guī)監(jiān)管也必將延伸到在線業(yè)務(wù)中來,比如 KYC(Know Your Customer)就是通行的準(zhǔn)則,不僅要識別認(rèn)證出正常的用戶,更要防御住少數(shù)惡意分子造成的巨大破壞。

在此背景下,OCR身份認(rèn)證服務(wù)需要考慮的,就不僅僅是流程的順暢了。

五、展望未來:在線身份認(rèn)證過程的用戶轉(zhuǎn)化效果還能提高么?

在本文的結(jié)尾部分,我們可以大膽做出一些“必然”的預(yù)測和與之相關(guān)的疑問:

1)在線身份認(rèn)證在今后的數(shù)字經(jīng)濟中,重要性和必要性只會越來越強,因此當(dāng)前的用戶轉(zhuǎn)化效果是絕對無法滿足業(yè)務(wù)需要的,必須要大幅提升才行。但是這個重任,是否一定由 OCR 身份認(rèn)證來擔(dān)當(dāng)呢?

2)KYC 等監(jiān)管要求的提升,其實是與近年來國際國內(nèi)的網(wǎng)絡(luò)欺詐事件顯著提升有直接關(guān)系的,因此目前看來只會進一步增強。是否有合適的產(chǎn)品,能做到讓各方都滿意的身份防偽造呢?

3)我國極具特色的二代身份證安全芯片,在移動互聯(lián)網(wǎng)已經(jīng)如此盛行的時代真的就無法發(fā)揮其優(yōu)勢么?我們認(rèn)為,這點必然會解決突破的,屆時我國的在線身份認(rèn)證,應(yīng)該可以走出另一條更新、更好的方式來!

如果大家有更好的想法,可以在評論區(qū)告訴我。

 

本文由 @鯨 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 關(guān)于對身份證圖片的驗真有幾點討論:
    – 偽造身份證圖片的情況:(1)僅照片是偽造的,姓名和身份證號真實存在;(2)除照片是偽造外,姓名、身份證號也是偽造的
    – 針對情況(2)可以使用公安部提供的注銷驗真接口,通過【姓名+身份證號】,校驗當(dāng)前公民信息是否存在,不需要增加的用戶操作
    – 針對情況(1)是需要依賴人臉識別的,先進行人臉圖像采集、活體檢測、人像比對(身份證圖像和人臉圖像)輸出高質(zhì)量人臉圖像,再使用公安部的相關(guān)接口,通過【姓名+身份證號+人臉圖像】校驗當(dāng)前公民信息存在。且通過活體檢測基本能保證當(dāng)前為用戶本人操作。

    來自北京 回復(fù)