互聯(lián)網(wǎng)強監(jiān)管下,如何做好風(fēng)控?
?最近幾年,網(wǎng)信辦對互聯(lián)網(wǎng)行業(yè)監(jiān)管趨嚴,重拳打擊了很多涉政治敏感、黃賭毒以及三俗內(nèi)容的產(chǎn)品?;ヂ?lián)網(wǎng)無法外之地,在此背景下,加強公司內(nèi)容安全管控機制,建立完善的內(nèi)容審查制度,構(gòu)建以反垃圾反作弊為核心的風(fēng)控機制和流程顯得尤為重要。
不重視風(fēng)控機制的公司,損失慘重:
重則如頭條系的內(nèi)涵段子直接永久關(guān)停,一個擁有2億注冊用戶日活過千萬,估值幾十億的APP,在一紙監(jiān)管令下灰飛煙滅。如果早點采取風(fēng)控措施,加強用戶審核和ugc內(nèi)容審核,或許可以改寫永久關(guān)停的命運。
輕則被責(zé)令下架整改,封禁賬號:
“2019年4月11日,針對視覺中國網(wǎng)站傳播違法有害信息的情況,天津市互聯(lián)網(wǎng)信息辦公室依法約談網(wǎng)站負責(zé)人,責(zé)令該網(wǎng)站立即停止違法違規(guī)行為,全面徹底整改。”——來源:天津網(wǎng)信辦
本文不談視覺中國侵權(quán)及商業(yè)模式問題,導(dǎo)致監(jiān)管出手的是傳播違法有害信息,為了文章安全暫不放那幾張敏感侵權(quán)照片。
“2019年4月12日,一向受股民喜愛的連股評社區(qū)「雪球」APP也無法幸免,APP被多平臺下架整改7天,發(fā)帖和評論功能暫停,雖然官方回復(fù)是“因系統(tǒng)升級,發(fā)帖評論暫?!?。
2018年12月以來,國家網(wǎng)信辦會同有關(guān)部門,針對涉黃涉賭、惡意程序、違規(guī)游戲、不良學(xué)習(xí)類移動APP開展專項整治行動,關(guān)停下架違法違規(guī)APP33638款,攔截惡意網(wǎng)站鏈接234萬余個,社交平臺清理低俗不良信息2474萬余條、封禁違規(guī)賬號364萬余個,APP亂象得到有效遏制,網(wǎng)絡(luò)生態(tài)持續(xù)向好。”——來源:網(wǎng)信中國
在當(dāng)前互聯(lián)網(wǎng)強監(jiān)管壓力之下,已經(jīng)有很多公司重視風(fēng)控,比如:頭條和快手都擴招了幾千人專門做內(nèi)容審核,如何有效提升風(fēng)控水平,降低風(fēng)控成本,是風(fēng)控產(chǎn)品經(jīng)理的新課題。
下面重點聊三個話題:三大風(fēng)險、兩大審核機制、六大風(fēng)控產(chǎn)品。
一、三大風(fēng)險
根據(jù)風(fēng)險標的及場景不同,這類內(nèi)容型產(chǎn)品的風(fēng)險主要分為三類:賬號風(fēng)險、內(nèi)容風(fēng)險和數(shù)據(jù)隱私風(fēng)險。
1. 賬號風(fēng)險
主要從虛假用戶識別、惡意注冊以實名認證等維度設(shè)計風(fēng)控策略。
賬戶體系風(fēng)控是攔截羊毛黨黑產(chǎn)的第一道關(guān)口,某些創(chuàng)業(yè)公司為刷數(shù)據(jù)融資,私下里會和羊毛黨串聯(lián)起來刷注冊量、刷訂單以及活躍度等指標。這是飲鴆止渴的做法,不在本文討論范圍內(nèi)。
2. 內(nèi)容風(fēng)險
主要從牌照、版權(quán)等資質(zhì)條件,以及文字、圖片以及視頻三大維度的進行風(fēng)險管控。
傳統(tǒng)媒體從事新聞資訊和視頻節(jié)目,需要有《互聯(lián)網(wǎng)新聞信息服務(wù)許可證》、《網(wǎng)絡(luò)視聽節(jié)目許可證》等牌照,是否具備相關(guān)牌照也是平臺內(nèi)容風(fēng)險的一部分。
道路千萬條,合法經(jīng)營第一條。經(jīng)過這么多年發(fā)展,以頭條和一點資訊為代表的聚合類資訊平臺已經(jīng)解決了牌照問題,版權(quán)問題也不再是障礙。
內(nèi)容本身的文字、圖片和視頻是風(fēng)險管控的重點。
以頭條為代表的資訊聚合平臺本身不產(chǎn)生新聞資訊,但是通過算法平臺進行分發(fā)觸達消費者,一樣需要承平臺應(yīng)有的責(zé)任。雖然頭條通過收購曲線拿到視頻牌照,解決了牌照風(fēng)險。但是短視頻爆發(fā)得太快,如何在牌照庇護下做好視頻內(nèi)容管控,是頭條類企業(yè)面臨的新課題。
上文中,引發(fā)監(jiān)管出手的主要是內(nèi)容風(fēng)險——即APP里出現(xiàn)政治敏感詞匯、黃賭毒或者不當(dāng)時政新聞內(nèi)容。
在發(fā)展初期,APP用戶少的時候還能進行用戶審查和內(nèi)容管控,隨著用戶爆發(fā)式增長。在推崇算法至上的企業(yè)里,天真認為技術(shù)是中立的,算法無罪,任由大量黃賭毒垃圾內(nèi)容飼養(yǎng)算法和用戶,最終走向失控的局面。
在人工智能和算法為王的信息時代,還是要為算法劃一道底線,知道安全邊界在哪里。
同時,「人工」的作用不可小覷,在頭條和快手里出現(xiàn)了很多代表中央聲音的部級媒體大號,ai算法在人的干預(yù)下,給與了置頂權(quán)限和流量傾斜,以便傳播時代聲音,弘揚社會正能量。
3. 數(shù)據(jù)和隱私風(fēng)險
包括爬蟲反作弊機制、數(shù)據(jù)加密和防黑客攻擊等技術(shù)風(fēng)險防范。
時間回放5年前,頭條剛起來的時候被幾大媒體圍攻,頭條爬蟲無授權(quán)抓取其他媒體平臺內(nèi)容到自家平臺,涉嫌侵權(quán)違規(guī)。這在一定程度上暴露了傳統(tǒng)媒體對內(nèi)容信息保護不夠,反爬蟲能力不強的弱點。
網(wǎng)貸市場上有很多針對天貓、京東和點評商戶的貸款產(chǎn)品,這些企業(yè)通過爬取天貓、京東和美團的商戶數(shù)據(jù)去做營銷或者貸款服務(wù),電商平臺的數(shù)據(jù)反爬機制建設(shè)任重道遠。
電商場景的風(fēng)控除了數(shù)據(jù)反爬取,更多是營銷風(fēng)險,以后文章詳細介紹。
最后,用戶在平臺進行注冊填寫了個人信息,平臺有責(zé)任保護用戶隱私數(shù)據(jù)不被泄露,每年網(wǎng)上都有爆出某某平臺用戶數(shù)據(jù)泄露在黑市交易。在與黑產(chǎn)對抗的過程中,平臺要投入資源加強風(fēng)控安全體系,做好反爬蟲反作弊措施。
二、兩大審核機制
審核機制包括:系統(tǒng)自動過濾和人工審核兩大模塊。
針對商戶bgc和用戶ugc平臺,首先使用系統(tǒng)自動過濾敏感內(nèi)容,系統(tǒng)無法有效識別判斷的在進行人工審核,這是常用的用戶和內(nèi)容審核風(fēng)控流程。
在UGC機制上, 有以下幾種策略進行風(fēng)控控制:免登錄發(fā)言、注冊登錄后發(fā)言、匿名發(fā)言、實名認證后發(fā)言、賬號粉絲/注冊時間超過一定限制才能發(fā)言、專家身份認證后發(fā)言、直播聊天室主持人控麥發(fā)言等維度。
目前大部分平臺都要求注冊登錄通過手機號認證后發(fā)言,手機號注冊通過后,借助運營商渠道完成弱實名認證,這也是視頻、社交類平臺主流的賬號體系實名模式。手機號弱實名認證有很多漏洞,平臺的反作弊風(fēng)控策略攔截效果一般。
黑產(chǎn)羊毛黨手中專門提供手機號的卡商,貓池卡池養(yǎng)幾千萬張卡,很容易弄到一套低成本的手機號實名信息。網(wǎng)絡(luò)水軍和職業(yè)差評師是這類黑產(chǎn)卡商的大客戶。地下黑產(chǎn)羊毛黨產(chǎn)業(yè)鏈有嚴密的分工流程和組織體系,留在以后文章詳細介紹。
如果涉及交易支付環(huán)節(jié),銀行卡四要素實名是安全性更高的實名認證模式,作弊成本比手機號實名高幾倍,但是這只在電商平臺才用得到。ugc類平臺為了降低發(fā)帖門檻保證用戶體驗,很少要求強實名認證。
從用戶注冊登錄,到發(fā)布新聞資訊、評論和視頻等內(nèi)容,主要的審核環(huán)節(jié)包括:昵稱、頭像、實名、ugc產(chǎn)生的資訊文章、鏈接、圖片和視頻。
新聞資訊、評論和視頻點播要求貫徹先審后播的政策。這類產(chǎn)品形態(tài)可以執(zhí)行【事前預(yù)防/審核-事中及時阻斷-事后復(fù)核追溯】的完整風(fēng)控流程。
對于直播,只能做到【事中及時阻斷——事后復(fù)核追溯】,所以直播類應(yīng)用面臨的挑戰(zhàn)更大,更需要嚴把主播資質(zhì)審核關(guān)口,避免出現(xiàn)直播中出現(xiàn)「黃鱔門」這種涉黃涉暴力事件,直到輿情爆發(fā)直播平臺才后知后覺介入收拾爛攤子。
在審核流程上,有以下幾種風(fēng)控處理機制:
- 刪除敏感文章、圖片和視頻:常見于很多微信公眾號作者,容易被河蟹。
- 對用戶禁言,禁言時間根據(jù)嚴重程度設(shè)定:常見于社交平臺和聊天室。
- 永久封禁賬號,銷號處理,對于平臺來說這是比較嚴重的處罰,比如:咪蒙。
- 鏈接屏蔽,比如微信屏蔽抖音和其他一些有風(fēng)險的短視頻的URL鏈接,對微信來說是一種風(fēng)險策略。這里不談競爭關(guān)系。
三、六大風(fēng)控產(chǎn)品
面對三大風(fēng)險和兩大審核機制,需要采用如下六大風(fēng)控產(chǎn)品:設(shè)備指紋、滑塊驗證、實名認證、黑名單庫、敏感詞庫、半監(jiān)督機器學(xué)習(xí)算法,共同構(gòu)建強大的反作弊反垃圾智能風(fēng)控平臺加以應(yīng)對。
1. 設(shè)備指紋
設(shè)備指紋是指:可以用于唯一標識出該設(shè)備的設(shè)備特征或者獨特的設(shè)備標識,可以精準識別設(shè)備,識別風(fēng)險設(shè)備,對設(shè)備進行聚集性、相似度等綜合分析 。
設(shè)備指紋主要包括如下信息:設(shè)備IMEI碼、Android_ID、序列號、SIM卡號等,是反作弊反欺詐風(fēng)控模型的重要變量,這些是暗面數(shù)據(jù),不需要用戶填寫即可完成采集。
用戶感知層面,如果在常用手機上開通了支付寶免密支付,正常環(huán)境下是可以支持使用的。
如果換一個設(shè)備,或者地理環(huán)境、網(wǎng)絡(luò)環(huán)境發(fā)生變更后,需要輸入密碼或者手機驗證碼重新進行安全校驗,就是因為設(shè)備指紋信息變了,觸發(fā)了支付寶風(fēng)控規(guī)則。
2. 滑塊驗證
滑塊驗證屬于驗證碼的一種,是人機識別反作弊的關(guān)鍵一環(huán),主要用在新用戶注冊、登錄以及風(fēng)控引擎判斷為風(fēng)險操作的環(huán)節(jié)。
很多政府網(wǎng)站可以免登錄查詢相關(guān)數(shù)據(jù),比如:企業(yè)信用信息公示系統(tǒng)。為了防止被爬蟲大量爬取數(shù)據(jù),也會增加驗證碼環(huán)節(jié),提高數(shù)據(jù)爬取成本。
簡單的數(shù)字驗證碼、圖形驗證碼容易被爬蟲攻破,前幾年網(wǎng)上比較火的12306的圖形識別驗證碼被很多用戶吐槽難以識別,但也是可以利用深度學(xué)習(xí)算法破解的。筆者也曾做過相關(guān)爬蟲產(chǎn)品,難點在于需要持續(xù)維護成本,驗證碼策略變更或者網(wǎng)站改版都需要優(yōu)化代碼。
目前最難攻破的應(yīng)該是復(fù)雜的滑塊驗證碼,對爬蟲算法要求較高,人工智能投入不劃算。
機智的產(chǎn)品經(jīng)理想到了最簡單的辦法:人肉破解驗證碼——人工打碼平臺。羊毛黨把需要識別的驗證碼通過api接口傳給打碼平臺,打碼平臺把驗證碼分發(fā)給很多網(wǎng)絡(luò)上的兼職眾包人員,人工識別出結(jié)果后返給羊毛黨,完成了驗證碼的人工破解。
3. 實名認證
實名分為弱實名和強實名,弱實名一般指校驗姓名+身份證號碼,通過運營商手機號驗證即可,此種方案默認運營商已經(jīng)做過實名。
單獨的姓名+身份證號碼一致性校驗,接口成本不到1毛錢,市場上比較通同的是國政通。
強實名最常見的就是銀行卡四要素校驗:姓名+身份證號碼+銀行卡號+銀行預(yù)留手機號,通過綁卡即可完成實名認證,校驗要素越多,實名認證約可靠,因為提高了羊毛黨作弊成本。
除了自然人實名,很多有商戶入駐的平臺還有企業(yè)實名,比如:天貓京東的第三方pop商戶入駐。
五證合一后,企業(yè)實名主要校驗三證:工商營業(yè)執(zhí)照、稅務(wù)登記證、組織機構(gòu)代碼證。
同時,為了確保安全,可以要求企業(yè)上傳銀行開戶許可證、法人身份證件等信息作為增信資料。三證合一換領(lǐng)了統(tǒng)一社會信用代碼證的,校驗統(tǒng)一社會信用代碼和企業(yè)名稱、法人姓名以及法人身份證號是否一致,即企業(yè)四要素驗證。
市面上很多這樣的校驗接口,在京東萬象數(shù)據(jù)超市可以找到,成本比個人實名貴,企業(yè)四要素接口大概一塊錢一次。
4. 黑名單
黑名單是比較常見的風(fēng)控產(chǎn)品,具體細分類型有:失信名單、金融疑似欺詐、信貸不良、多頭申請和地址黑名單等維度??梢苑e累自身數(shù)據(jù)源,加上市面上第三方提供的黑名單數(shù)據(jù),做多重驗證。
對于內(nèi)容型產(chǎn)品,主要用于在賬號注冊環(huán)節(jié),可以根據(jù)手機號、身份證號碼、以及設(shè)備id維度交叉驗證查詢黑名單,在源頭自動攔截羊毛黨黑產(chǎn)入駐。
5. 敏感詞庫
敏感詞庫用于過濾ugc內(nèi)容,通過NLP自然語言分析是否有敏感內(nèi)容,實現(xiàn)系統(tǒng)自動過濾,主要針對文字內(nèi)容。
如果為了防止誤殺,還可以在敏感詞上面加一層過濾詞,命中敏感詞的系統(tǒng)自動刪除。
命中過濾詞的做風(fēng)險提示,有人工介入處理決定是否刪除。對于重視評論和發(fā)帖的論壇,封殺風(fēng)控策略過嚴會影響某些部門的KPI完成。
對于圖片形式的過濾,比如:頭像,以及視覺中國事件里,創(chuàng)始人柴繼軍回應(yīng)的圖片上傳審核有問題,可以使用ocr識別技術(shù)自動識別圖片內(nèi)容,然后結(jié)合機器學(xué)習(xí)算法和相關(guān)數(shù)據(jù),判定圖片是否違規(guī)。
對于小公司,如果沒有圖像識別開發(fā)實力,可以采購圖片鑒黃違規(guī)識別接口,單次成本不到一毛錢,為了避免廣告嫌疑,此處不再粘貼接口鏈接地址。
6. 半監(jiān)督學(xué)習(xí)算法(Semi-Supervised Learning,簡稱SSL)
隨著人工智能的發(fā)展,機器學(xué)習(xí)算法廣泛應(yīng)用到智能風(fēng)控領(lǐng)域。
算法是需要數(shù)據(jù)飼養(yǎng)的,根據(jù)數(shù)據(jù)樣本是否標記,分為:監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)三種算法模型。
監(jiān)督學(xué)習(xí)數(shù)據(jù)樣本全部需要人工標注,成本較高并且數(shù)據(jù)量級有限。無監(jiān)督學(xué)習(xí)使用無標注數(shù)據(jù)樣本進行機器學(xué)習(xí),不便于提升學(xué)習(xí)效果。
人們嘗試將大量的未標注數(shù)據(jù)樣本加入到有限的有標注數(shù)據(jù)樣本中一起訓(xùn)練來進行學(xué)習(xí),期望能對學(xué)習(xí)性能起到改進的作用,由此產(chǎn)生了半監(jiān)督學(xué)習(xí)算法SSL。
目前介紹了常用的六個風(fēng)控產(chǎn)品,在復(fù)雜的風(fēng)控架構(gòu)里肯定還有很多沒有提到的新產(chǎn)品新技術(shù),后續(xù)有新的發(fā)現(xiàn)再補上。
反作弊反垃圾風(fēng)控體系建設(shè)是一項長期復(fù)雜的工程,風(fēng)控在強大,也難免有黑產(chǎn)羊毛黨找到漏洞入侵。風(fēng)控的本質(zhì)不是要100%消除風(fēng)險,而是要在一定成本下最大限度控制風(fēng)險減少損失。
非金融級的風(fēng)控資源投入取決于每個公司對風(fēng)險的重視程度,在互聯(lián)網(wǎng)強監(jiān)管時代,很多內(nèi)容型公司都加大對風(fēng)控的投入,以降低公司整體運營風(fēng)險。
后續(xù)會推出金融風(fēng)控產(chǎn)品系列,金融風(fēng)控?zé)o法覆蓋的裂縫,一般通過建立風(fēng)險保障基金解決盜刷賠付風(fēng)險問題。
本文由人人都是產(chǎn)品經(jīng)理專欄作家 @劉國宏(微信公眾號:iwifi) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理 。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash, 基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!