如何學(xué)習(xí)風(fēng)控?我的知識(shí)架構(gòu)
不少初入門風(fēng)控的人可能會(huì)有些疑惑,如果想更深層地學(xué)習(xí)風(fēng)控的相關(guān)知識(shí),應(yīng)該怎么做?如何才能更好地理解風(fēng)控的底層邏輯?本篇文章里,作者嘗試結(jié)合自身經(jīng)驗(yàn),分享了他有關(guān)風(fēng)控學(xué)習(xí)知識(shí)體系搭建的部分經(jīng)驗(yàn),一起來(lái)看一下。
寫這篇文章是因?yàn)橐恢币詠?lái)都有一些朋友問(wèn)我,怎么學(xué)風(fēng)控。
- “最近剛開(kāi)始學(xué)習(xí)下風(fēng)控方面的知識(shí),但是對(duì)其中的一些原理不是特別懂,請(qǐng)問(wèn)有什么好的建議?”
- “我是商科背景的,想轉(zhuǎn)行做數(shù)據(jù)風(fēng)控,想咨詢一些入行經(jīng)驗(yàn)?”
- “我是運(yùn)營(yíng)崗,一直想轉(zhuǎn)去做大數(shù)據(jù)風(fēng)控,但是找那些資料看總不知道到底在干嘛,無(wú)法入門怎么辦?”
這種問(wèn)題每次都讓我敲字無(wú)力,不知道怎么回答。
我知道我寫的這些文章從來(lái)不是為了風(fēng)控入門服務(wù)的,想入門風(fēng)控的朋友最需要的是現(xiàn)成的工具,是標(biāo)準(zhǔn)化的流程和代碼,我都沒(méi)有展開(kāi)寫。
我的目標(biāo)從來(lái)不是寫一些東西,供讀者朋友們 ctrl+c、ctrl+v,而是希望有人閱讀的過(guò)程中發(fā)現(xiàn)自己在思考,哪怕就那么一會(huì)兒。
我覺(jué)得學(xué)習(xí)最有效的階段是,建立了基礎(chǔ)認(rèn)知之后,往知識(shí)架構(gòu)里添磚加瓦查漏補(bǔ)缺的時(shí)候。從 0 到 1 太難了,從 1 到 10 沒(méi)那么難。
對(duì)風(fēng)控感興趣,想從 0 開(kāi)始學(xué)的人,我的經(jīng)驗(yàn)文章可能并沒(méi)有什么用,那我試試寫一篇基礎(chǔ)邏輯,看看能不能讓這些朋友們看到骨架。
一、風(fēng)控的范圍很大
只要有交易就有風(fēng)險(xiǎn)。想想別人找你借錢時(shí)你的心路歷程吧,可太怕了。人都不喜歡和自己不了解的人交朋友,更不喜歡和不知道的人做交易。
“有內(nèi)鬼,終止交易”。內(nèi)部人尚且如此,陌生人不能不防。
互聯(lián)網(wǎng)業(yè)務(wù)中你從來(lái)不知道你服務(wù)的對(duì)象是什么人,它天然就需要做風(fēng)控。ToB 的業(yè)務(wù)如果是大客戶,你可能還會(huì)線下有過(guò)往來(lái)接觸,ToC 的根本就不可能。
可以說(shuō)互聯(lián)網(wǎng)的業(yè)務(wù)有多大,風(fēng)控的范圍就有多大。
以我在的互聯(lián)網(wǎng)金融業(yè)務(wù)為例,業(yè)務(wù)上肯定希望吸引更多的用戶,給更多的人授信,提供更高的額度,最后又能有更低的逾期,從而有最大的收益。但規(guī)模要大,就要下沉,額度高的,風(fēng)險(xiǎn)又更高。風(fēng)控就是要在各個(gè)環(huán)節(jié)上,例如,市場(chǎng)營(yíng)銷—>申請(qǐng)審批—>賬戶管理—>催收處置等,把高風(fēng)險(xiǎn)用戶識(shí)別出來(lái)特殊對(duì)待。
不僅信貸,營(yíng)銷活動(dòng)要攔截“羊毛黨”,刷單控評(píng)的行為要攔截,黃牛黨也要防控,垃圾注冊(cè)刷訪問(wèn)、關(guān)注的要防控,就現(xiàn)在這篇文章,也要被檢測(cè)看看符不符合原創(chuàng),有沒(méi)有涉政、涉黑、涉黃。無(wú)所不包。
二、個(gè)體不重要,群體才重要
做風(fēng)控的目標(biāo)不是為了 0 風(fēng)險(xiǎn)。你不能把所有存在風(fēng)險(xiǎn)的客戶都拒絕掉,你也做不到這一點(diǎn),因?yàn)槊總€(gè)人每筆交易都存在風(fēng)險(xiǎn),程度問(wèn)題。
你不能說(shuō)一個(gè)芝麻分 600 分的人,比一個(gè) 800 分的人差,個(gè)體符合測(cè)不準(zhǔn)原理。但是你可以說(shuō),六百多分的這群人沒(méi)有八百多分的那群人好,這是對(duì)的,群體是測(cè)得準(zhǔn)的。
風(fēng)控不關(guān)注個(gè)體,1w 個(gè)人申請(qǐng),你通過(guò)了 3k 人,不是說(shuō)這 3k 里的每個(gè)人都是會(huì)準(zhǔn)時(shí)還款的。實(shí)際上是,你把這 1w 人按風(fēng)險(xiǎn)排序分成 10 組,每個(gè)群組里計(jì)算收益率,風(fēng)險(xiǎn)排序足夠好的話,這 10 組的收益率是單調(diào)的,收益率為 0 作為分界線,你取出了其中前 3 組。實(shí)操中,不必真的算收益率,逾期率好算的多,也不必用 0 作為分界線,取一個(gè)業(yè)務(wù)上合理的閾值就可以了。
你從來(lái)沒(méi)有關(guān)注過(guò)個(gè)體,而這卻是對(duì)的。
所以你常常會(huì)見(jiàn)過(guò),風(fēng)控把一些正常行為攔截了,例如反復(fù)讓你校驗(yàn)驗(yàn)證碼、刷臉失敗、交易被拒絕、投保被拒等。
三、最重要的是數(shù)據(jù)
主流銀行貸款是需要提供很多很多信息的,在哪工作、收入、學(xué)歷、家庭情況、征信記錄等等,銀行對(duì)你的了解比你的親朋好友還多得多。如果你有貸款買房經(jīng)歷就知道了。
移動(dòng)互聯(lián)網(wǎng)改變了世界。你的客戶是不是人你都說(shuō)不準(zhǔn),你的客戶就是數(shù)據(jù)。y=f(x),你只有 x,沒(méi)有 y。
那么你需要什么數(shù)據(jù)呢?你想知道一個(gè)人會(huì)不會(huì)還錢,顯然需要知道他想不想還錢,需要知道他有沒(méi)有能力還錢。
離這些信息越近的數(shù)據(jù)越有效。而幾乎所有的數(shù)據(jù)都是有效的,又一個(gè)程度問(wèn)題。收入高不高、學(xué)歷怎么樣、安裝了哪些 app、跟什么人通話,等等,幾乎一切都有用。
我們不需要 y 標(biāo)識(shí)每個(gè)人,我們不是用 X 來(lái)預(yù)測(cè)用戶的身份證號(hào),我們只需要評(píng)估一個(gè)人會(huì)不會(huì)還錢。
四、因果關(guān)系很難,但相關(guān)關(guān)系很容易
上面隨意列出的數(shù)據(jù),你都不敢說(shuō)因?yàn)樵趺礃铀栽趺礃?。這個(gè)人收入很高,所以不會(huì)逾期,這個(gè)邏輯如果是對(duì)的,那高收的人都要通過(guò),低收的人都要拒絕。是收入高的這群人,整體風(fēng)險(xiǎn)偏低。
前者說(shuō)的是因果關(guān)系,后者是相關(guān)關(guān)系。我們從來(lái)不能很好地解釋,這群人逾期的原因是什么。我們擅長(zhǎng)計(jì)算,這群人具備這些特性,他們的逾期水平比較高。
用數(shù)據(jù)去定義一個(gè)人,尤其是移動(dòng)互聯(lián)網(wǎng)時(shí)代,用海量的數(shù)據(jù)去定義一個(gè)人,我們找的是相關(guān)關(guān)系。數(shù)據(jù)維度非常多,數(shù)據(jù)分布非常稀疏,但因?yàn)槟阏业氖且粋€(gè)相關(guān)關(guān)系,問(wèn)題就變得可解,或者說(shuō)容易解。
1000 個(gè)相關(guān)變量找出來(lái)的風(fēng)險(xiǎn)度量,就很可靠,不容易被攻擊。而不是捏造一個(gè)高收數(shù)據(jù),就可以獲得一筆貸款。
世界上不是所有有道理的事情都是因果關(guān)系的。
五、策略模型的工作其實(shí)很簡(jiǎn)單
選擇一批樣本,也就是歷史用戶,定義出他們的好壞標(biāo)簽,也就是打上 label,關(guān)聯(lián)到他們的數(shù)據(jù)信息,也就是匹配特征,選用一個(gè)成熟的算法,也就是 xgb,訓(xùn)練一個(gè)模型,輸出一個(gè)概率對(duì)用戶進(jìn)行排序。建模工作就完成了。
圖像分類的經(jīng)典問(wèn)題貓狗識(shí)別,是識(shí)別一張圖片是貓是狗,我們也是用一個(gè)人的數(shù)據(jù)信息,識(shí)別一些東西。當(dāng)然,我們不是識(shí)別是人非人,而是識(shí)別是不是一個(gè)“好人”。
應(yīng)用時(shí),獲取用戶申請(qǐng)時(shí)的那些數(shù)據(jù)信息,用訓(xùn)練得到的模型,計(jì)算出用戶的風(fēng)險(xiǎn)概率,參考?xì)v史用戶的風(fēng)險(xiǎn)水平,做出拒絕還是通過(guò)的決策。這就是策略應(yīng)用了。
模型開(kāi)發(fā)時(shí)我們總在關(guān)心模型效果,但當(dāng)模型開(kāi)發(fā)完后,最重要的是穩(wěn)定性。沒(méi)有策略會(huì)盯著模型分的變動(dòng)反復(fù)調(diào)整閾值的。有問(wèn)題的信息千萬(wàn)不要用。監(jiān)控一切容易,響應(yīng)一切難。
簡(jiǎn)而言之,言而簡(jiǎn)之,風(fēng)控就是用你能拿到的信息綜合計(jì)算出一個(gè)風(fēng)險(xiǎn)度量。
所以風(fēng)控的這些工作,無(wú)非是去拿信息、去加工信息、去計(jì)算風(fēng)險(xiǎn)、去找到一個(gè)盡可能優(yōu)的方程式。
六、結(jié)語(yǔ)
最好情況是到這兒時(shí),你發(fā)現(xiàn)風(fēng)控就是這么回事了,然后你會(huì)去想:
- y 需要怎么定義呢;
- 能接入哪些數(shù)據(jù)呢;
- 風(fēng)控模型怎么建呢;
- 有哪些模型要建呢;
- 策略又怎么制定呢;
- 什么時(shí)候做風(fēng)控呢;
- ……
等等。而這些,其實(shí),我都已經(jīng)寫過(guò)了。
知識(shí)體系的構(gòu)建,就跟蓋房子是一樣的,框架形成后,往里面填充必備的組件,忽然就變得容易又可控。
希望上面的一些邏輯思考,能給一些朋友一點(diǎn)啟發(fā)。當(dāng)然了,我自己也是小白,認(rèn)知不可能全面,互相學(xué)習(xí)而已。
專欄作家
雷帥,微信公眾號(hào):雷帥快與慢,人人都是產(chǎn)品經(jīng)理專欄作家。風(fēng)控算法工程師,懂點(diǎn)風(fēng)控、懂點(diǎn)業(yè)務(wù)、懂點(diǎn)人生。始終相信經(jīng)驗(yàn)讓工作更簡(jiǎn)單,繼而發(fā)現(xiàn)風(fēng)控讓人生更自由。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!