一個讓風控模型工作如此簡單的決策邏輯
在風控模型的開發(fā)與優(yōu)化中,許多從業(yè)者常常陷入無盡的特征挖掘、標簽調(diào)整和模型迭代中,卻忽略了核心問題:如何高效地提升模型的價值。本文從風控模型的三大痛點出發(fā),指出模型開發(fā)中真正值得投入的優(yōu)化方向,供大家參考。
模型訓(xùn)練,就是模式識別,模型本身是一個復(fù)雜的函數(shù)。模型越復(fù)雜,你就可以理解這個函數(shù)最強,模式識別地越精準。
一個想法值不值得做,你只需要判斷它有沒有信息增益,以及大概有多大,后者尤其重要。建模是其實現(xiàn),想法本身的價值是模型價值的上限。
而判斷一個想法有多大的信息增益,基本都可以在事前,不需要建模去試。
如果你知道這一點,并且掌握基本的事前判斷能力,你的風控模型工作就必然是如此之簡單。
本文要做的就是闡述這兩點。如果此番決策邏輯被清晰地闡述,就必然得出了一個讓很多人羞愧的結(jié)論:如果你做模型做得很忙很累很頭大,不僅不能說明你牛逼你努力,反而說明的是你不懂風控。
很好,我寫了一個很有力的開頭。?
常常引發(fā)無數(shù)模型同學(xué)熬夜加班掉頭發(fā)的困擾,大概都在三點優(yōu)化上:特征、標簽和客群。
我們一個一個說。
一、特征優(yōu)化
開發(fā)新特征、引入新的數(shù)據(jù)源,在已有的特征域上進一步衍生特征,都在此列。這三點優(yōu)化,對模型KS有多大的提升?你可以結(jié)合你的經(jīng)驗思考這個問題。
如果說引入一個新的數(shù)據(jù)維度,模型效果提升10%,那么對該數(shù)據(jù)維度過度衍生特征,其增益還得乘10%。??????????????
例如你引入了銀聯(lián)銀杏分,把它融合進你的A卡模型里,效果提升10%,這是很合理的大致范圍,KS從30變成了33;假如你去銀聯(lián)聯(lián)合建模,定制一個模型,再把它融合進你的A卡模型里,也許KS能更高一點,例如34;假如你嫌棄銀聯(lián)底層變量不夠,你硬要強行衍生更多變量,再建模型,融入A卡,那KS幾乎還是34,可能是34.1、34.3、34.5,絕對不會變成35。????????????
再例如征信數(shù)據(jù),從幾百個變量,衍生到幾千個變量,到幾萬個變量,對KS的提升,頂多有一次10%,很快就邊際遞減到1%,到忽略不計。??????????????????????????
因為信息增量隨著特征數(shù)量邊際遞減。緯度爆炸的價值是那個1%,不是10%。
1%的價值做還是不做?如果不麻煩,當然可以做。但如果這個1%只能用在很小的客群分支上,那就不用做了。
例如,一個很新奇的想法,它可能有點用,但是因為做法過于奇怪,有較大的操作風險,策略最多會在一個特別小的分支流量上應(yīng)用,1%的增益,疊乘一個10%的流量,再加上策略應(yīng)用對模型性能的折損,這個項目你做嗎?
二、標簽優(yōu)化
涉及標簽優(yōu)化的模型工作,主要就是換不同標簽做不同的模型。長期風險表現(xiàn)做一個模型,短期風險表現(xiàn)做一個模型,例如mob12和mob6,甚至mob3、FPD。
既然有長期短期,進一步就有長短期,短期好長期壞怎么辦?是不是要建三個模型????????????????????
長短期、長期、短期,它們有等式關(guān)系,這意味著其中任意兩個的信息量就是全部的信息總量。建兩個模型就等于三個模型,f_長短期=g(f_長期, f_短期),這個g是簡單的,留給策略就好了。
甚至我們還可以這樣理解,短期的壞最壞,長期的壞比短期的壞略好,長期的好最好,二分建模的時候,長期還是短期,無非是二分的gap大小的問題。
長期和短期的信息量也不過是10%這個級別的差異而已。兩個模型相比一個模型,也不過是10%這個級別的增益而已。
基于此邏輯,如果一個模型在一個標簽下好于另一個模型,那就是各種標簽下都好。你不用關(guān)心他們的建模目標是什么。當然,我們說的是一般情況。
從樸道、百行那里給你10個評分產(chǎn)品,你去測試,完全不需要考慮這些產(chǎn)品是基于什么樣的標簽做成的。你只關(guān)心絕對效果及其可靠性,和價格。???????????????????????????
三、客群優(yōu)化
這里主要包括,分客群建模和常規(guī)化的迭代模型,他們本質(zhì)上都是樣本即客群的差異化。??????????
兩個完全不同的客群分別建模是有必有的,例如12%、24%、36%這樣不同定價的客群,例如花唄、借唄這種不同類型的產(chǎn)品。???????????????????????????????????????????????????????????
但如果你沒有資源這樣分別建模的話,你把不同客群的樣本合在一起建模也是可以的。復(fù)雜模型會自動解決樣本差異問題,當你合理增加模型復(fù)雜度,一個模型相比多個模型的信息量的減少會越來越小。
如果你不太相信,我們換一個說法,以樹模型為例:分客群建模可以看作第一層分裂進行了手動分群,合并建模就是留給算法自己分。如果你保證后者的復(fù)雜度和前者一樣,樹深+1或棵樹x2,模型的信息量能有多大區(qū)別??
當然,有別的原因限制你不同產(chǎn)品各自建模,例如它們背后的可衍生特征不一樣,組織架構(gòu)權(quán)責有別。????????????
所以,如果你有多個產(chǎn)品,多個客群,要和某個數(shù)據(jù)源聯(lián)合建模,完全不需要分客群建立多個模型,你只需要合理構(gòu)建你的樣本組合。??????????????
模型迭代也是一樣,其客群差異由時間界定。把新樣本加入進來,不要只要新樣本。該話題我們已經(jīng)討論足夠多了,到此為止吧。如你需要,請看《什么是好迭代》及文中指向的三篇文章。????????????????????????
到了該建立方法論的時候了。
我們的討論有兩個關(guān)鍵詞:信息量和邊際遞減。我們做更多模型的努力,只會帶來邊際遞減的信息增量。
我要借助結(jié)構(gòu)力學(xué)中一階和二階的概念。結(jié)構(gòu)在受力后會產(chǎn)生形變,一般而言結(jié)構(gòu)變形是微小的,可以忽略變形對內(nèi)力分布的影響,這就是一階分析。如果我們考慮形變Δ,結(jié)構(gòu)在承受豎向荷載P時因形變會產(chǎn)生附加彎矩(即P-Δ效應(yīng))從而導(dǎo)致結(jié)構(gòu)進一步變形,這是二階效應(yīng)。??
一階是直接的,二階是間接的;一階是先的,二階是后的;一階是好做的,二階是不好做的……??????
我要總結(jié)的底層邏輯是,模型開發(fā)存在一階效用和二階效用,一階效用值得做,二階效用不值得做。?
一階的增益是你決策的依據(jù),二階不是,二階的價值不是你決策的依據(jù),是你資源過??梢园才鸥傻氖虑?。
當你的業(yè)務(wù)目標,例如余額規(guī)模和風險指標,還有很大差距的時候,你肯定要找一些事情做,但不是什么都有用,去找具備一階效用的事做,不要找二階效用的事做。
如果你業(yè)務(wù)玩不下去了,卻提需求給模型同學(xué)說必須靠你這個二階優(yōu)化,不然業(yè)務(wù)就黃了,那不是壞就是蠢,你應(yīng)該去尋求其他的解決方案。
例如去找更好的流量,去找更有效的三方數(shù)據(jù),不要去做無窮個特征,做無數(shù)個模型。
我見過很多無效的項目,浪費了很多人無數(shù)的時間。那些辛辛苦苦加班熬夜的時間,不僅毫無意義,還起到了反重用:它讓你對工作是如此的厭倦和疲憊,以至于你的成長還不如一天就上八小時可以獲得的那么大。
當你把時間都花在沒有意義的建模試驗和調(diào)優(yōu)上,你不焦慮嗎?對于只有二階效用甚至更高階效用的任務(wù),最好的做法就是拒絕掉這樣的項目。拖黃掉不會有多大的損害,做好了也沒有多大的益處。
不幸的是,大部分團隊,80%的時間都在做只有二階效用的東西,20%在做一階效用。
前面我說:如果你做模型做得很忙很累很頭大,不僅不能說明你牛逼你努力,反而說明的是你不懂風控。好吧,我承認,我太嚴格了。你說你身不由己,但既然如此,何必內(nèi)耗?
再一次強調(diào),經(jīng)驗讓工作更輕松。如果你沒有,你一定心存懷疑,請務(wù)必相信你的懷疑。
我可以下這個斷言:任何人,如果模型工作做得累得要死,都是因為違背了本文所提的決策邏輯。你應(yīng)該知曉這件事情,想清楚這個違背是因為什么,再想辦法改善自己的處境。
最后,讓我們給我們的決策邏輯起一個宏大的口號,就像AI大模型那樣:
Less work, more value.
本文由人人都是產(chǎn)品經(jīng)理作者【雷帥】,微信公眾號:【雷帥快與慢】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!