風(fēng)險三方數(shù)據(jù)管理的HeadFirst
三方數(shù)據(jù)希望能夠解決自己的部分工作事務(wù),以留出更多的時間來處理其他事務(wù)。那么關(guān)于三方數(shù)據(jù)該如何進(jìn)行管理呢?需要注意一些什么問題?本文梳理了相關(guān)工作流程,分享了三方數(shù)據(jù)掃盲貼,希望對你有所幫助。
日常工作過于繁瑣,以至于感覺自己又從產(chǎn)品轉(zhuǎn)型成商務(wù)了。所以就三方數(shù)據(jù)管理希望交出部分工作以解放其余工作的時間。常規(guī)風(fēng)控系統(tǒng)、應(yīng)用的討論,至少在人人都是產(chǎn)品經(jīng)理上,已經(jīng)涉及了決策引擎、大數(shù)據(jù)平臺等,但如果就三方數(shù)據(jù)的日常管理作為一項(xiàng)單獨(dú)工作的討論較少。
在《征信業(yè)務(wù)管理辦法》實(shí)施近一年,“過渡期”越來越短的當(dāng)前,三方數(shù)據(jù)管理應(yīng)當(dāng)可以單獨(dú)設(shè)置一個篇幅來討論日常的工作流程。此文既作為對接手三方數(shù)據(jù)部分工作的同事的掃盲貼,也作為自己這項(xiàng)工作的總結(jié),以供同行討論批評。
一、《征信業(yè)務(wù)管理辦法》相關(guān)
2022年后的三方數(shù)據(jù)管理,是繞不開此辦法的出臺及執(zhí)行的。此管理辦法共計八章53條,共計4800字左右,預(yù)計十五分鐘左右可以閱讀完。其也是基于原征信業(yè)管理辦法、之前試點(diǎn)八家征信機(jī)構(gòu)的實(shí)際,所出臺的。網(wǎng)上有諸多解讀,不再贅述,挑選幾個我個人覺得比較重要的點(diǎn)摘錄解讀。
第三條 本辦法所稱征信業(yè)務(wù),是指對企業(yè)和個人的信用信息進(jìn)行采集、整理、保存、加工,并向信息使用者提供的活動。
本辦法所稱信用信息,是指依法采集,為金融等活動提供服務(wù),用于識別判斷企業(yè)和個人信用狀況的基本信息、借貸信息、其他相關(guān)信息,以及基于前述信息形成的分析評價信息。
相較于八家征信機(jī)構(gòu)試點(diǎn)期間的情況,當(dāng)時對于“個人信息”,及“個人征信信息”,是缺乏一個明確的界定的,大都特指一些多頭借貸數(shù)據(jù),以及在各種不同的機(jī)構(gòu)中借款的借貸信息等。至于如行程軌跡信息,支付信息等,我個人理解在之前是從未明確說明是否為“信用信息”的。根據(jù)本辦法的解讀,個人理解“只要用于金融活動”,即可稱為“信用信息”。即“信用信息”的內(nèi)涵被擴(kuò)大。
第五條 金融機(jī)構(gòu)不得與未取得合法征信業(yè)務(wù)資質(zhì)的市場機(jī)構(gòu)開展商業(yè)合作獲取征信服務(wù)。本辦法所稱金融機(jī)構(gòu),是指國務(wù)院金融管理部門監(jiān)督管理的從事金融業(yè)務(wù)的機(jī)構(gòu)。地方金融監(jiān)管部門負(fù)責(zé)監(jiān)督管理的地方金融組織適用本辦法關(guān)于金融機(jī)構(gòu)的規(guī)定。
第五十條 以“信用信息服務(wù)”“信用服務(wù)”“信用評分”“信用評級”“信用修復(fù)”等名義對外實(shí)質(zhì)提供征信服務(wù)的,適用本辦法。
此條基本上堵死了所有原三方數(shù)據(jù)公司的路,使其不得不轉(zhuǎn)型。所有持牌金融機(jī)構(gòu)不得與百行、樸道之外的機(jī)構(gòu)合作。不論之前的名義與形式如何,此兩條與上述第三條結(jié)合,基本上框死了三方數(shù)據(jù)機(jī)構(gòu)、征信機(jī)構(gòu)及應(yīng)用方的位置。
第十二條 征信機(jī)構(gòu)采集個人信用信息應(yīng)當(dāng)經(jīng)信息主體本人同意,并且明確告知信息主體采集信用信息的目的。依照法律法規(guī)公開的信息除外。
第二十三條 信息使用者應(yīng)當(dāng)采取必要的措施,保障查詢個人信用信息時取得信息主體的同意,并且按照約定用途使用個人信用信息。
此兩條規(guī)定了采集方和使用方雙方的一個要求。即采集方需要獲得授權(quán),同時使用方也得獲得授權(quán)?;谝陨先齻€部分,金融機(jī)構(gòu)使用任何信息應(yīng)用于金融業(yè)務(wù),都需要通過百行、樸道進(jìn)行,即所謂的數(shù)據(jù)”斷直連”。
二、三方數(shù)據(jù)掃盲
1. 三方數(shù)據(jù)是平常買的菜
常規(guī)的量化風(fēng)控決策,上游大體是核心系統(tǒng)、CRM系統(tǒng),推送的客戶信息由路由分解給人工審批或量化引擎(也存在量化引擎判斷’存疑’的客戶再推送給人工審批的可能)。決策引擎收到客戶信息后,結(jié)合數(shù)據(jù)集市、標(biāo)簽管理平臺(衍生變量計算平臺)、風(fēng)控模型管理平臺,對客戶的是否為黑名單進(jìn)行判斷,對客戶的綜合評分判斷是否準(zhǔn)入。
三方數(shù)據(jù)參與數(shù)據(jù)集市及標(biāo)簽管理平臺,乃至作為一個入?yún)⑴c模型的管理和變更。如果其他系統(tǒng)平臺是鍋碗瓢盆的話,三方數(shù)據(jù)更類似于每天要去菜市場采買的菜。
一個常規(guī)的策略做飯過程為:客戶->基礎(chǔ)核驗(yàn)->涉法核驗(yàn)->反欺詐評估->多頭借貸情況評估->評分定價評估->自有模型評估。每個環(huán)節(jié)都需要不同數(shù)據(jù)產(chǎn)品參與。
2. 市場上都有什么菜
就三方數(shù)據(jù),在淺薄的認(rèn)知中沒有一個權(quán)威的指導(dǎo)標(biāo)準(zhǔn)。結(jié)合近兩年的工作,大體整理如下。在此沒有包含人行征信數(shù)據(jù),人行征信數(shù)據(jù)是一個不斷完善的整體畫像,不能單純的歸為哪類。需要單獨(dú)說明的,是“其他”類的數(shù)據(jù),關(guān)于反洗錢的名單、貸后管理的情況及學(xué)生身份確認(rèn),不甚清楚是只有持牌機(jī)構(gòu)會被監(jiān)管機(jī)構(gòu)關(guān)注到,還是全行業(yè)均有同樣的需求和問題。
不論各家公司產(chǎn)品描述的如何花里胡哨,但是分類上是一定能劃分進(jìn)如下的分類的。誠然,不同的公司在技術(shù)實(shí)力、數(shù)據(jù)源獲取能力上,有一定的差異,但是在穿透過去的原始數(shù)據(jù)源中,一定仍然是那些信息。
因此在之前的三方數(shù)據(jù)引入中,曾經(jīng)想過全數(shù)據(jù)類型制霸。但介于種種原因,最后并未完成。定性認(rèn)知上覺得可能效果不錯的三方支付通道的支付數(shù)據(jù),也因?yàn)榉N種原因沒有完全覆蓋。
曾經(jīng)設(shè)想過,因?yàn)榻鹑诮灰卓倸w會體現(xiàn)在賬戶余額變動上,如果可以合理合法地獲取用戶基于銀聯(lián)、網(wǎng)聯(lián)、三方支付(支付寶、微信、平安付)的全部評分,很可能能做出來一個干凈的客戶畫像,但因?yàn)殡y度太大而作罷。希望百行、樸道入場后,有一天可以基于這個想法來談?wù)劷?jīng)驗(yàn)。
核驗(yàn)類的數(shù)據(jù)均來源于權(quán)威數(shù)據(jù)源,這個“權(quán)威”是指,公安一所三所、銀聯(lián)、及三大運(yùn)營商。市面上所提供此類驗(yàn)證服務(wù)的,原始數(shù)據(jù)源也只可能是這幾家權(quán)威數(shù)據(jù)源。‘增信類’核驗(yàn),社保相關(guān)評分、工作公司驗(yàn)證除金保信外,似乎沒有其他可輸出的權(quán)威數(shù)據(jù)源。車輛信息,歷史有部分險司或者導(dǎo)航公司輸出過。公積金信息據(jù)了解至今未完全地全國聯(lián)網(wǎng),各家數(shù)據(jù)源也是只能輸出部分信息。
其他商業(yè)險、增信保險出險情況等,了解到也只有銀保信在輸出。
風(fēng)險名單類整體分為兩個部分,一是金融機(jī)構(gòu)的黑名單,如各公司自行積累的,歷史逾期超過一定時間的客戶情況,另如歷史在P2P頻繁借款及逾期的客戶情況;另外二是公檢法類的黑名單,如客戶被起訴、被執(zhí)行、乃至涉及犯罪的信息。就實(shí)際感受來講,這部分黑名單從定性上來說,確實(shí)可以理解其“風(fēng)險性”。
但是沒有條件,也不敢,也未曾見過其他機(jī)構(gòu)去測試,稍微放寬一下要求后,整體的不良率表現(xiàn)如何。消費(fèi)金融或小貸公司,本身就面對著下沉客戶,用黑名單歷史框死客戶,是否會導(dǎo)致之后的客戶做無可做。
評分是各家公司主要輸出的產(chǎn)品。不論名稱多么花里胡哨,按業(yè)務(wù)流程上只分為綜合、反欺詐、貸中三類。至于貸后評分,因?yàn)橛懻摰闹饕菧?zhǔn)入側(cè)的問題,就沒有納入。當(dāng)然各家公司也可以與輸出方進(jìn)行聯(lián)合建模,單獨(dú)列出來是想說明其特殊性。
各類評分就如同碳水雕花。評分有其顯著的優(yōu)點(diǎn),如不需要過多去研究內(nèi)在邏輯和關(guān)聯(lián)性,測試起來簡單明了,基本上跑一遍LR,大體會有一個初步的結(jié)果。但其顯著的缺點(diǎn)也是這個,以前討論LR/xgb+boost等方法的優(yōu)缺點(diǎn)時,經(jīng)常會說到,LR的變量具有清晰地解釋性,但xgb方法,經(jīng)常跑的結(jié)果莫名其妙。
但是評分這類產(chǎn)品,LR的解釋性優(yōu)勢也當(dāng)然無存。但是某種意義上來說,“如非必要,勿增實(shí)體”的原則,在評分類產(chǎn)品中我個人理解是做的不太好的。經(jīng)??梢钥匆娭T多公司提供長篇累牘汗牛充棟的評分產(chǎn)品。但測試起來相關(guān)性肉眼可見的高,對產(chǎn)品的增益也非常的接近。這就純屬浪費(fèi)使用方時間了。
變量、標(biāo)簽、畫像與評分實(shí)際上是沒有刀琢斧砍的清晰的分界線的。與評分的差異,在于其字段名稱中,就業(yè)務(wù)上可以提供一些信息,如某字段的名稱叫做“客戶近一個月xx行為的分級”,就可以多提供一些業(yè)務(wù)上的信息,比揉成一坨的評分要稍微強(qiáng)些。
畫像提供的變量,基本上可以滿足自行建模的需求了,當(dāng)然實(shí)際使用中也就會開始存在“你不知道為什么這個變量有用,但他就是有用”的情況。
3. 怎么去買菜
在《辦法》執(zhí)行后,一開始我盼望著以后買菜,只需要找比如百行的郝芳晨、雷國軍,以及樸道的陶乾幾位厲害的老師。
但實(shí)際執(zhí)行下來,基于三方數(shù)據(jù)從一開始就有的幾個痛點(diǎn),如①數(shù)據(jù)公司的數(shù)據(jù)源所提供的數(shù)據(jù),與你的客戶不可能完全重疊,即覆蓋率一定會有問題 ②百行樸道所覆蓋的數(shù)據(jù)源也是不斷完善,而不是已經(jīng)覆蓋了全行業(yè)的所有數(shù)據(jù) ③另,每個公司策略實(shí)施的實(shí)踐是不一樣的。假如同行業(yè)的策略組都想做個“四喜丸子”,在其他公司的策略都是紅燒的做法的時候,你是攔不住本公司的策略組結(jié)合
實(shí)際想做醋溜四喜丸子的。因此,在買菜之前,還是有一些流程要進(jìn)行。
(1)三方數(shù)據(jù)公司的選擇
針對實(shí)際原始的數(shù)據(jù)源公司,首先是有些唯一的排他性規(guī)則。即如果公司沒有客戶對其的清晰授權(quán),不接;公司與樸道百行沒有完成合作,不接。在過渡期到明年6月都截止的情況下,現(xiàn)在還去新增接入一些合規(guī)上可能有瑕疵的公司,是可能存在問題的。當(dāng)然,這部分的兩條要求其實(shí)可以簡化為一條,即實(shí)際接入還是得通過百行樸道,由監(jiān)管授權(quán)的征信機(jī)構(gòu)對數(shù)據(jù)合規(guī)性進(jìn)行審查即可。
(2)菜的選擇
接入什么數(shù)據(jù),其實(shí)主要還是看目前策略模型執(zhí)行過程中,缺少哪些數(shù)據(jù)。這些是因公司,而且因策略實(shí)施而變化的。一個數(shù)據(jù)公司敢做這部分業(yè)務(wù),且活過三年,自有其可取之處。也不必踩高捧低。
(3)數(shù)據(jù)的測試
按我執(zhí)行的實(shí)際,在接入三方數(shù)據(jù)之前,是需要進(jìn)行初步的一些評估的,從流程整體最優(yōu)的角度,這也是為了減少不必要的合同簽署及流程對法務(wù)及綜合同事的壓力。這一部分也需要結(jié)合數(shù)據(jù)產(chǎn)品實(shí)際情況去做。在下面篇幅中再行展開。
(4)過會、采購、合同簽署
執(zhí)行的實(shí)際中,因牽涉費(fèi)用等問題,三方數(shù)據(jù)的測試引入是需要經(jīng)過會議審議和采購流程的。這些不同公司實(shí)際情況不同,按下不表。
(5)日常對賬、開票、付款等
4. 科技與狠活
三方數(shù)據(jù)既然作為一種“菜”,自然也存在美化造假的可能,這里稍微展開說一下幾個常規(guī)的科技與狠活。
結(jié)果造假:既然談到數(shù)據(jù)測試,則數(shù)據(jù)測試就存在抽樣的問題,但抽樣的客戶,一定是貸后行為已經(jīng)表現(xiàn)了的。理論上我們需要測試回溯所以也就存在一種可能性,即利用貸后情況對三方數(shù)據(jù)的效果進(jìn)行一些’調(diào)整’。
這樣的調(diào)整,其實(shí)是會讓使用方誤解產(chǎn)品的實(shí)際效果的。就實(shí)際效果而言,KS15-18的產(chǎn)品,是最令人放心的,10-15的產(chǎn)品,感覺效果一般,10以下的產(chǎn)品,又根本沒辦法寫測試報告。但是KS超過20的產(chǎn)品,就應(yīng)該開始謹(jǐn)慎。至于KS40以上的產(chǎn)品,我個人理解只有理論可能。但與單純的批評這樣的行為來說。
實(shí)際上可以多想一步,既然此產(chǎn)品可以更快地發(fā)現(xiàn)客戶的貸后行為,或者基于現(xiàn)有數(shù)據(jù)能將KS做的非常高。那么反過來想,這個公司的產(chǎn)品,可能可以考慮在貸中使用。
效果衰減:三方數(shù)據(jù)是存在衰減的可能性的。假如最上游的數(shù)據(jù)產(chǎn)生了變化,或者在與欺詐客戶的攻防中,欺詐團(tuán)體調(diào)整了自己的策略?;蛘邌渭兊淖约旱漠a(chǎn)品特質(zhì)、客群發(fā)生了變化;再或者就是三方數(shù)據(jù)源,基于成本考慮,在使用過一段時間后,對產(chǎn)品的上游數(shù)據(jù)源進(jìn)行了變更;都會導(dǎo)致效果的衰減。因此,三方數(shù)據(jù)也是需要定期的再次評估。
三、什么是好的三方數(shù)據(jù)
這部分純屬一些基礎(chǔ)概念展示掃盲,在其他的文章及其他的網(wǎng)站上,都有大量的展示,建議已經(jīng)了解的直接跳過。
1. 評估三方數(shù)據(jù)的流程
大部分經(jīng)驗(yàn)貼中都在強(qiáng)調(diào)量化指標(biāo)的評估,但三方數(shù)據(jù)評估的上下游也直接決定評估效果。
從流程上講,大體有:結(jié)合業(yè)務(wù)情況抽取樣本->提交測試流程->對產(chǎn)品進(jìn)行初步評估->通過模型對所有數(shù)據(jù)產(chǎn)品進(jìn)行綜合評估
2. 抽樣的注意事項(xiàng)
在抽樣過程中,基于目前現(xiàn)有的,測試樣本只能支持2萬到3萬的現(xiàn)狀。建議還是有針對性的進(jìn)行選擇。選擇具體的場景和業(yè)務(wù),而不是雨露均沾的全隨機(jī)抽樣。至于黑樣本量的占比,目前實(shí)際會設(shè)置占比10%左右。這部分如果有同業(yè)有更好的建議,也希望斧正。
3. 評估
在量化指標(biāo)之前,日常評估和分析的過程中,首先要對返回結(jié)果的分布進(jìn)行觀察。
根據(jù)大數(shù)定律,如果抽樣整體比較均勻,不考慮黑樣本的情況下,則分?jǐn)?shù),也應(yīng)當(dāng)服從正態(tài)或者偏態(tài)分布。考慮到不良率是做的,則分?jǐn)?shù)應(yīng)當(dāng)服從一定的雙峰分布。如果分布上就比較詭異,這個產(chǎn)品可能效果也不佳。
另外,盡管量化的指標(biāo)可以評估效果。但是理論上講,如果是連續(xù)的分?jǐn)?shù)評分的話,從高到低應(yīng)該有足夠的單調(diào)性,這也是在分箱的過程中就需要觀察的。
如分布不佳,單調(diào)性也不佳,即使總的IV好看,也是不能使用的。
如何評估一個三方數(shù)據(jù)是否優(yōu)秀,有哪些量化的指標(biāo)?數(shù)學(xué)部分建議直接翻CSDN。
(1)覆蓋率
三方公司提供的數(shù)據(jù)產(chǎn)品,與客群之間是存在一定的差異的。理論上講,產(chǎn)品的覆蓋率就不應(yīng)該是100%。其他量化指標(biāo)與覆蓋率需要綜合來看情況。如果覆蓋率只有40%、50%,即使IVKS較高,但可能實(shí)際使用上也有問題。
(2)黑名單準(zhǔn)確度
針對黑名單類產(chǎn)品。預(yù)測逾期的/實(shí)際逾期的+預(yù)測不逾期的/實(shí)際不逾期的。用來評估黑名單類產(chǎn)品好壞。
(3)KS
KS(Kolmogorov-Smirnov):KS用于模型風(fēng)險區(qū)分能力進(jìn)行評估, 指標(biāo)衡量的是好壞樣本累計分部之間的差值。
好壞樣本累計差異越大,KS指標(biāo)越大,那么模型的風(fēng)險區(qū)分能力越強(qiáng)。人話:MAX(累計壞客戶 – 累計好客戶)。
(4)WOE/IV
WOE的全稱是“WeightofEvidence”,即證據(jù)權(quán)重。WOE是對原始自變量的一種編碼形式。分箱后做一些處理。
pyi是這個組中響應(yīng)客戶(風(fēng)險模型中,對應(yīng)的是違約客戶,總之,指的是模型中預(yù)測變量取值為“是”或者說1的個體)占所有樣本中所有響應(yīng)客戶的比例,pni是這個組中未響應(yīng)客戶占樣本中所有未響應(yīng)客戶的比例,#yi是這個組中響應(yīng)客戶的數(shù)量,#ni是這個組中未響應(yīng)客戶的數(shù)量,#yT是樣本中所有響應(yīng)客戶的數(shù)量,#nT是樣本中所有未響應(yīng)客戶的數(shù)量。
人話:iv即在該分箱內(nèi),這個數(shù)據(jù)在多大的程度上解釋“現(xiàn)象”。
(5)PSI
檢驗(yàn)變量的穩(wěn)定性,當(dāng)一個變量的psi值大于0.0001時,變量不穩(wěn)定。一個變量,將它的取值按照分位數(shù)來分組一下,每一組中測試模型的客戶數(shù)占比減去訓(xùn)練模型中的客戶數(shù)占比再乘以這兩者相除的對數(shù),就是這一組的穩(wěn)定性系數(shù)psi,然后變量的psi系數(shù)就是把這個變量的所有組的psi相加總起來。
人話:這個產(chǎn)品在這個月的客戶上厲害,但是下個月會不會出現(xiàn)差異的評估。
(6)貢獻(xiàn)度等
在此就不做展開了
以評分產(chǎn)品舉例,日常初步評估的代碼實(shí)例:
— coding: utf-8 —
import numpy as np
import pandas as pd
data_test=pd.read_excel(“”)
data_test.shape
data_test.info()
data_test.head(10)
eda=data_test.describe()
path=”
bin=分箱數(shù)#no1.缺失及覆蓋率
miss_rate=data_test.isnull().sum()
miss_rate=miss_rate.reset_index()
miss_rate=miss_rate.rename(columns={‘index’:’varname’,0:’miss_num’})
miss_rate[‘miss_rate’]=miss_rate[‘miss_num’]/樣本量
miss_rate.to_excel(path)#no2.黑名單標(biāo)簽類的準(zhǔn)確性
verify_true = data_test[((data_test[‘blackflag’]==1)&(data_test[”]==1)) | ((data_test[‘blackflag’]==0)&(data_test[”]==1))]
print(verify_true.shape)#no3.整體相關(guān)性
df_new=data_test.drop([‘cust_name’,’id_no’,’mobile’,’blackflag’],axis=1)
corr=df_new.corr()
corr.to_excel(“path”)#no4.IV
def cal_iv(data,cut_num,feature,target):
data_cut=pd.qcut(data[feature],cut_num,duplicates=’drop’)
cut_group_all=data[target].groupby(data_cut).count()
cut_y=data[target].groupby(data_cut).sum()
cut_n=cut_group_all-cut_y
df=pd.DataFrame()
df[‘sum’]=cut_group_all
df[‘bad_count’]=cut_y
df[‘good_count’]=cut_n
df[‘bad_rate’]=df[‘bad_count’]/df[‘bad_count’].sum()
df[‘good_rate’]=df[‘good_count’]/df[‘good_count’].sum()
df[‘woe’]=np.log(df[‘bad_rate’]/df[‘good_rate’])
df[‘iv’]=df[‘woe’]*(df[‘bad_rate’]-df[‘good_rate’])
df.replace({np.inf:0,-np.inf:0},inplace = True)
iv=df[‘iv’].sum()
print(feature,’IV’,iv)
df.to_excel(“path/{}.xlsx”.format(feature))
return(feature,iv)
column_list=df_new.columns.tolist()
df_iv_result=[]
for i in column_list:
df_iv_result.append(cal_iv(data_test,bin,i,’blackflag’))
data_iv=pd.DataFrame(df_iv_result)
data_iv=data_iv.rename(columns={0:’feature’,1:’iv’})
data_iv.to_excel(“path”)#no5.KS
def cal_ks(data,cut_num,feature,target):
data_cut=pd.cut(data[feature],cut_num)
cut_group_all=data[target].groupby(data_cut).count()
cut_y=data[target].groupby(data_cut).sum()
cut_n=cut_group_all-cut_y
df=pd.DataFrame()
df[‘sum’]=cut_group_all
df[‘bad_count’]=cut_y
df[‘good_count’]=cut_n
df[‘bad_rate’]=df[‘bad_count’]/df[‘bad_count’].sum()
df[‘good_rate’]=df[‘good_count’]/df[‘good_count’].sum()
df[‘good_rate_sum’]=df[‘good_rate’].cumsum()
df[‘bad_rate_sum’]=df[‘bad_rate’].cumsum()
df[‘ks’]=abs(df[‘good_rate_sum’]-df[‘bad_rate_sum’])
ks=df[‘ks’].max()
print(feature,’KS:’,ks)
df.to_excel(“path/{}.xlsx”.format(feature))
return(feature,ks)
df_ks_result=[]
for i in column_list:
a = list(cal_ks(data_test,bin,i,’blackflag’))
df_ks_result.append(a)
data_ks=pd.DataFrame(df_ks_result)
data_ks=data_ks.rename(columns={0:’feature’,1:’ks’})
data_ks.to_excel(“path”)
注意,path,分箱數(shù)需要指定。根據(jù)經(jīng)驗(yàn),分箱越多,可能ks/iv越高。
四、結(jié)語
關(guān)于是否三方數(shù)據(jù)相應(yīng)問題,其實(shí)還想展開說幾個討論。
如通過百行、樸道的三方數(shù)據(jù)引入,應(yīng)當(dāng)通過單一來源還是公開招標(biāo)。三方數(shù)據(jù)的初步評估,比較簡單無腦,是否可以作為數(shù)據(jù)管理運(yùn)營平臺的一個功能去處理。以及百行樸道之后,多頭的數(shù)據(jù)是否
有了新的解決方案等?;蛘邩I(yè)務(wù)斷直連和三方數(shù)據(jù)斷直連到底銜接順序和關(guān)系如何。
限于篇幅問題,而且這些問題并沒有標(biāo)準(zhǔn)的答案,就此打住吧。
本文由 @肥柴周 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!