互聯(lián)網(wǎng)大數(shù)據(jù)發(fā)展下的信用體系建設(shè)現(xiàn)狀(另附線性回歸模型建模方法)
通過本文,一起來了解下大數(shù)據(jù)發(fā)展下的信用體系建設(shè)現(xiàn)狀。
一、背景及現(xiàn)狀
2015年1月5日,央行印發(fā)《關(guān)于做好個人征信業(yè)務(wù)準(zhǔn)備工作的通知》,要求芝麻信用管理有限公司、騰訊征信有限公司、拉卡拉信用管理有限公司等8家機(jī)構(gòu)做好個人征信業(yè)務(wù)的準(zhǔn)備工作。
2017年4月21日,央行征信局局長萬存知在個人信息保護(hù)與征信管理國際研討會上透露,:綜合判斷,8家進(jìn)行個人征信開業(yè)準(zhǔn)備的機(jī)構(gòu)目前沒有一家合格,在達(dá)不到監(jiān)管標(biāo)準(zhǔn)情況下不能把牌照發(fā)出去。
對于這8家機(jī)構(gòu)存在的問題,每一家機(jī)構(gòu)都想追求依托互聯(lián)網(wǎng)形成自己業(yè)務(wù)的閉環(huán),但每一家信息覆蓋范圍都有限,信息不廣、不全面,導(dǎo)致產(chǎn)品有效性不足,不利于信息共享。
2017年12月4日訊,中國互聯(lián)網(wǎng)金融協(xié)會第一屆常務(wù)理事會2017年第四次會議,審議并通過了協(xié)會參與發(fā)起設(shè)立個人征信機(jī)構(gòu)(簡稱“信聯(lián)”)的事項(xiàng)。“信聯(lián)”由互金協(xié)會與8家個人征信業(yè)務(wù)機(jī)構(gòu)共同發(fā)起成立?!靶怕?lián)”將納入央行征信中心未能覆蓋到的個人客戶金融信用數(shù)據(jù),構(gòu)建一個國家級的基礎(chǔ)數(shù)據(jù)庫,實(shí)現(xiàn)行業(yè)的信息共享,以有效降低風(fēng)險成本。
二、國外信用評分FICO Score
FICO評分系統(tǒng)采集客戶的人口統(tǒng)計(jì)學(xué)信息、歷史貸款還款信息、歷史金融交易信息、人民銀行征信信息等解釋變量。違約率即為被解釋變量。通過邏輯回歸模型計(jì)算客戶的還款能力,預(yù)測客戶在未來一段時間的違約概率。經(jīng)由違約率對應(yīng)的信用分?jǐn)?shù),最終輸出最終分?jǐn)?shù)并確定不同自變量對違約率的影響程度。
- 違約歷史(Payment history),權(quán)重 35%
- 債務(wù)負(fù)擔(dān)(Debt Burden),權(quán)重 30%。
- 信用歷史(Length of credit history),權(quán)重 15%
- 信用種類(Types of credit used),權(quán)重10%。
- 新申請信用(Recent searches for credit),權(quán)重10%。
三、國內(nèi)個人征信業(yè)發(fā)展情況
中國首批8家個人征信公司
芝麻信用管理有限公司:
螞蟻金服旗下,阿里體系;芝麻信用分”于2015年1月28日正式上線;
騰訊征信有限公司:
騰訊旗下;”騰訊信用分“于2017年8月8日上線,目前信用分產(chǎn)品公測中;
北京華道征信有限公司:
銀之杰、北京創(chuàng)恒鼎盛、清控三聯(lián)、新奧資本分別持有北京華道征信40%、30%、15%、15%的股權(quán)。清華控股集團(tuán)持有清控三聯(lián)100%的股權(quán);
中誠信征信有限公司:
隸屬于中國誠信信用管理集團(tuán)(該集團(tuán)成立于1992年,前身是經(jīng)中國人民銀行總行批準(zhǔn)設(shè)立的中國誠信證券評估有限公司)
深圳前海征信中心股份有限公司:
平安旗下全資子公司
中智誠征信有限公司:
董事長是盛希泰,全國青聯(lián)常委并金融界別秘書長,中央國家機(jī)關(guān)青聯(lián)副主席。曾任華泰聯(lián)合證券有限責(zé)任公司董事長;
鵬元征信有限公司:
是中國最早成立的商業(yè)征信機(jī)構(gòu)之一,其最早建設(shè)的“深圳市個人信用征信系統(tǒng)”從2002年8月開始運(yùn)行,目前所能提供的個人和企業(yè)征信服務(wù)已經(jīng)覆蓋全國;
拉卡拉信用管理有限公司:
聯(lián)想系;
中國個人征信業(yè)發(fā)展的三個核心要素
芝麻信用—數(shù)據(jù)來源
- 基本信息:學(xué)歷,單位郵箱,職業(yè)信息,駕駛證
- 資產(chǎn)情況:車輛信息,房產(chǎn)信息,公積金、支付寶賬戶余額
- 信用消費(fèi):信用卡賬單、微貸還款記錄、水電煤繳費(fèi)、罰單
- 消費(fèi)數(shù)據(jù):賬戶活躍度、消費(fèi)層次、繳費(fèi)層次、消費(fèi)偏好
- 信用足跡:花唄履約,螞蟻借唄履約,未來酒店履約
負(fù)面記錄:
- 其他授權(quán)管理
- 人行征信報(bào)告:杭州數(shù)立信息技術(shù)有限公司提供
- 城市信用報(bào)告:杭州市公共信用信息平臺:五險一金,信用記錄,
- 淘寶消費(fèi)行為及銀行征信系統(tǒng);
……
芝麻信用—主要評級要素及模型原理
四、當(dāng)前P2P小額貸款A(yù)PP風(fēng)控模式
- 有數(shù)據(jù)基礎(chǔ)及能力的:自行構(gòu)建自家產(chǎn)品的征信系統(tǒng)用于風(fēng)控;
- 無數(shù)據(jù)基礎(chǔ)及能力的:接入有能力的平臺,(芝麻信用等8家,或同盾等其他反欺詐大數(shù)據(jù)公司);
- 接入央行征信系統(tǒng);
- 接入商業(yè)銀行小額貸款規(guī)則+自家數(shù)據(jù)及黑白名單;
五、引申:風(fēng)控(信用分?jǐn)?shù))模型建立方法
數(shù)據(jù)收集:假設(shè)收集10萬條數(shù)據(jù),每個數(shù)據(jù)包括5*10(5個大類,每類10個指標(biāo))個屬性(樣本空間即屬性空間為50),標(biāo)記信息為:要預(yù)測的變量。(違約率,還款能力)
數(shù)據(jù)清洗及處理:清除非規(guī)范值,缺失值,異常值等。
機(jī)器建模學(xué)習(xí)過程:將數(shù)據(jù)隨機(jī)抽取分成訓(xùn)練集及測試集,其中用以學(xué)習(xí)模型的訓(xùn)練集占85%(8萬5000條),用于驗(yàn)證模型的占15%(1萬5000條)。
邏輯回歸建模:采用邏輯回歸進(jìn)行建模,采用 BIC 的方法選擇模型,通過模型得到每個變量對是否違約的影響系數(shù)。同時歸納出違約用戶及非違約用戶的特征。
衡量模型的預(yù)測效果:采用指標(biāo) ROC(Receiver Operating Characteristic)曲線或者 AUC(Area Under Curve)值等數(shù)據(jù)模型效驗(yàn)邏輯回歸模型結(jié)果。
得出信用分:通過線性變換可以將預(yù)測概率 P 轉(zhuǎn)化為 350 至 900 的用戶得分 Q,Q=X+Y×P。輸入一個新用戶的50個數(shù)據(jù)指標(biāo),從而得出對應(yīng)的預(yù)測概率P,從而得出信用分Q
不斷訓(xùn)練及優(yōu)化模型:用戶不斷的更新新的數(shù)據(jù)指標(biāo),每個指標(biāo)下不斷積累新的數(shù)據(jù)量,同時不斷的新的用戶進(jìn)來。通過新的數(shù)據(jù)訓(xùn)練優(yōu)化邏輯回歸模型。
參考資料:https://cosx.org/2016/05/credit-scoring-model-in-internet-credit-reporting
FICO Score體系詳解:https://www.cnblogs.com/nxld/p/6364341.html
作者:阿發(fā) ,3年互聯(lián)網(wǎng)用戶運(yùn)營/會員運(yùn)營經(jīng)驗(yàn)
本文由 @阿發(fā) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自unsplash,基于CC0協(xié)議
看到標(biāo)題進(jìn)來的,果然是標(biāo)題黨。前面的現(xiàn)狀暫且不論,后面的建模的論述太簡單。1、說的是線性回歸,文章里面,連LR都沒描述;2、數(shù)據(jù)收集,收據(jù)來源,數(shù)據(jù)的定義是什么;3、數(shù)據(jù)清洗和處理,除了你簡單說的,還有數(shù)據(jù)尺度的調(diào)整,比如正太化數(shù)據(jù),標(biāo)準(zhǔn)化數(shù)據(jù)等;4、建模學(xué)習(xí)過程,不是LinearRegresion,怎么又成了LogisticRgegrsion了,并且分離訓(xùn)練數(shù)據(jù)集和評估數(shù)據(jù)集的方式有很多,即便采用你的分離訓(xùn)練數(shù)據(jù)的方法,訓(xùn)練數(shù)據(jù)集和評估數(shù)據(jù)集的比例也存在問題,建議0.67:0.33的比例;5、衡量模型的預(yù)測效果,這個描述問題就更大了,ROC和AUC是評價分類器的指標(biāo),分類器的指標(biāo)… 最近一直在學(xué)習(xí)相關(guān)的東西,不小心多說了一些..
標(biāo)題太大,內(nèi)容太簡單