誰是狼人:模型的建立與應(yīng)用

0 評論 2505 瀏覽 11 收藏 11 分鐘

相信很多小伙伴們都玩過狼人殺的游戲,今天,作者將從狼人殺這款游戲出發(fā),來和大家一起談討下數(shù)據(jù)與模型。

數(shù)據(jù)挖掘1:誰是狼人

玩過狼人殺的小伙伴們知道,狼人殺的魅力就是妥善利用各種信息,并加以推斷,找到狼人玩家。對于新手而言,拿到狼人牌后,多半會顯得緊張、結(jié)巴、語無倫次,甚至直接會在話語中暴露出狼人身份,坐實狼人身份。

而高玩在拿到狼人牌時,會很好隱藏自己身份,使得普通玩家難以判斷。那么問題來了,誰是狼人?

誰是狼人——淺談模型的建立與應(yīng)用

現(xiàn)實中,這樣的“狼人”并不少見。

在信貸場景下,借貸者借錢后可能會惡意逾期不還,成為一個“狼人”。

“引狼入室”是借貸機構(gòu)所不愿見到的,因此他們也想出了一些辦法來識別借貸者的身份,比如人工驗證借貸者的學(xué)歷、收入、征信等信息。一段時間后,機構(gòu)開始頂不住了,借錢的人太多了,審核不過來。而且由于審核方式單一,很多“狼人”巧妙利用各種方式通過審核,繼續(xù)坑錢。

雖然一定程度上可以對審核規(guī)則進行更新,但“狼人”總能找到新的缺口,通過審核。這可愁壞了借貸機構(gòu),這造成的損失誰頂?shù)米“。?/p>

模型本質(zhì)2:機器學(xué)習(xí)

不過,再會玩的狼人都會在言行上透露出狼人的本質(zhì)。他們一言一行中總會給出細微但有價值的信息,積少成多,最終幫助我們揪出他的狼尾巴。只是,我們?nèi)绾卫煤眠@些信息呢?

誰是狼人——淺談模型的建立與應(yīng)用

隨著大數(shù)據(jù)的崛起和機器學(xué)習(xí)的應(yīng)用,借貸場景下的“狼人”開始無所遁形,我們可以掌握其更多維度的信息,幫助我們?nèi)ヅ袛嘟栀J者的好壞身份,比如app安裝偏好、地理位置等信息。

然后合理的運用機器學(xué)習(xí)建模方法,就可以將這些信息妥善利用起來,讓“狼人”露出原形。這可樂壞了借貸機構(gòu),終于有解決辦法啦!

模型3:邏輯與統(tǒng)計的勝利

狼人殺本就是個邏輯推理游戲,需要參與者能夠準確抓住那些有助于我們判斷的信息,并理性、客觀地分析,最后找到狼人。只有這樣,我們才能鍛煉出“神預(yù)言家”的能力,并在不同對局中,都能準確找到“狼人”。

誰是狼人——淺談模型的建立與應(yīng)用

模型的運作就像一個機械化工廠,不同于人工審核(手工作坊)的方式,它更精密、準確,面對海量、多維度、弱特征的信息(如網(wǎng)絡(luò)行為特征、地理信息等)時,仍可以高效率完成判別,大大提高工作效率,并且保證質(zhì)量。

模型基礎(chǔ)之一4:數(shù)據(jù)

紙上得來終覺淺,絕知此事要躬行,光知道玩法是不行的。

要想成為狼人殺推理高手,最重要的就是多玩、多分析。一方面,要進行大量對局,加深我們對狼人殺游戲玩法的理解;另一方面,也要和不同的人對局,獲得足夠多的玩家信息,便于我們了解玩家。

誰是狼人——淺談模型的建立與應(yīng)用

同樣的,模型再好也需要數(shù)據(jù)支撐,數(shù)據(jù)的好壞是決定模型效果的最重要一環(huán)。一般情況下,對于已有的海量數(shù)據(jù),我們都需要進行處理,如填補變量缺失值、組合變量、衍生變量等。

1. 特征篩選

由于狼人殺局內(nèi)信息繁多,我們只需要挑選比較有價值的信息進行分析,場外信息和無關(guān)信息需要過濾,否則會降低我們分析的嚴謹性和可信度,從而不被其他玩家信任,這對于自詡“高玩”的我們肯定是太不能接受了。

誰是狼人——淺談模型的建立與應(yīng)用

游戲尚且如此,建模就更不能馬虎了。建模中,必須要對樣本特征進行嚴格的篩選,把對業(yè)務(wù)上有解釋意義的變量納入模型。

否則,面對你的建模結(jié)果,別人會一臉渴(meng)求(bi)地問:身高怎么就對一個人的逾期率產(chǎn)生了影響?實際操作中,我們會對諸如手機號、設(shè)備所在經(jīng)緯度這樣的變量進行剔除,選擇個人興趣偏好、多頭得分等有解釋意義的變量進入模型。

2. 樣本與標簽選擇

苦練之下,終有所成,我們的狼人殺技術(shù)已經(jīng)相當厲害了。正準備一展才華時,才發(fā)現(xiàn)他們要玩斗地主?;艁y之下,被地主打的落花流水,郁悶難當。

總結(jié)經(jīng)驗,就是先明確要玩什么,再去做準備。

誰是狼人——淺談模型的建立與應(yīng)用

建模也是一樣。我們的建模是基于信貸場景下的。并且,根據(jù)不同的業(yè)務(wù)需求,建模所需準備也不同。對于貸前、貸中和貸后三個場景,我們對于“狼人”的定義和認知也是不同的。

貸前階段,我們不知道借貸者是否是“狼人”,只是用模型去判斷他的身份,避免“引狼入室”,但總會有遺漏;貸中和貸后階段,我們發(fā)現(xiàn)了那些溜進來的“狼人”,這時,就需要對他們壞的程度進行確定,以采取進一步的手段和措施。

這里,發(fā)現(xiàn)“狼人”和判斷“狼人”有多壞需要用到不同維度的信息,這就要求在建模中要選擇同業(yè)務(wù)需求相一致的樣本數(shù)據(jù)。

模型基礎(chǔ)之二5:算法

終于,我們愉快的進行了幾場狼人殺游戲。并且發(fā)現(xiàn),每個人的思考邏輯、分析角度都不太一樣。有的人只根據(jù)當前輪次的發(fā)言進行分析,有的人則傾向于將多輪次的發(fā)言綜合起來分析,也有人選擇劃水,使得分析的結(jié)果也各不相同。

誰是狼人——淺談模型的建立與應(yīng)用

面對同樣的業(yè)務(wù)需求,我們也可采用不同的建模方法。當然,不同建模方法之間互有優(yōu)劣,具體如何采用,需要結(jié)合實際,妥善選擇。信貸建模最為常用的當屬LR,但其在大數(shù)據(jù)應(yīng)用方面稍顯遜色。實際中,我們更傾向于使用GBDT進行建模。

模型評估6:誰是“神預(yù)言家”

愉快的時光總是短暫的,游戲結(jié)束了。但這是否是幾場高質(zhì)量的對局?誰會是那個“神預(yù)言家”?

一般而言,需要通過多次對局、甚至和不同玩家多次對局才能判斷玩家的推斷能力。該玩家在某局推測的準確性多高?是否在不同局中都能保持這樣的準確率?

誰是狼人——淺談模型的建立與應(yīng)用

模型完成后,也需要驗證其準確性和穩(wěn)定性,看它在其他樣本(測試集、跨時間窗口樣本)上的效果是否準確、穩(wěn)定。

如果效果不好,則需要考慮重新調(diào)整樣本(變量再篩選、再組合等)、模型參數(shù),直到模型表現(xiàn)好為止。很多時候,這并不是一蹴而就的事,需要多次反復(fù)進行。

模型之痛7:巧婦難為無米之炊

經(jīng)過廢寢忘食的練習(xí),我們終于成為了狼人殺高手。本以為會在游戲中練就火眼金睛,鏟除狼人,帶領(lǐng)隊友走向勝利,卻發(fā)現(xiàn),己方全是“豬隊友”,身為平民的我,無法獲取足夠信息,導(dǎo)致判斷失誤,痛輸對局?;蛟S此時,我們已經(jīng)不能再玩低端局了。

雖然我們可能對建模方法的使用了如指掌,但沒有足夠有效的數(shù)據(jù),我們也很難訓(xùn)練出一個好的模型。當前雖然是大數(shù)據(jù)時代,但對于很多小微企業(yè)、甚至很多大企業(yè)而言,如何獲得數(shù)據(jù)都是他們所無法解決的痛點,即便掌握優(yōu)秀的建模技能,但缺乏數(shù)據(jù)驗證,也難以做出好的模型。

 

本文由 @融慧金科 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!