中文无码热在线视频，日韩国产精品久久午夜夜伦鲁鲁，国产五月天一区二区，无码h视频精品免费播放，国产精品久久福利cao，精品久久久久无码字幕，久久亚洲欧美性，亚洲a∨激情综合五月

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

誰是狼人：模型的建立與應(yīng)用

融慧金科

2019-02-02

0 評論 2505 瀏覽 11 收藏

11 分鐘

相信很多小伙伴們都玩過狼人殺的游戲，今天，作者將從狼人殺這款游戲出發(fā)，來和大家一起談討下數(shù)據(jù)與模型。

數(shù)據(jù)挖掘1：誰是狼人

玩過狼人殺的小伙伴們知道，狼人殺的魅力就是妥善利用各種信息，并加以推斷，找到狼人玩家。對于新手而言，拿到狼人牌后，多半會顯得緊張、結(jié)巴、語無倫次，甚至直接會在話語中暴露出狼人身份，坐實狼人身份。

而高玩在拿到狼人牌時，會很好隱藏自己身份，使得普通玩家難以判斷。那么問題來了，誰是狼人？

誰是狼人——淺談模型的建立與應(yīng)用

現(xiàn)實中，這樣的“狼人”并不少見。

在信貸場景下，借貸者借錢后可能會惡意逾期不還，成為一個“狼人”。

“引狼入室”是借貸機構(gòu)所不愿見到的，因此他們也想出了一些辦法來識別借貸者的身份，比如人工驗證借貸者的學(xué)歷、收入、征信等信息。一段時間后，機構(gòu)開始頂不住了，借錢的人太多了，審核不過來。而且由于審核方式單一，很多“狼人”巧妙利用各種方式通過審核，繼續(xù)坑錢。

雖然一定程度上可以對審核規(guī)則進行更新，但“狼人”總能找到新的缺口，通過審核。這可愁壞了借貸機構(gòu)，這造成的損失誰頂?shù)米“。?/p>

模型本質(zhì)2：機器學(xué)習(xí)

不過，再會玩的狼人都會在言行上透露出狼人的本質(zhì)。他們一言一行中總會給出細微但有價值的信息，積少成多，最終幫助我們揪出他的狼尾巴。只是，我們?nèi)绾卫煤眠@些信息呢？

誰是狼人——淺談模型的建立與應(yīng)用

隨著大數(shù)據(jù)的崛起和機器學(xué)習(xí)的應(yīng)用，借貸場景下的“狼人”開始無所遁形，我們可以掌握其更多維度的信息，幫助我們?nèi)ヅ袛嘟栀J者的好壞身份，比如app安裝偏好、地理位置等信息。

然后合理的運用機器學(xué)習(xí)建模方法，就可以將這些信息妥善利用起來，讓“狼人”露出原形。這可樂壞了借貸機構(gòu)，終于有解決辦法啦！

模型3：邏輯與統(tǒng)計的勝利

狼人殺本就是個邏輯推理游戲，需要參與者能夠準確抓住那些有助于我們判斷的信息，并理性、客觀地分析，最后找到狼人。只有這樣，我們才能鍛煉出“神預(yù)言家”的能力，并在不同對局中，都能準確找到“狼人”。

誰是狼人——淺談模型的建立與應(yīng)用

模型的運作就像一個機械化工廠，不同于人工審核（手工作坊）的方式，它更精密、準確，面對海量、多維度、弱特征的信息（如網(wǎng)絡(luò)行為特征、地理信息等）時，仍可以高效率完成判別，大大提高工作效率，并且保證質(zhì)量。

模型基礎(chǔ)之一4：數(shù)據(jù)

紙上得來終覺淺，絕知此事要躬行，光知道玩法是不行的。

要想成為狼人殺推理高手，最重要的就是多玩、多分析。一方面，要進行大量對局，加深我們對狼人殺游戲玩法的理解；另一方面，也要和不同的人對局，獲得足夠多的玩家信息，便于我們了解玩家。

誰是狼人——淺談模型的建立與應(yīng)用

同樣的，模型再好也需要數(shù)據(jù)支撐，數(shù)據(jù)的好壞是決定模型效果的最重要一環(huán)。一般情況下，對于已有的海量數(shù)據(jù)，我們都需要進行處理，如填補變量缺失值、組合變量、衍生變量等。

1. 特征篩選

由于狼人殺局內(nèi)信息繁多，我們只需要挑選比較有價值的信息進行分析，場外信息和無關(guān)信息需要過濾，否則會降低我們分析的嚴謹性和可信度，從而不被其他玩家信任，這對于自詡“高玩”的我們肯定是太不能接受了。

誰是狼人——淺談模型的建立與應(yīng)用

游戲尚且如此，建模就更不能馬虎了。建模中，必須要對樣本特征進行嚴格的篩選，把對業(yè)務(wù)上有解釋意義的變量納入模型。

否則，面對你的建模結(jié)果，別人會一臉渴（meng）求（bi）地問：身高怎么就對一個人的逾期率產(chǎn)生了影響？實際操作中，我們會對諸如手機號、設(shè)備所在經(jīng)緯度這樣的變量進行剔除，選擇個人興趣偏好、多頭得分等有解釋意義的變量進入模型。

2. 樣本與標簽選擇

苦練之下，終有所成，我們的狼人殺技術(shù)已經(jīng)相當厲害了。正準備一展才華時，才發(fā)現(xiàn)他們要玩斗地主?；艁y之下，被地主打的落花流水，郁悶難當。

總結(jié)經(jīng)驗，就是先明確要玩什么，再去做準備。

誰是狼人——淺談模型的建立與應(yīng)用

建模也是一樣。我們的建模是基于信貸場景下的。并且，根據(jù)不同的業(yè)務(wù)需求，建模所需準備也不同。對于貸前、貸中和貸后三個場景，我們對于“狼人”的定義和認知也是不同的。

貸前階段，我們不知道借貸者是否是“狼人”，只是用模型去判斷他的身份，避免“引狼入室”，但總會有遺漏；貸中和貸后階段，我們發(fā)現(xiàn)了那些溜進來的“狼人”，這時，就需要對他們壞的程度進行確定，以采取進一步的手段和措施。

這里，發(fā)現(xiàn)“狼人”和判斷“狼人”有多壞需要用到不同維度的信息，這就要求在建模中要選擇同業(yè)務(wù)需求相一致的樣本數(shù)據(jù)。

模型基礎(chǔ)之二5：算法

終于，我們愉快的進行了幾場狼人殺游戲。并且發(fā)現(xiàn)，每個人的思考邏輯、分析角度都不太一樣。有的人只根據(jù)當前輪次的發(fā)言進行分析，有的人則傾向于將多輪次的發(fā)言綜合起來分析，也有人選擇劃水，使得分析的結(jié)果也各不相同。

誰是狼人——淺談模型的建立與應(yīng)用

面對同樣的業(yè)務(wù)需求，我們也可采用不同的建模方法。當然，不同建模方法之間互有優(yōu)劣，具體如何采用，需要結(jié)合實際，妥善選擇。信貸建模最為常用的當屬LR，但其在大數(shù)據(jù)應(yīng)用方面稍顯遜色。實際中，我們更傾向于使用GBDT進行建模。

模型評估6：誰是“神預(yù)言家”

愉快的時光總是短暫的，游戲結(jié)束了。但這是否是幾場高質(zhì)量的對局？誰會是那個“神預(yù)言家”？

一般而言，需要通過多次對局、甚至和不同玩家多次對局才能判斷玩家的推斷能力。該玩家在某局推測的準確性多高？是否在不同局中都能保持這樣的準確率？

誰是狼人——淺談模型的建立與應(yīng)用

模型完成后，也需要驗證其準確性和穩(wěn)定性，看它在其他樣本（測試集、跨時間窗口樣本）上的效果是否準確、穩(wěn)定。

如果效果不好，則需要考慮重新調(diào)整樣本（變量再篩選、再組合等）、模型參數(shù)，直到模型表現(xiàn)好為止。很多時候，這并不是一蹴而就的事，需要多次反復(fù)進行。

模型之痛7：巧婦難為無米之炊

經(jīng)過廢寢忘食的練習(xí)，我們終于成為了狼人殺高手。本以為會在游戲中練就火眼金睛，鏟除狼人，帶領(lǐng)隊友走向勝利，卻發(fā)現(xiàn)，己方全是“豬隊友”，身為平民的我，無法獲取足夠信息，導(dǎo)致判斷失誤，痛輸對局?；蛟S此時，我們已經(jīng)不能再玩低端局了。

雖然我們可能對建模方法的使用了如指掌，但沒有足夠有效的數(shù)據(jù)，我們也很難訓(xùn)練出一個好的模型。當前雖然是大數(shù)據(jù)時代，但對于很多小微企業(yè)、甚至很多大企業(yè)而言，如何獲得數(shù)據(jù)都是他們所無法解決的痛點，即便掌握優(yōu)秀的建模技能，但缺乏數(shù)據(jù)驗證，也難以做出好的模型。

本文由 @融慧金科原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。