欧美精品一区二区三区蜜桃视频，好吊妞国产欧美日韩免费观看网站，高清免费av在线播放不卡，亚洲欧美中文字幕制服二区，精品人妻乱码一区二区三区，国产精品无码久久综合网，在线无码一区二区三区不卡视频，av色欲无码人妻中文字幕

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

策略產(chǎn)品經(jīng)理必讀系列—第一講機(jī)器學(xué)習(xí)

搜廣推策略James

2022-08-01

1 評(píng)論 4497 瀏覽 27 收藏

21 分鐘

導(dǎo)讀：作為一個(gè)策略產(chǎn)品必須要對(duì)機(jī)器學(xué)習(xí)有一定了解，熟悉機(jī)器學(xué)習(xí)建模的全流程。本篇文章將詳細(xì)地為產(chǎn)品&運(yùn)營(yíng)方向的童鞋通俗易懂地介紹什么是機(jī)器學(xué)習(xí)。

一、什么是Machine Learning

機(jī)器學(xué)習(xí)，簡(jiǎn)單來(lái)說(shuō)就是從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律，然后將規(guī)律應(yīng)用到未來(lái)中。國(guó)內(nèi)大家一致推薦的，南京大學(xué)周志華教授的機(jī)器學(xué)習(xí)教材西瓜書(shū)里面如此介紹機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)是機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律，來(lái)提升系統(tǒng)的某個(gè)性能度量。

機(jī)器學(xué)習(xí)，是一個(gè)非常寬泛的概念，它是一門(mén)學(xué)科。你可以理解為和數(shù)學(xué)、物理一樣的學(xué)科。

簡(jiǎn)單點(diǎn)講：

大家從小到大都學(xué)習(xí)過(guò)數(shù)學(xué)，刷過(guò)大量的題庫(kù)。老師和我們強(qiáng)調(diào)什么？要學(xué)會(huì)去總結(jié)，從之前做過(guò)的題目中，總結(jié)經(jīng)驗(yàn)和方法?？偨Y(jié)的經(jīng)驗(yàn)和方法，可以理解為就是機(jī)器學(xué)習(xí)產(chǎn)出的模型，然后我們?cè)僮鰯?shù)學(xué)題利用之前總結(jié)的經(jīng)驗(yàn)和方法就可以考更高的分。有些人總結(jié)完可以考很高的分，說(shuō)明他總結(jié)的經(jīng)驗(yàn)和方法是對(duì)的，他產(chǎn)出的的模型是一個(gè)好模型。

復(fù)雜點(diǎn)講：

比如說(shuō)金融領(lǐng)域，利用機(jī)器學(xué)習(xí)來(lái)構(gòu)建一個(gè)反欺詐模型。銀行做金融貸款業(yè)務(wù)時(shí)，很多客戶(hù)是欺詐客戶(hù)，專(zhuān)門(mén)來(lái)騙取貸款的。根據(jù)歷史上還款的好客戶(hù)和首次即逾期的欺詐客戶(hù)的數(shù)據(jù)，去找出“好客戶(hù)”的特征和“欺詐客戶(hù)”的特征，然后利用機(jī)器學(xué)習(xí)構(gòu)建一個(gè)模型來(lái)區(qū)分出客戶(hù)的欺詐度。模型的好壞決定了識(shí)別客戶(hù)欺詐的能力。

學(xué)術(shù)界：

上圖是周志華教授的西瓜書(shū)里面對(duì)于機(jī)器學(xué)習(xí)的解釋?zhuān)瑱C(jī)器學(xué)習(xí)是研究“學(xué)習(xí)算法”的學(xué)問(wèn)。

工業(yè)界：

但實(shí)際上到了工業(yè)界，很多時(shí)候問(wèn)題并不是如何研究“學(xué)習(xí)算法”，而變成如何應(yīng)用了，算法很多時(shí)候都是現(xiàn)成的，關(guān)于這個(gè)問(wèn)題的算法人們?cè)缪芯客噶?。但就和物理一樣，牛頓一二三定理加上各種公式都給你了，你還是不會(huì)解題。一個(gè)是理論物理和一個(gè)是應(yīng)用物理。

當(dāng)你有了學(xué)習(xí)算法，你在工業(yè)界實(shí)際應(yīng)用的時(shí)候，你還得做特征工程，做訓(xùn)練和評(píng)估等等。最后才能產(chǎn)生一個(gè)效果不錯(cuò)的模型。而在工業(yè)界很多應(yīng)用機(jī)器學(xué)習(xí)的場(chǎng)景下，實(shí)際上后者的重要性大于前者（此部分后面會(huì)專(zhuān)門(mén)介紹）。

總結(jié)來(lái)說(shuō)：機(jī)器學(xué)習(xí)，是一門(mén)研究如何讓計(jì)算機(jī)從歷史數(shù)據(jù)中去更好地學(xué)習(xí)，從而產(chǎn)生一個(gè)優(yōu)秀模型可以提升系統(tǒng)某項(xiàng)性能的學(xué)科。但實(shí)際應(yīng)用遠(yuǎn)遠(yuǎn)不是研究算法這么簡(jiǎn)單。

1.1 機(jī)器學(xué)習(xí)名稱(chēng)的由來(lái)

專(zhuān)門(mén)提一下機(jī)器學(xué)習(xí)為什么叫機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)這些年在國(guó)內(nèi)很火，其實(shí)機(jī)器學(xué)習(xí)在國(guó)際上研究很久了，1952年一位IBM的工程師Arthur Samuel研發(fā)了一個(gè)西洋跳棋程序，然后一些知名的棋手都輸給了這個(gè)程序，有點(diǎn)像上個(gè)世紀(jì)50年代的阿法狗。后來(lái)1956年，這位工程師受邀，在達(dá)沃斯會(huì)議上介紹自己的這項(xiàng)研究，第一次提出了“Machine Learning”這個(gè)詞匯, Arthur Samuel也因?yàn)楸环Q(chēng)為“機(jī)器學(xué)習(xí)之父”，他將“Machine Learning”定義為“不需要確定性編程就可以賦予機(jī)器某項(xiàng)技能的研究領(lǐng)域“，讓機(jī)器像人一樣學(xué)習(xí)起來(lái)。

1.2 機(jī)器學(xué)習(xí)與AI、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的關(guān)系

這是硅谷的一位工程師的調(diào)侃：AI和機(jī)器學(xué)習(xí)的區(qū)別。AI基本上都是PPT，而機(jī)器學(xué)習(xí)是真材實(shí)料用Python寫(xiě)出來(lái)的。這雖然是調(diào)侃，但卻是當(dāng)前人工智能發(fā)展的現(xiàn)狀。所有人都在吹噓AI，自己的AI多么牛逼，但都是僅限于PPT層面，等到落地的時(shí)候就沒(méi)有那么神話(huà)了，很多時(shí)候都是打著AI的噱頭。

用上圖清晰地給大家介紹彼此之間的關(guān)系：人工智能包含機(jī)器學(xué)習(xí)，機(jī)器學(xué)習(xí)又包含強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)等。目前人類(lèi)所研究的AI還是弱人工智能，電影里面看到的那種機(jī)器完全和人類(lèi)一樣去思考、行動(dòng)的智能還遠(yuǎn)遠(yuǎn)達(dá)不到。然后強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)里面的兩個(gè)子技術(shù)，兩個(gè)不同研究領(lǐng)域?？梢酝ㄋ椎乩斫鉃槲锢韺W(xué)里面的力學(xué)和電學(xué)。

那物理學(xué)除了電和力，還有光學(xué)、磁場(chǎng)等等。所以機(jī)器學(xué)習(xí)技術(shù)中還有很大一部分是“高維特征大數(shù)據(jù)建?！?。其實(shí)現(xiàn)在我們?cè)诠I(yè)界專(zhuān)門(mén)提“機(jī)器學(xué)習(xí)”技術(shù)，更多地指的是我所列出來(lái)的第三部分“高維特征大數(shù)據(jù)建?！?。前兩者我們不會(huì)說(shuō)機(jī)器學(xué)習(xí)技術(shù)，而是直接說(shuō)強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)。

1.3 機(jī)器學(xué)習(xí)構(gòu)建模型泛化的步驟

下面主要講述高維特征大數(shù)據(jù)建模的一些泛化步驟。

以下是正常一位數(shù)據(jù)科學(xué)家進(jìn)行建模的步驟：

步驟一定義問(wèn)題：

首先客戶(hù)的問(wèn)題是什么？客戶(hù)想利用機(jī)器學(xué)習(xí)構(gòu)建模型來(lái)滿(mǎn)足什么需求？比如在金融反欺詐領(lǐng)域，銀行的需求就是能不能構(gòu)建一個(gè)模型，來(lái)區(qū)分出欺詐客戶(hù)和正常客戶(hù)。有了這個(gè)模型，就可以盡可能地降低銀行的信貸逾期風(fēng)險(xiǎn)。再比如在零售領(lǐng)域，電商APP的需求是在推薦欄目為用戶(hù)主動(dòng)推薦一些商品，提高用戶(hù)對(duì)于該頁(yè)面商品的點(diǎn)擊率、加購(gòu)率以及下單率。

定義問(wèn)題決定了兩件事情，第一件事情是決定了數(shù)據(jù)科學(xué)家要用什么算法來(lái)構(gòu)建模型；反欺詐場(chǎng)景下基本用的都是GBDT算法，而推薦場(chǎng)景下基本用的都是協(xié)同過(guò)濾算法。這些算法本身都已經(jīng)很成熟了，在這些場(chǎng)景下也得到了大量的應(yīng)用和驗(yàn)證。這就和物理中力學(xué)場(chǎng)景下離不開(kāi)牛頓三大定律一樣，定律本身已經(jīng)成熟了，就看你怎么用。很多時(shí)候人們吐槽數(shù)據(jù)科學(xué)家是調(diào)包俠就是因?yàn)檫@些算法是有現(xiàn)成的包的，科學(xué)家們只需要在程序里面調(diào)用一下就行了，當(dāng)然實(shí)際工作要比這復(fù)雜的多。

第二件事情是決定了數(shù)據(jù)科學(xué)家如何來(lái)評(píng)估模型的好壞。模型沒(méi)有對(duì)錯(cuò)之分，只存在效果的好壞之分。那在反欺詐場(chǎng)景下，哪個(gè)模型能夠?qū)⒄？蛻?hù)和欺詐客戶(hù)分類(lèi)的最準(zhǔn)確，哪個(gè)模型的效果就好。而在推薦場(chǎng)景下，那么就是同時(shí)對(duì)模型進(jìn)行一段時(shí)間的觀察，哪個(gè)模型為用戶(hù)推薦的商品，用戶(hù)的點(diǎn)擊率下單率更高，哪個(gè)模型的效果更好。

步驟二收集數(shù)據(jù)：

定義完問(wèn)題后，我們需要收集數(shù)據(jù)，數(shù)據(jù)質(zhì)量的好壞，對(duì)模型效果的影響非常大。根據(jù)場(chǎng)景下，我們需要使用的數(shù)據(jù)不一樣。比如反欺詐場(chǎng)景下，我們需要使用到用戶(hù)的基本信息、歷史還款信息等，這里面包含正常用戶(hù)和欺詐用戶(hù)的，二者的信息都需要。正常情況下，用戶(hù)的數(shù)據(jù)都會(huì)分布在數(shù)據(jù)庫(kù)不同的表里面，為了建模的方便，通常我們都是合并成一張大寬表。

數(shù)據(jù)清洗：很多時(shí)候歷史數(shù)據(jù)比較亂，有很多臟數(shù)據(jù)，比如說(shuō)某條記錄是測(cè)試人員當(dāng)時(shí)測(cè)試時(shí)候的數(shù)據(jù)，并不是真實(shí)數(shù)據(jù)，那這種數(shù)據(jù)我們就要剔除掉。還有就是數(shù)據(jù)缺失，很可能某些記錄的某些字段內(nèi)容缺失，這時(shí)候就需要看能不能補(bǔ)充。還有很多時(shí)候數(shù)據(jù)字段意義不統(tǒng)一，比如說(shuō)在某個(gè)時(shí)間點(diǎn)前，數(shù)據(jù)庫(kù)里面性別是男女，而這個(gè)時(shí)間點(diǎn)后性別變成了AB，A代表男，B代表女，這時(shí)需要把字段意義統(tǒng)一。數(shù)據(jù)清洗很多時(shí)候占據(jù)著數(shù)據(jù)科學(xué)家們大量時(shí)間。

數(shù)據(jù)標(biāo)注：清洗完數(shù)據(jù)后，有的時(shí)候我們甚至還需要進(jìn)行數(shù)據(jù)標(biāo)注。比如在反欺詐場(chǎng)景下，大寬表里面一條客戶(hù)的記錄，到底是正常用戶(hù)還是欺詐用戶(hù)，有的時(shí)候數(shù)據(jù)庫(kù)里面沒(méi)有對(duì)這些數(shù)據(jù)進(jìn)行分類(lèi)，我們還需要人工地去判斷這條記錄應(yīng)該屬于哪個(gè)label的客戶(hù)。

數(shù)據(jù)抽樣：數(shù)據(jù)抽樣一般是因?yàn)闅v史數(shù)據(jù)太多了，而且有的歷史數(shù)據(jù)太久遠(yuǎn)不具有參考意義。所以我們一般都是選擇近期的用戶(hù)數(shù)據(jù)。如果數(shù)據(jù)還是太多，導(dǎo)致訓(xùn)練時(shí)間太長(zhǎng)，我們就會(huì)采用隨機(jī)抽樣的方法，再?gòu)慕诘挠脩?hù)數(shù)據(jù)中，隨機(jī)抽取XX%的數(shù)據(jù)出來(lái)。

數(shù)據(jù)切分：就是將我們抽樣出來(lái)的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，我們?cè)谟?xùn)練集上進(jìn)行訓(xùn)練，測(cè)試集上面測(cè)試我們模型的效果。必須要區(qū)分開(kāi)訓(xùn)練集和測(cè)試集，不可能一個(gè)數(shù)據(jù)集既作為訓(xùn)練集又作為測(cè)試集。就相當(dāng)于，你準(zhǔn)備考試的模擬試卷你拿來(lái)練習(xí)，結(jié)果考試的試卷就是模擬試卷，那沒(méi)辦法反映出你真實(shí)的水平。一般我們訓(xùn)練和測(cè)試集的比例是9:1。但實(shí)際工作中這個(gè)比例也不是固定的。

數(shù)據(jù)穿越：數(shù)據(jù)穿越是科學(xué)家建模在挑選數(shù)據(jù)的過(guò)程中常見(jiàn)的一個(gè)問(wèn)題。比如說(shuō)現(xiàn)在這個(gè)時(shí)間點(diǎn)2020.2.23日我們需要構(gòu)建一個(gè)反欺詐模型，來(lái)判斷2019.2.1日開(kāi)始的用戶(hù)是正常用戶(hù)還是欺詐用戶(hù)。那么我們只能使用2019.2.1日之前的歷史用戶(hù)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練，而不能使用截止到2020.2.23日的用戶(hù)數(shù)據(jù)，因?yàn)榇藭r(shí)此刻我們已經(jīng)知道了絕大部分2019.2.1日的用戶(hù)是正常用戶(hù)還是欺詐用戶(hù)，用截止到此時(shí)此刻的數(shù)據(jù)來(lái)訓(xùn)練模型就相當(dāng)于作弊，訓(xùn)練出來(lái)的模型效果很好也不具備參考價(jià)值。很多情況下數(shù)據(jù)科學(xué)家還會(huì)遇到一個(gè)問(wèn)題就是沒(méi)有歷史數(shù)據(jù)。是的，這種情況也經(jīng)常有。沒(méi)有積累歷史數(shù)據(jù)，或者歷史數(shù)據(jù)太少幾乎等于沒(méi)有，那么怎么辦？這個(gè)時(shí)候就直接照搬同樣場(chǎng)景下另外一個(gè)項(xiàng)目的模型直接用，這種我們叫做“冷啟動(dòng)”。因?yàn)橄嗤瑘?chǎng)景下，模型大同小異，可以直接先用著歷史其他項(xiàng)目的模型。然后再積累一段時(shí)間的數(shù)據(jù)后，再根據(jù)該場(chǎng)景下的積累的歷史數(shù)據(jù)對(duì)模型進(jìn)行調(diào)優(yōu)。

步驟三特征工程：

特征工程是工業(yè)界建模中最最最重要的一個(gè)模塊。模型效果的好壞，一部分是由數(shù)據(jù)質(zhì)量決定的，另一部分是由特征工程決定的。

什么是特征工程？我們?nèi)绾卧u(píng)估一個(gè)用戶(hù)是否是欺詐用戶(hù)還是正常用戶(hù)，那么我們就需要找到這二者在哪些特征上表現(xiàn)存在明顯差異，通過(guò)這些特征來(lái)進(jìn)行區(qū)分。尋找特征來(lái)有效的區(qū)分不同label的樣本，這個(gè)就是特征工程。

反欺詐場(chǎng)景下，用戶(hù)的歷史還款行為就是一個(gè)有效的特征來(lái)判斷該用戶(hù)是否是欺詐用戶(hù)。如果用戶(hù)歷史經(jīng)常逾期，那么用戶(hù)欺詐的可能性就大，用戶(hù)歷史都正常還款，欺詐的可能性就低。除了該特征，用戶(hù)所在的地域、年齡、是否已婚、經(jīng)濟(jì)情況、受教育成都、職業(yè)等等都是有效特征。數(shù)據(jù)科學(xué)家們?cè)诮Ｖ卸紩?huì)加入這些特征。

很多時(shí)候數(shù)據(jù)科學(xué)家還要去請(qǐng)教業(yè)務(wù)專(zhuān)家，和業(yè)務(wù)專(zhuān)家調(diào)研他們?cè)谧鰧?shí)際業(yè)務(wù)中，發(fā)現(xiàn)不同label的用戶(hù)在哪些特征上表現(xiàn)差異化比較明顯。業(yè)務(wù)專(zhuān)家懂業(yè)務(wù)，有很多經(jīng)驗(yàn)規(guī)則是數(shù)據(jù)上面看不出來(lái)的，就需要業(yè)務(wù)專(zhuān)家的輸入。業(yè)務(wù)專(zhuān)家的輸入，可以讓科學(xué)家們鎖定到一些有效的特征上，而舍棄一些無(wú)效的特征，對(duì)建模過(guò)程起到一定的指導(dǎo)作用，提高了效率。

同時(shí)數(shù)據(jù)科學(xué)家們還會(huì)構(gòu)建一些組合特征，將很多特征組合在一起構(gòu)成一個(gè)新的特征。一方面是因?yàn)闅v史數(shù)據(jù)特征本身可能不多，另一方面是單獨(dú)某兩個(gè)特征判斷不了什么但當(dāng)結(jié)合在一起成為一個(gè)新的特征時(shí)有時(shí)卻可以反映出一些有價(jià)值的信息。

所以為了構(gòu)建一個(gè)高維特征的模型，實(shí)際建模中科學(xué)家們會(huì)將很多特征組合在一起構(gòu)造一些原本歷史數(shù)據(jù)中沒(méi)有的特征。就像我們只通過(guò)兩三個(gè)特征去評(píng)估一個(gè)人好壞，是很難評(píng)估的，容易片面。當(dāng)我們通過(guò)成百上千個(gè)特征去評(píng)估時(shí)就比較客觀。特征工程很多時(shí)候科學(xué)家們會(huì)做很多組不同的特征工程，因?yàn)橛袝r(shí)候科學(xué)家們也無(wú)法判斷哪一組更好，就多幾種可能性，放到模型訓(xùn)練中去訓(xùn)練。

步驟四模型訓(xùn)練：

構(gòu)建完特征工程后，科學(xué)家們開(kāi)始要生成初版的模型，模型的表現(xiàn)形式是一個(gè)函數(shù)。假設(shè)在反欺詐場(chǎng)景下，函數(shù)為z=ax+by+c這么一個(gè)函數(shù)，x和y是特征，a、b、c就是參數(shù)，z是結(jié)果。當(dāng)z大于0時(shí)，用戶(hù)為正常用戶(hù)，z小于等于0時(shí)，用戶(hù)為欺詐用戶(hù)。（為了方便大家理解，這邊舉了一個(gè)比較簡(jiǎn)單的函數(shù)。實(shí)際反欺詐場(chǎng)景下，我們使用的是邏輯回歸函數(shù)）

那么模型訓(xùn)練什么？模型訓(xùn)練就是訓(xùn)練參數(shù)。最開(kāi)始的時(shí)候我們會(huì)對(duì)a、b、c設(shè)置一個(gè)初始值，假設(shè)都設(shè)置為1。接下來(lái)我們就需要通過(guò)步驟二里面的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型，不停地調(diào)整我們的參數(shù)。訓(xùn)練的過(guò)程可以理解為就是不停地嘗試各種參數(shù)組合，使得每條用戶(hù)記錄評(píng)估出來(lái)的z的值和用戶(hù)真實(shí)z的值接近。當(dāng)然嘗試是有技巧性的嘗試，而不是窮舉，模型訓(xùn)練的方式有梯度下降法等等，在此不詳細(xì)敘述。實(shí)際工作中每一次模型訓(xùn)練的時(shí)間，短的以天為單位，長(zhǎng)的甚至可能以周為單位。對(duì)的不夸張，正常情況下每一次模型訓(xùn)練的時(shí)間都要很長(zhǎng)，計(jì)算機(jī)要不停地高速運(yùn)轉(zhuǎn)去計(jì)算。

實(shí)際模型訓(xùn)練當(dāng)中經(jīng)常出現(xiàn)的一個(gè)問(wèn)題叫做過(guò)擬合Overfitted。

就是為了在訓(xùn)練集上面達(dá)到一個(gè)好的效果，而構(gòu)造出來(lái)像上圖這樣的模型。該模型在訓(xùn)練集上面會(huì)有不錯(cuò)的效果，但是在測(cè)試集上大概率會(huì)效果不佳，比較好的模型表現(xiàn)是上圖的Good Fit。所以實(shí)際訓(xùn)練中我們不能過(guò)于地考慮訓(xùn)練集中的某些特征和某些樣本。不然模型的泛化能力會(huì)比較差，測(cè)試集上效果不佳。

模型訓(xùn)練很多情況下，數(shù)據(jù)科學(xué)家們都會(huì)訓(xùn)練好幾版模型出來(lái)，這幾版模型在訓(xùn)練集上表現(xiàn)差異不大，但特征工程等不一樣，最后統(tǒng)一拿到測(cè)試集上進(jìn)行評(píng)估。

步驟五模型評(píng)估：

步驟四訓(xùn)練出來(lái)的模型，我們?nèi)绾蝸?lái)評(píng)估模型效果的好壞？就需要在測(cè)試集上面進(jìn)行驗(yàn)證了。分類(lèi)模型評(píng)估最經(jīng)常使用的兩個(gè)指標(biāo)就是查全率Precision Rate和召回率Recall Rate。假設(shè)現(xiàn)在測(cè)試集有100個(gè)用戶(hù)，90個(gè)為正常用戶(hù)，10個(gè)為欺詐用戶(hù)。我們的目的是為了把測(cè)試集里面的欺詐用戶(hù)全部找出來(lái)，下圖為預(yù)測(cè)結(jié)果：

我們可以發(fā)現(xiàn)，一共10個(gè)欺詐用戶(hù)，模型挑出來(lái)了8個(gè)欺詐用戶(hù)，查全率Recall Rate=8/10=80%，模型把80%的欺詐用戶(hù)都找出來(lái)了。但是模型將10個(gè)用戶(hù)誤判成了欺詐用戶(hù)，查準(zhǔn)率Precision Rate=8/18。我們?cè)谠u(píng)估模型效果好壞的時(shí)候會(huì)綜合考慮Recall Rate和Precision Rate一起評(píng)估。不同模型評(píng)估的指標(biāo)完全不一樣，剛剛列舉的模型評(píng)估指標(biāo)只是分類(lèi)模型的一種評(píng)估指標(biāo)。

步驟五介紹了，一般數(shù)據(jù)科學(xué)家會(huì)訓(xùn)練出好幾版模型出來(lái)，我們會(huì)挑選在測(cè)試集上表現(xiàn)最好的模型作為最終的模型。

步驟六模型應(yīng)用：

我們將效果最好的模型部署到實(shí)際的生產(chǎn)環(huán)境中去進(jìn)行使用。實(shí)際生產(chǎn)環(huán)境中效果的好壞，才是對(duì)模型真正的考驗(yàn)。即使模型在測(cè)試集上表現(xiàn)效果很好，有可能生產(chǎn)環(huán)境下效果表現(xiàn)一般。因?yàn)橛脩?hù)的行為等不停地在發(fā)生變化，數(shù)據(jù)也在更新，以前的一些特征工程可能不再適用于當(dāng)下的環(huán)境。所以即使上線(xiàn)后，數(shù)據(jù)科學(xué)家們也會(huì)持續(xù)地關(guān)注模型的表現(xiàn)，再根據(jù)新積累的數(shù)據(jù)不斷地對(duì)模型進(jìn)行調(diào)優(yōu)，總之這是一個(gè)不斷更新迭代的過(guò)程，并不能一勞永逸。

本文由 @King James 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App