策略產(chǎn)品經(jīng)理必讀系列—第一講機(jī)器學(xué)習(xí)

1 評(píng)論 4497 瀏覽 27 收藏 21 分鐘

導(dǎo)讀:作為一個(gè)策略產(chǎn)品必須要對(duì)機(jī)器學(xué)習(xí)有一定了解,熟悉機(jī)器學(xué)習(xí)建模的全流程。本篇文章將詳細(xì)地為產(chǎn)品&運(yùn)營(yíng)方向的童鞋通俗易懂地介紹什么是機(jī)器學(xué)習(xí)。

一、 什么是Machine Learning

機(jī)器學(xué)習(xí),簡(jiǎn)單來(lái)說(shuō)就是從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,然后將規(guī)律應(yīng)用到未來(lái)中。國(guó)內(nèi)大家一致推薦的,南京大學(xué)周志華教授的機(jī)器學(xué)習(xí)教材西瓜書(shū)里面如此介紹機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)是機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,來(lái)提升系統(tǒng)的某個(gè)性能度量。

機(jī)器學(xué)習(xí),是一個(gè)非常寬泛的概念,它是一門(mén)學(xué)科。你可以理解為和數(shù)學(xué)、物理一樣的學(xué)科。

簡(jiǎn)單點(diǎn)講:

大家從小到大都學(xué)習(xí)過(guò)數(shù)學(xué),刷過(guò)大量的題庫(kù)。老師和我們強(qiáng)調(diào)什么?要學(xué)會(huì)去總結(jié),從之前做過(guò)的題目中,總結(jié)經(jīng)驗(yàn)和方法??偨Y(jié)的經(jīng)驗(yàn)和方法,可以理解為就是機(jī)器學(xué)習(xí)產(chǎn)出的模型,然后我們?cè)僮鰯?shù)學(xué)題利用之前總結(jié)的經(jīng)驗(yàn)和方法就可以考更高的分。有些人總結(jié)完可以考很高的分,說(shuō)明他總結(jié)的經(jīng)驗(yàn)和方法是對(duì)的,他產(chǎn)出的的模型是一個(gè)好模型。

復(fù)雜點(diǎn)講:

比如說(shuō)金融領(lǐng)域,利用機(jī)器學(xué)習(xí)來(lái)構(gòu)建一個(gè)反欺詐模型。銀行做金融貸款業(yè)務(wù)時(shí),很多客戶(hù)是欺詐客戶(hù),專(zhuān)門(mén)來(lái)騙取貸款的。根據(jù)歷史上還款的好客戶(hù)和首次即逾期的欺詐客戶(hù)的數(shù)據(jù),去找出“好客戶(hù)”的特征和“欺詐客戶(hù)”的特征,然后利用機(jī)器學(xué)習(xí)構(gòu)建一個(gè)模型來(lái)區(qū)分出客戶(hù)的欺詐度。模型的好壞決定了識(shí)別客戶(hù)欺詐的能力。

學(xué)術(shù)界

上圖是周志華教授的西瓜書(shū)里面對(duì)于機(jī)器學(xué)習(xí)的解釋?zhuān)瑱C(jī)器學(xué)習(xí)是研究“學(xué)習(xí)算法”的學(xué)問(wèn)。

工業(yè)界:

但實(shí)際上到了工業(yè)界,很多時(shí)候問(wèn)題并不是如何研究“學(xué)習(xí)算法”,而變成如何應(yīng)用了,算法很多時(shí)候都是現(xiàn)成的,關(guān)于這個(gè)問(wèn)題的算法人們?cè)缪芯客噶?。但就和物理一樣,牛頓一二三定理加上各種公式都給你了,你還是不會(huì)解題。一個(gè)是理論物理和一個(gè)是應(yīng)用物理。

當(dāng)你有了學(xué)習(xí)算法,你在工業(yè)界實(shí)際應(yīng)用的時(shí)候,你還得做特征工程,做訓(xùn)練和評(píng)估等等。最后才能產(chǎn)生一個(gè)效果不錯(cuò)的模型。而在工業(yè)界很多應(yīng)用機(jī)器學(xué)習(xí)的場(chǎng)景下,實(shí)際上后者的重要性大于前者(此部分后面會(huì)專(zhuān)門(mén)介紹)。

總結(jié)來(lái)說(shuō):機(jī)器學(xué)習(xí),是一門(mén)研究如何讓計(jì)算機(jī)從歷史數(shù)據(jù)中去更好地學(xué)習(xí),從而產(chǎn)生一個(gè)優(yōu)秀模型可以提升系統(tǒng)某項(xiàng)性能的學(xué)科。但實(shí)際應(yīng)用遠(yuǎn)遠(yuǎn)不是研究算法這么簡(jiǎn)單。

1.1 機(jī)器學(xué)習(xí)名稱(chēng)的由來(lái)

專(zhuān)門(mén)提一下機(jī)器學(xué)習(xí)為什么叫機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)這些年在國(guó)內(nèi)很火,其實(shí)機(jī)器學(xué)習(xí)在國(guó)際上研究很久了,1952年一位IBM的工程師Arthur Samuel研發(fā)了一個(gè)西洋跳棋程序,然后一些知名的棋手都輸給了這個(gè)程序,有點(diǎn)像上個(gè)世紀(jì)50年代的阿法狗。后來(lái)1956年,這位工程師受邀,在達(dá)沃斯會(huì)議上介紹自己的這項(xiàng)研究,第一次提出了“Machine Learning”這個(gè)詞匯, Arthur Samuel也因?yàn)楸环Q(chēng)為“機(jī)器學(xué)習(xí)之父”,他將“Machine Learning”定義為“不需要確定性編程就可以賦予機(jī)器某項(xiàng)技能的研究領(lǐng)域“,讓機(jī)器像人一樣學(xué)習(xí)起來(lái)。

1.2 機(jī)器學(xué)習(xí)與AI、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的關(guān)系

這是硅谷的一位工程師的調(diào)侃:AI和機(jī)器學(xué)習(xí)的區(qū)別。AI基本上都是PPT,而機(jī)器學(xué)習(xí)是真材實(shí)料用Python寫(xiě)出來(lái)的。這雖然是調(diào)侃,但卻是當(dāng)前人工智能發(fā)展的現(xiàn)狀。所有人都在吹噓AI,自己的AI多么牛逼,但都是僅限于PPT層面,等到落地的時(shí)候就沒(méi)有那么神話(huà)了,很多時(shí)候都是打著AI的噱頭。

用上圖清晰地給大家介紹彼此之間的關(guān)系:人工智能包含機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)又包含強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)等。目前人類(lèi)所研究的AI還是弱人工智能,電影里面看到的那種機(jī)器完全和人類(lèi)一樣去思考、行動(dòng)的智能還遠(yuǎn)遠(yuǎn)達(dá)不到。然后強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)都是機(jī)器學(xué)習(xí)里面的兩個(gè)子技術(shù),兩個(gè)不同研究領(lǐng)域??梢酝ㄋ椎乩斫鉃槲锢韺W(xué)里面的力學(xué)和電學(xué)。

那物理學(xué)除了電和力,還有光學(xué)、磁場(chǎng)等等。所以機(jī)器學(xué)習(xí)技術(shù)中還有很大一部分是“高維特征大數(shù)據(jù)建?!?。其實(shí)現(xiàn)在我們?cè)诠I(yè)界專(zhuān)門(mén)提“機(jī)器學(xué)習(xí)”技術(shù),更多地指的是我所列出來(lái)的第三部分“高維特征大數(shù)據(jù)建?!?。前兩者我們不會(huì)說(shuō)機(jī)器學(xué)習(xí)技術(shù),而是直接說(shuō)強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)。

1.3 機(jī)器學(xué)習(xí)構(gòu)建模型泛化的步驟

下面主要講述高維特征大數(shù)據(jù)建模的一些泛化步驟。

以下是正常一位數(shù)據(jù)科學(xué)家進(jìn)行建模的步驟:

步驟一定義問(wèn)題:

首先客戶(hù)的問(wèn)題是什么?客戶(hù)想利用機(jī)器學(xué)習(xí)構(gòu)建模型來(lái)滿(mǎn)足什么需求?比如在金融反欺詐領(lǐng)域,銀行的需求就是能不能構(gòu)建一個(gè)模型,來(lái)區(qū)分出欺詐客戶(hù)和正常客戶(hù)。有了這個(gè)模型,就可以盡可能地降低銀行的信貸逾期風(fēng)險(xiǎn)。再比如在零售領(lǐng)域,電商APP的需求是在推薦欄目為用戶(hù)主動(dòng)推薦一些商品,提高用戶(hù)對(duì)于該頁(yè)面商品的點(diǎn)擊率、加購(gòu)率以及下單率。

定義問(wèn)題決定了兩件事情,第一件事情是決定了數(shù)據(jù)科學(xué)家要用什么算法來(lái)構(gòu)建模型;反欺詐場(chǎng)景下基本用的都是GBDT算法,而推薦場(chǎng)景下基本用的都是協(xié)同過(guò)濾算法。這些算法本身都已經(jīng)很成熟了,在這些場(chǎng)景下也得到了大量的應(yīng)用和驗(yàn)證。這就和物理中力學(xué)場(chǎng)景下離不開(kāi)牛頓三大定律一樣,定律本身已經(jīng)成熟了,就看你怎么用。很多時(shí)候人們吐槽數(shù)據(jù)科學(xué)家是調(diào)包俠就是因?yàn)檫@些算法是有現(xiàn)成的包的,科學(xué)家們只需要在程序里面調(diào)用一下就行了,當(dāng)然實(shí)際工作要比這復(fù)雜的多。

第二件事情是決定了數(shù)據(jù)科學(xué)家如何來(lái)評(píng)估模型的好壞。模型沒(méi)有對(duì)錯(cuò)之分,只存在效果的好壞之分。那在反欺詐場(chǎng)景下,哪個(gè)模型能夠?qū)⒄?蛻?hù)和欺詐客戶(hù)分類(lèi)的最準(zhǔn)確,哪個(gè)模型的效果就好。而在推薦場(chǎng)景下,那么就是同時(shí)對(duì)模型進(jìn)行一段時(shí)間的觀察,哪個(gè)模型為用戶(hù)推薦的商品,用戶(hù)的點(diǎn)擊率下單率更高,哪個(gè)模型的效果更好。

步驟二收集數(shù)據(jù):

定義完問(wèn)題后,我們需要收集數(shù)據(jù),數(shù)據(jù)質(zhì)量的好壞,對(duì)模型效果的影響非常大。根據(jù)場(chǎng)景下,我們需要使用的數(shù)據(jù)不一樣。比如反欺詐場(chǎng)景下,我們需要使用到用戶(hù)的基本信息、歷史還款信息等,這里面包含正常用戶(hù)和欺詐用戶(hù)的,二者的信息都需要。正常情況下,用戶(hù)的數(shù)據(jù)都會(huì)分布在數(shù)據(jù)庫(kù)不同的表里面,為了建模的方便,通常我們都是合并成一張大寬表。

數(shù)據(jù)清洗:很多時(shí)候歷史數(shù)據(jù)比較亂,有很多臟數(shù)據(jù),比如說(shuō)某條記錄是測(cè)試人員當(dāng)時(shí)測(cè)試時(shí)候的數(shù)據(jù),并不是真實(shí)數(shù)據(jù),那這種數(shù)據(jù)我們就要剔除掉。還有就是數(shù)據(jù)缺失,很可能某些記錄的某些字段內(nèi)容缺失,這時(shí)候就需要看能不能補(bǔ)充。還有很多時(shí)候數(shù)據(jù)字段意義不統(tǒng)一,比如說(shuō)在某個(gè)時(shí)間點(diǎn)前,數(shù)據(jù)庫(kù)里面性別是男女,而這個(gè)時(shí)間點(diǎn)后性別變成了AB,A代表男,B代表女,這時(shí)需要把字段意義統(tǒng)一。數(shù)據(jù)清洗很多時(shí)候占據(jù)著數(shù)據(jù)科學(xué)家們大量時(shí)間。

數(shù)據(jù)標(biāo)注:清洗完數(shù)據(jù)后,有的時(shí)候我們甚至還需要進(jìn)行數(shù)據(jù)標(biāo)注。比如在反欺詐場(chǎng)景下,大寬表里面一條客戶(hù)的記錄,到底是正常用戶(hù)還是欺詐用戶(hù),有的時(shí)候數(shù)據(jù)庫(kù)里面沒(méi)有對(duì)這些數(shù)據(jù)進(jìn)行分類(lèi),我們還需要人工地去判斷這條記錄應(yīng)該屬于哪個(gè)label的客戶(hù)。

數(shù)據(jù)抽樣:數(shù)據(jù)抽樣一般是因?yàn)闅v史數(shù)據(jù)太多了,而且有的歷史數(shù)據(jù)太久遠(yuǎn)不具有參考意義。所以我們一般都是選擇近期的用戶(hù)數(shù)據(jù)。如果數(shù)據(jù)還是太多,導(dǎo)致訓(xùn)練時(shí)間太長(zhǎng),我們就會(huì)采用隨機(jī)抽樣的方法,再?gòu)慕诘挠脩?hù)數(shù)據(jù)中,隨機(jī)抽取XX%的數(shù)據(jù)出來(lái)。

數(shù)據(jù)切分:就是將我們抽樣出來(lái)的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,我們?cè)谟?xùn)練集上進(jìn)行訓(xùn)練,測(cè)試集上面測(cè)試我們模型的效果。必須要區(qū)分開(kāi)訓(xùn)練集和測(cè)試集,不可能一個(gè)數(shù)據(jù)集既作為訓(xùn)練集又作為測(cè)試集。就相當(dāng)于,你準(zhǔn)備考試的模擬試卷你拿來(lái)練習(xí),結(jié)果考試的試卷就是模擬試卷,那沒(méi)辦法反映出你真實(shí)的水平。一般我們訓(xùn)練和測(cè)試集的比例是9:1。但實(shí)際工作中這個(gè)比例也不是固定的。

數(shù)據(jù)穿越:數(shù)據(jù)穿越是科學(xué)家建模在挑選數(shù)據(jù)的過(guò)程中常見(jiàn)的一個(gè)問(wèn)題。比如說(shuō)現(xiàn)在這個(gè)時(shí)間點(diǎn)2020.2.23日我們需要構(gòu)建一個(gè)反欺詐模型,來(lái)判斷2019.2.1日開(kāi)始的用戶(hù)是正常用戶(hù)還是欺詐用戶(hù)。那么我們只能使用2019.2.1日之前的歷史用戶(hù)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,而不能使用截止到2020.2.23日的用戶(hù)數(shù)據(jù),因?yàn)榇藭r(shí)此刻我們已經(jīng)知道了絕大部分2019.2.1日的用戶(hù)是正常用戶(hù)還是欺詐用戶(hù),用截止到此時(shí)此刻的數(shù)據(jù)來(lái)訓(xùn)練模型就相當(dāng)于作弊,訓(xùn)練出來(lái)的模型效果很好也不具備參考價(jià)值。很多情況下數(shù)據(jù)科學(xué)家還會(huì)遇到一個(gè)問(wèn)題就是沒(méi)有歷史數(shù)據(jù)。是的,這種情況也經(jīng)常有。沒(méi)有積累歷史數(shù)據(jù),或者歷史數(shù)據(jù)太少幾乎等于沒(méi)有,那么怎么辦?這個(gè)時(shí)候就直接照搬同樣場(chǎng)景下另外一個(gè)項(xiàng)目的模型直接用,這種我們叫做“冷啟動(dòng)”。因?yàn)橄嗤瑘?chǎng)景下,模型大同小異,可以直接先用著歷史其他項(xiàng)目的模型。然后再積累一段時(shí)間的數(shù)據(jù)后,再根據(jù)該場(chǎng)景下的積累的歷史數(shù)據(jù)對(duì)模型進(jìn)行調(diào)優(yōu)。

步驟三特征工程:

特征工程是工業(yè)界建模中最最最重要的一個(gè)模塊。模型效果的好壞,一部分是由數(shù)據(jù)質(zhì)量決定的,另一部分是由特征工程決定的。

什么是特征工程?我們?nèi)绾卧u(píng)估一個(gè)用戶(hù)是否是欺詐用戶(hù)還是正常用戶(hù),那么我們就需要找到這二者在哪些特征上表現(xiàn)存在明顯差異,通過(guò)這些特征來(lái)進(jìn)行區(qū)分。尋找特征來(lái)有效的區(qū)分不同label的樣本,這個(gè)就是特征工程。

反欺詐場(chǎng)景下,用戶(hù)的歷史還款行為就是一個(gè)有效的特征來(lái)判斷該用戶(hù)是否是欺詐用戶(hù)。如果用戶(hù)歷史經(jīng)常逾期,那么用戶(hù)欺詐的可能性就大,用戶(hù)歷史都正常還款,欺詐的可能性就低。除了該特征,用戶(hù)所在的地域、年齡、是否已婚、經(jīng)濟(jì)情況、受教育成都、職業(yè)等等都是有效特征。數(shù)據(jù)科學(xué)家們?cè)诮V卸紩?huì)加入這些特征。

很多時(shí)候數(shù)據(jù)科學(xué)家還要去請(qǐng)教業(yè)務(wù)專(zhuān)家,和業(yè)務(wù)專(zhuān)家調(diào)研他們?cè)谧鰧?shí)際業(yè)務(wù)中,發(fā)現(xiàn)不同label的用戶(hù)在哪些特征上表現(xiàn)差異化比較明顯。業(yè)務(wù)專(zhuān)家懂業(yè)務(wù),有很多經(jīng)驗(yàn)規(guī)則是數(shù)據(jù)上面看不出來(lái)的,就需要業(yè)務(wù)專(zhuān)家的輸入。業(yè)務(wù)專(zhuān)家的輸入,可以讓科學(xué)家們鎖定到一些有效的特征上,而舍棄一些無(wú)效的特征,對(duì)建模過(guò)程起到一定的指導(dǎo)作用,提高了效率。

同時(shí)數(shù)據(jù)科學(xué)家們還會(huì)構(gòu)建一些組合特征,將很多特征組合在一起構(gòu)成一個(gè)新的特征。一方面是因?yàn)闅v史數(shù)據(jù)特征本身可能不多,另一方面是單獨(dú)某兩個(gè)特征判斷不了什么但當(dāng)結(jié)合在一起成為一個(gè)新的特征時(shí)有時(shí)卻可以反映出一些有價(jià)值的信息。

所以為了構(gòu)建一個(gè)高維特征的模型,實(shí)際建模中科學(xué)家們會(huì)將很多特征組合在一起構(gòu)造一些原本歷史數(shù)據(jù)中沒(méi)有的特征。就像我們只通過(guò)兩三個(gè)特征去評(píng)估一個(gè)人好壞,是很難評(píng)估的,容易片面。當(dāng)我們通過(guò)成百上千個(gè)特征去評(píng)估時(shí)就比較客觀。特征工程很多時(shí)候科學(xué)家們會(huì)做很多組不同的特征工程,因?yàn)橛袝r(shí)候科學(xué)家們也無(wú)法判斷哪一組更好,就多幾種可能性,放到模型訓(xùn)練中去訓(xùn)練。

步驟四模型訓(xùn)練:

構(gòu)建完特征工程后,科學(xué)家們開(kāi)始要生成初版的模型,模型的表現(xiàn)形式是一個(gè)函數(shù)。假設(shè)在反欺詐場(chǎng)景下,函數(shù)為z=ax+by+c這么一個(gè)函數(shù),x和y是特征,a、b、c就是參數(shù),z是結(jié)果。當(dāng)z大于0時(shí),用戶(hù)為正常用戶(hù),z小于等于0時(shí),用戶(hù)為欺詐用戶(hù)。(為了方便大家理解,這邊舉了一個(gè)比較簡(jiǎn)單的函數(shù)。實(shí)際反欺詐場(chǎng)景下,我們使用的是邏輯回歸函數(shù))

那么模型訓(xùn)練什么?模型訓(xùn)練就是訓(xùn)練參數(shù)。最開(kāi)始的時(shí)候我們會(huì)對(duì)a、b、c設(shè)置一個(gè)初始值,假設(shè)都設(shè)置為1。接下來(lái)我們就需要通過(guò)步驟二里面的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型,不停地調(diào)整我們的參數(shù)。訓(xùn)練的過(guò)程可以理解為就是不停地嘗試各種參數(shù)組合,使得每條用戶(hù)記錄評(píng)估出來(lái)的z的值和用戶(hù)真實(shí)z的值接近。當(dāng)然嘗試是有技巧性的嘗試,而不是窮舉,模型訓(xùn)練的方式有梯度下降法等等,在此不詳細(xì)敘述。實(shí)際工作中每一次模型訓(xùn)練的時(shí)間,短的以天為單位,長(zhǎng)的甚至可能以周為單位。對(duì)的不夸張,正常情況下每一次模型訓(xùn)練的時(shí)間都要很長(zhǎng),計(jì)算機(jī)要不停地高速運(yùn)轉(zhuǎn)去計(jì)算。

實(shí)際模型訓(xùn)練當(dāng)中經(jīng)常出現(xiàn)的一個(gè)問(wèn)題叫做過(guò)擬合Overfitted。

就是為了在訓(xùn)練集上面達(dá)到一個(gè)好的效果,而構(gòu)造出來(lái)像上圖這樣的模型。該模型在訓(xùn)練集上面會(huì)有不錯(cuò)的效果,但是在測(cè)試集上大概率會(huì)效果不佳,比較好的模型表現(xiàn)是上圖的Good Fit。所以實(shí)際訓(xùn)練中我們不能過(guò)于地考慮訓(xùn)練集中的某些特征和某些樣本。不然模型的泛化能力會(huì)比較差,測(cè)試集上效果不佳。

模型訓(xùn)練很多情況下,數(shù)據(jù)科學(xué)家們都會(huì)訓(xùn)練好幾版模型出來(lái),這幾版模型在訓(xùn)練集上表現(xiàn)差異不大,但特征工程等不一樣,最后統(tǒng)一拿到測(cè)試集上進(jìn)行評(píng)估。

步驟五模型評(píng)估:

步驟四訓(xùn)練出來(lái)的模型,我們?nèi)绾蝸?lái)評(píng)估模型效果的好壞?就需要在測(cè)試集上面進(jìn)行驗(yàn)證了。分類(lèi)模型評(píng)估最經(jīng)常使用的兩個(gè)指標(biāo)就是查全率Precision Rate和召回率Recall Rate。假設(shè)現(xiàn)在測(cè)試集有100個(gè)用戶(hù),90個(gè)為正常用戶(hù),10個(gè)為欺詐用戶(hù)。我們的目的是為了把測(cè)試集里面的欺詐用戶(hù)全部找出來(lái),下圖為預(yù)測(cè)結(jié)果:

我們可以發(fā)現(xiàn),一共10個(gè)欺詐用戶(hù),模型挑出來(lái)了8個(gè)欺詐用戶(hù),查全率Recall Rate=8/10=80%,模型把80%的欺詐用戶(hù)都找出來(lái)了。但是模型將10個(gè)用戶(hù)誤判成了欺詐用戶(hù),查準(zhǔn)率Precision Rate=8/18。我們?cè)谠u(píng)估模型效果好壞的時(shí)候會(huì)綜合考慮Recall Rate和Precision Rate一起評(píng)估。不同模型評(píng)估的指標(biāo)完全不一樣,剛剛列舉的模型評(píng)估指標(biāo)只是分類(lèi)模型的一種評(píng)估指標(biāo)。

步驟五介紹了,一般數(shù)據(jù)科學(xué)家會(huì)訓(xùn)練出好幾版模型出來(lái),我們會(huì)挑選在測(cè)試集上表現(xiàn)最好的模型作為最終的模型。

步驟六模型應(yīng)用:

我們將效果最好的模型部署到實(shí)際的生產(chǎn)環(huán)境中去進(jìn)行使用。實(shí)際生產(chǎn)環(huán)境中效果的好壞,才是對(duì)模型真正的考驗(yàn)。即使模型在測(cè)試集上表現(xiàn)效果很好,有可能生產(chǎn)環(huán)境下效果表現(xiàn)一般。因?yàn)橛脩?hù)的行為等不停地在發(fā)生變化,數(shù)據(jù)也在更新,以前的一些特征工程可能不再適用于當(dāng)下的環(huán)境。所以即使上線(xiàn)后,數(shù)據(jù)科學(xué)家們也會(huì)持續(xù)地關(guān)注模型的表現(xiàn),再根據(jù)新積累的數(shù)據(jù)不斷地對(duì)模型進(jìn)行調(diào)優(yōu),總之這是一個(gè)不斷更新迭代的過(guò)程,并不能一勞永逸。

 

本文由 @King James 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 老板,模型里的KPI, PSI, AOC,IV這些能不能介紹一版,謝謝

    來(lái)自浙江 回復(fù)