萬(wàn)字干貨 | 一文助你了解機(jī)器學(xué)習(xí)

7 評(píng)論 9059 瀏覽 95 收藏 44 分鐘

本文將通過(guò)大量案例和通俗易懂的“人話”,講述機(jī)器學(xué)習(xí)建模邏輯和使用場(chǎng)景,讓非數(shù)據(jù)科學(xué)專業(yè)的職場(chǎng)人都可以快速了解機(jī)器學(xué)習(xí)是什么,能做什么,如何用!

從AlphaGo戰(zhàn)勝李世石開(kāi)始,AI迎來(lái)了新一輪爆發(fā)增長(zhǎng),2018年,全球人工智能市場(chǎng)規(guī)模達(dá)到了73.5億美元,各個(gè)行業(yè)和領(lǐng)域幾乎都被AI滲透,各國(guó)對(duì)AI人才的爭(zhēng)奪也正愈演愈烈。

《中國(guó)人工智能發(fā)展報(bào)告2018》顯示:專利上,中國(guó)已經(jīng)成為全球人工智能專利布局最多的國(guó)家,數(shù)量略微領(lǐng)先于美國(guó)和日本;產(chǎn)業(yè)上,中國(guó)的人工智能企業(yè)數(shù)量排在全球第二,北京是全球人工智能企業(yè)最集中的城市。

全球知名創(chuàng)投研究機(jī)構(gòu)CB Insights評(píng)選出了100家最有前途的AI公司,國(guó)內(nèi)的商湯科技,曠視科技,第四范式等6家公司殺入到榜單中,同時(shí)各大互聯(lián)網(wǎng)公司都在構(gòu)建自己的AI實(shí)驗(yàn)室。一方面通過(guò)AI技術(shù)挖掘用戶數(shù)據(jù),通過(guò)+AI,優(yōu)化現(xiàn)有業(yè)務(wù),另一方面探索AI應(yīng)用新場(chǎng)景,研發(fā)新產(chǎn)品,完成AI+,為企業(yè)尋找全新的增長(zhǎng)引擎。

筆者有幸參與了一個(gè)機(jī)器學(xué)習(xí)建模實(shí)驗(yàn)室項(xiàng)目,項(xiàng)目的本質(zhì)是抽象機(jī)器學(xué)習(xí)建模流程,將機(jī)器學(xué)習(xí)建模過(guò)程組件化,通過(guò)在畫布上對(duì)組件(算子)靈活連接,讓非專家用戶(不會(huì)寫代碼,不熟悉算法模型和調(diào)參的產(chǎn)品經(jīng)理,市場(chǎng)運(yùn)營(yíng),行政財(cái)務(wù)等職場(chǎng)人)可以快速搭建機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)業(yè)務(wù)預(yù)測(cè),極大降低機(jī)器學(xué)習(xí)應(yīng)用門檻。

通過(guò)近十個(gè)月的學(xué)習(xí)和實(shí)踐,筆者對(duì)機(jī)器學(xué)習(xí)有了初步理解,本文將通過(guò)大量案例和通俗易懂的“人話”,講述機(jī)器學(xué)習(xí)建模邏輯和使用場(chǎng)景,讓非數(shù)據(jù)科學(xué)專業(yè)的職場(chǎng)人都可以快速了解機(jī)器學(xué)習(xí)是什么,能做什么,如何用!

本文共分為四個(gè)部分:

  • 第一部分、介紹關(guān)于AI的常見(jiàn)誤區(qū),回答機(jī)器學(xué)習(xí)是什么,可以用來(lái)做什么,怎么用;
  • 第二分部、介紹機(jī)器學(xué)習(xí)為業(yè)務(wù)賦能的6個(gè)步驟,及非專家用戶的應(yīng)用難點(diǎn)和解決方案;
  • 第三部分、通過(guò)案例介紹二分類,聚類和回歸模型如何應(yīng)用;
  • 第四部分、介紹機(jī)器學(xué)習(xí)模型的主要應(yīng)用場(chǎng)景和立項(xiàng)模板。

一、關(guān)于AI的幾個(gè)誤區(qū)

1. 只有那些科技公司才能應(yīng)用AI技術(shù)?

這一輪AI的火爆始于AlphaGo戰(zhàn)勝李世石,隨后,智慧城市,智慧生活,智慧辦公和智慧醫(yī)療等概念可謂是鋪天蓋地,在各種媒體上能看到各種AI的高大上應(yīng)用場(chǎng)景,如阿里的鹿班系統(tǒng)雙十一時(shí)每秒設(shè)計(jì)8000張海報(bào),無(wú)人駕駛汽車在部分城市指定路段上路測(cè)試,機(jī)器人索菲亞獲得了沙特“公民”身份,滴滴利用AI模型預(yù)測(cè)城市不同位置用車需求,AI讀片進(jìn)入各大醫(yī)院輔助醫(yī)生判斷癌癥,各種報(bào)道 讓一些非AI相關(guān)領(lǐng)域從業(yè)者感覺(jué)其過(guò)于高大上,似乎離自己很遠(yuǎn)。

但筆者認(rèn)為AI的價(jià)值不僅于此,各行各業(yè)其實(shí)都可以利用AI技術(shù)優(yōu)化現(xiàn)有服務(wù)流程,提升效率。

筆者結(jié)合自身理解,舉一些機(jī)器學(xué)習(xí)在非互聯(lián)網(wǎng)公司中的常見(jiàn)應(yīng)用場(chǎng)景。

  • 會(huì)員智能化應(yīng)用:基于歷史數(shù)據(jù)對(duì)會(huì)員精準(zhǔn)營(yíng)銷,挖掘用戶潛在消費(fèi)需求,個(gè)性化優(yōu)惠券下發(fā),流失預(yù)警,新會(huì)員轉(zhuǎn)化路徑個(gè)性化配置等
  • 商品智能化應(yīng)用:預(yù)測(cè)未來(lái)X時(shí)間內(nèi)銷售量,庫(kù)存量,訂單量,關(guān)聯(lián)銷售,優(yōu)化供應(yīng)鏈,預(yù)測(cè)市場(chǎng)容量,新品定價(jià),設(shè)定折扣策略和作弊檢測(cè)。
  • 異常分析:訂單異常分析,用戶異常分析,機(jī)械故障預(yù)測(cè),羊毛黨分析,動(dòng)態(tài)預(yù)警分析等。

除了上述場(chǎng)景外,只要業(yè)務(wù)需求可以抽象成分類預(yù)測(cè)問(wèn)題,數(shù)值預(yù)測(cè)問(wèn)題,都可以考慮利用機(jī)器學(xué)習(xí)輔助決策。

2. 使用AI技術(shù)必須掌握數(shù)學(xué)和python?

DT(Data technology)時(shí)代到來(lái),企業(yè)在互聯(lián)網(wǎng)+的過(guò)程中積累了大量的數(shù)據(jù),而AI技術(shù)就是幫助企業(yè)將這些數(shù)據(jù)有效利用起來(lái)的重要工具。

《中國(guó)ICT人才生態(tài)白皮書》顯示:到2018年底,我國(guó)人工智能人才缺口將突破100萬(wàn),到2020年,這個(gè)數(shù)字將攀升到226萬(wàn),?筆者認(rèn)為,這個(gè)數(shù)字描述的是AI應(yīng)用型人才,也就是知道如何利用AI技術(shù)優(yōu)化現(xiàn)有業(yè)務(wù)的職場(chǎng)人,非人工智能從業(yè)者都會(huì)對(duì)其產(chǎn)生恐懼。

當(dāng)我提到AI一般人鬧鐘都會(huì)出現(xiàn)兩幅畫面,如下所示:

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

寫代碼和復(fù)雜的數(shù)學(xué)公式領(lǐng)AI看起來(lái)門檻高不可攀,但是為了降低建模門檻,國(guó)內(nèi)外大量公司都推出了自己的組件建模平臺(tái),可以通過(guò)簡(jiǎn)單拖拽無(wú)需編寫代碼,而負(fù)責(zé)的數(shù)學(xué)公式被封裝成算子組件。國(guó)外的亞馬遜AWS,微軟的AZURE,R2.ai,國(guó)內(nèi)的阿里PI,第四范式的先知平臺(tái)都是類似產(chǎn)品。

現(xiàn)在深度學(xué)習(xí)建模過(guò)程也被封裝成了組件化建模,國(guó)外的deepcognition,國(guó)內(nèi)即將上線的阿里PI新版本也將支持深度學(xué)習(xí)組件化建模,聯(lián)想的AI平臺(tái)可以支持簡(jiǎn)單的圖像分類識(shí)別。

如果你感覺(jué)組件化還是麻煩,那么筆者要告訴你,現(xiàn)在自動(dòng)化建模也是一大趨勢(shì),國(guó)外的datarobot就是其中的典型產(chǎn)品,只需要上傳一份打好標(biāo)簽的csv數(shù)據(jù),選擇標(biāo)簽,點(diǎn)擊開(kāi)始,系統(tǒng)自動(dòng)從數(shù)千開(kāi)源模型中選擇100個(gè)模型進(jìn)行自動(dòng)化調(diào)參訓(xùn)練,選出最優(yōu)模型,并提易懂專業(yè)的數(shù)據(jù)和模型分析報(bào)告,指導(dǎo)非專家用戶使用。

所以不要因?yàn)閼峙聦懘a和數(shù)學(xué)而懼怕AI,其實(shí)他們沒(méi)有必然聯(lián)系,下文會(huì)介紹一些AI-機(jī)器學(xué)習(xí)的常用概念,進(jìn)一步揭開(kāi)AI的面紗。

3. AI相關(guān)的抽象概念太多,讓人不明覺(jué)厲

2018年羅胖的跨年演講中提到了人類的一項(xiàng)重要能力:抽象能力,世界太復(fù)雜,為了便于理解和溝通協(xié)作,我們會(huì)將很多事物進(jìn)行抽象,但是,當(dāng)我們不具備對(duì)抽象概念的還原能力時(shí),我們常會(huì)產(chǎn)生恐懼,敬畏或排斥的情緒,對(duì)我們這些非數(shù)據(jù)科學(xué)專業(yè)的人來(lái)說(shuō)。

初遇AI時(shí)就是如此,AI的底層是數(shù)學(xué),而數(shù)學(xué)是對(duì)現(xiàn)實(shí)世界的高度抽象。當(dāng)我們聽(tīng)到算法,模型,過(guò)擬合,召回率,auc,隨機(jī)森林,樸素貝葉斯等高度抽象的詞匯時(shí),當(dāng)我們看到幾十行數(shù)學(xué)公式推導(dǎo)時(shí),我們會(huì)本能的不明覺(jué)厲。

舉個(gè)例子:我這樣介紹我的項(xiàng)目:“我們利用無(wú)監(jiān)督學(xué)習(xí)Kmeans模型完成用戶標(biāo)簽聚類,使用XGBOOST模型,SVM模型預(yù)測(cè)用戶購(gòu)買期望,進(jìn)而實(shí)現(xiàn)精準(zhǔn)推薦”。

聽(tīng)完這句介紹你是什么感覺(jué),如果一個(gè)完全沒(méi)接觸過(guò)機(jī)器學(xué)習(xí)的小白可能瞬間就懵逼了。原因很簡(jiǎn)單,簡(jiǎn)單一句話中包含了大量你無(wú)法理解的抽象概念,而事實(shí)可能并非如此。

同樣的介紹我換一種說(shuō)法:“我們通過(guò)一些規(guī)則給用戶打上標(biāo)簽,使用一套計(jì)算規(guī)則預(yù)測(cè)用戶希望購(gòu)買哪些商品,然后給他們做相應(yīng)推薦”,是不是瞬間感覺(jué)沒(méi)那么高大上了。

下文嘗試用簡(jiǎn)單類比對(duì)這些抽象概念進(jìn)行說(shuō)明,但前提是讀者需要先摒棄掉那種對(duì)抽象概念的恐懼,我相信,看完本文后,當(dāng)你聽(tīng)到這些抽象概念時(shí)可以淡然一笑,既不恐懼也不敬畏,并且理解其本質(zhì)。

網(wǎng)上有一張圖,很有意思,生動(dòng)的表明了不同的人對(duì)機(jī)器學(xué)習(xí)的理解:

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

別人眼中的機(jī)器學(xué)習(xí)

先來(lái)看一些基礎(chǔ)概念,這些概念會(huì)在后面的數(shù)據(jù)預(yù)處理,特征工程,模型調(diào)參和評(píng)估中用到,現(xiàn)在這里做簡(jiǎn)要類比和舉例說(shuō)明。

4. 機(jī)器學(xué)習(xí)常用抽象概念梳理

ai,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。這三個(gè)概念是包含關(guān)系,ai>機(jī)器學(xué)習(xí)>深度學(xué)習(xí)。

我們耳熟能詳?shù)纳疃葘W(xué)習(xí)實(shí)際上是機(jī)器學(xué)習(xí)大家族中的一個(gè)分支,如下圖所示,本文主要討論傳統(tǒng)機(jī)器學(xué)習(xí)(淺層學(xué)習(xí))部分內(nèi)容,深度學(xué)習(xí)還在學(xué)習(xí)當(dāng)中,也在抽象其建模過(guò)程,感興趣的朋友可以加好友共同學(xué)習(xí)。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

(1)監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)就是模型學(xué)習(xí)的數(shù)據(jù)需要有標(biāo)簽,非監(jiān)督學(xué)習(xí)就是模型學(xué)習(xí)的數(shù)據(jù)無(wú)需有標(biāo)簽,那么什么是標(biāo)簽?zāi)兀?/p>

舉個(gè)例子:下圖是心臟數(shù)據(jù),其中ihealth特征含有兩個(gè)值,1代表患有心臟病,0代表沒(méi)有心臟病,當(dāng)我們需要預(yù)測(cè)用戶是否患有心臟病時(shí),因?yàn)橛袃蓚€(gè)結(jié)果,那就是一個(gè)二分類問(wèn)題,ihealth就這個(gè)數(shù)據(jù)集的標(biāo)簽特征。

每一列代表一個(gè)特征,每一行數(shù)據(jù)代表一個(gè)樣本,進(jìn)入模型的數(shù)據(jù)需要保證主鍵唯一,主鍵通常是用戶的身份證號(hào)碼,編號(hào)或者手機(jī)號(hào)等唯一標(biāo)識(shí)。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

(2)訓(xùn)練集,驗(yàn)證集和預(yù)測(cè)集

通常情況下,會(huì)將完成特征工程和標(biāo)簽工程的數(shù)據(jù)拆成三份:一份訓(xùn)練數(shù)據(jù),一份驗(yàn)證數(shù)據(jù),一份預(yù)測(cè)數(shù)據(jù),其比例大概可以設(shè)為數(shù)據(jù)集的60%,20%和20%。訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于驗(yàn)證訓(xùn)練集訓(xùn)練模型效果,通過(guò)調(diào)參逐步提高驗(yàn)證集上模型的預(yù)測(cè)效果,預(yù)測(cè)集用于判斷模型對(duì)于新數(shù)據(jù)是否有效,是否存在過(guò)擬合。

大概流程如下圖所示:

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

(3)欠擬合和過(guò)擬合

欠擬合是在驗(yàn)證集上預(yù)測(cè)的效果不好,也就是沒(méi)有將我們希望分類的兩組數(shù)據(jù)分開(kāi)。過(guò)擬合就是在驗(yàn)證集上效果很好,但是預(yù)測(cè)真實(shí)數(shù)據(jù)時(shí)效果很不好。

如下圖所示:左一圖屬于欠擬合,因?yàn)椴](méi)有將目標(biāo)數(shù)據(jù)按照結(jié)果標(biāo)簽很好的完成分類,彼此摻雜在一起;右一就是過(guò)擬合,為了把所有數(shù)據(jù)都分開(kāi),出現(xiàn)了一份非常復(fù)雜的曲線,因?yàn)樘珡?fù)雜,應(yīng)用于新的數(shù)據(jù)時(shí)往往預(yù)測(cè)效果不好,當(dāng)數(shù)據(jù)量很小時(shí)容易出現(xiàn)過(guò)擬合。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

(4)算法模型的本質(zhì)

算法的本質(zhì)是一個(gè)函數(shù),我們可以將模型想象成一個(gè)盒子,這個(gè)盒子有輸入和輸出,還有一些可以設(shè)置數(shù)值的面板,我們把數(shù)據(jù)扔入其中,通過(guò)不斷調(diào)整數(shù)值(模型參數(shù)),提升這個(gè)盒子預(yù)測(cè)結(jié)果的準(zhǔn)確性,入下圖所示:

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

(5)樹(shù)模型和線性模型

線性模型是為所有進(jìn)入模型的特征賦予權(quán)重,并相加出來(lái)一個(gè)新的值,樹(shù)模型是一個(gè)一個(gè)特征進(jìn)行處理,常用的線性模型有邏輯回歸,SVM,常用的樹(shù)模型有XGBOOST,LIGHTGBM,隨機(jī)森林和GBDT。

線性模型相對(duì)來(lái)說(shuō)具有更好的解釋性,而且處理小數(shù)據(jù)量時(shí)效果較好,樹(shù)模型做大數(shù)據(jù)量訓(xùn)練速度快,模型預(yù)測(cè)效果較好,可解釋性不如線性模型,需要通過(guò)可視化的數(shù)據(jù)分樹(shù)來(lái)對(duì)模型解釋。

以邏輯回歸為例來(lái)簡(jiǎn)單說(shuō)明線性模型,其將所有特征賦予權(quán)重后加和變換為概率,這個(gè)這個(gè)概率通常稱為閾值,比如:模型預(yù)測(cè)得到閾值是0.6,通過(guò)數(shù)據(jù)分布我們?cè)O(shè)定閾值大于0.5為1,小于等于0.5為0,因?yàn)閿?shù)值為0.6,顧我們判定預(yù)測(cè)結(jié)果為1。

以決策樹(shù)為例來(lái)說(shuō)明樹(shù)模型,決策時(shí)類似于流程圖的樹(shù)形結(jié)構(gòu),樹(shù)內(nèi)的每個(gè)節(jié)點(diǎn)代表對(duì)一個(gè)特征的分類預(yù)測(cè),樹(shù)的每一葉子節(jié)點(diǎn)代表一個(gè)類別,為了訓(xùn)練決策樹(shù),我們需要使用訓(xùn)練數(shù)據(jù)集并找出那個(gè)屬性對(duì)目標(biāo)最有用。

(6)模型結(jié)果評(píng)估方法

因?yàn)槎诸愒趹?yīng)用中比較常見(jiàn),我們以二分類為例來(lái)說(shuō)明二分類的常用評(píng)估指標(biāo)。評(píng)估二分類模型的最重要指標(biāo)為auc,auc值越接近1模型的效果越好,auc為ROC曲線下的區(qū)域面積 。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

精確率(precision):是精確性的度量,表示被分為正例的示例中實(shí)際為正例的比例,precision=TP/(TP+FP)

召回率(recall):是覆蓋面的度量,度量有多個(gè)正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。

正確率(accuracy):是我們最常見(jiàn)的評(píng)價(jià)指標(biāo),accuracy = (TP+TN)/(P+N),這個(gè)很容易理解,就是被分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來(lái)說(shuō),正確率越高,分類器越好。

f1:是統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類模型精確度的一種指標(biāo)。它同時(shí)兼顧了分類模型的準(zhǔn)確率和召回率。f1分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。f1=2*precision*recall/(precision+recall)

根據(jù)模型效果可以將模型分成二分類模型,多分類模型,回歸模型,時(shí)間序列模型,聚類模型,推薦模型,筆者嘗試通過(guò)案例一句話介紹常用模型應(yīng)用場(chǎng)景,并附上通俗易懂的拓展閱讀材料,幫助大家更深刻的理解這些模型可以如何應(yīng)用。

二分類:可以把預(yù)測(cè)目標(biāo)抽象成兩類,如預(yù)測(cè)是否患有心臟病,預(yù)測(cè)用戶對(duì)某個(gè)產(chǎn)品是否感興趣,可以將預(yù)測(cè)結(jié)果抽象成0和1。阿里PI平臺(tái)提供了心臟病預(yù)測(cè)案例https://help.aliyun.com/knowledge_detail/34929.html

多分類:可以把預(yù)測(cè)目標(biāo)抽象成多個(gè)類別,如預(yù)測(cè)用戶年齡段等,一般情況會(huì)將多分類問(wèn)題轉(zhuǎn)化成二分類處理。

回歸:預(yù)測(cè)某個(gè)時(shí)間點(diǎn)數(shù)值的模型,如預(yù)測(cè)房?jī)r(jià),預(yù)測(cè)產(chǎn)品價(jià)格等。典型案例是預(yù)測(cè)波士頓房?jī)r(jià)。https://blog.csdn.net/Teresa_Xin/article/details/79204769

時(shí)間序列:預(yù)測(cè)某一段時(shí)間多個(gè)數(shù)值的模型,如預(yù)測(cè)未來(lái)一周每天股票價(jià)格,預(yù)測(cè)未來(lái)一段時(shí)間最高氣溫。

聚類:無(wú)監(jiān)督學(xué)習(xí),數(shù)據(jù)無(wú)需標(biāo)簽,根據(jù)設(shè)定分組數(shù)自動(dòng)進(jìn)行分組,通過(guò)觀察分組數(shù)據(jù)特征給用戶分群打標(biāo),常用于用戶分群,案例青少年市場(chǎng)細(xì)分。http://cookdata.cn/note/view_static_note/201ad8d4a6c12768f7f79754a45e1b77/

推薦模型:經(jīng)典推薦模型是協(xié)同過(guò)濾,協(xié)同過(guò)濾分為兩類,基于產(chǎn)品的協(xié)同過(guò)濾和基于用戶的協(xié)同過(guò)濾?;诋a(chǎn)品的協(xié)同過(guò)濾是用戶A喜歡蘋果,然后通過(guò)算法計(jì)算出其他水果與蘋果的相似度,然后進(jìn)行推薦給A;基于用戶的協(xié)同過(guò)濾是用戶A喜歡蘋果,將同樣喜歡蘋果的用戶B喜歡的額其他產(chǎn)品推薦給A。推薦閱讀文章https://www.jianshu.com/p/e56665c54df8

不同類模型的常用算法如下圖所示,希望讀者們?cè)倏吹竭@些抽象模型名字后莫慌,可以思考他們處理哪類,一步步思考如何應(yīng)用。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

二、機(jī)器學(xué)習(xí)項(xiàng)目流程

本章節(jié)分為兩部分,第一部分介紹機(jī)器學(xué)習(xí)為業(yè)務(wù)賦能類項(xiàng)目的常規(guī)流程,第二部分介紹常規(guī)的建模流程。

1. 機(jī)器學(xué)習(xí)為業(yè)務(wù)賦能流程

1.1 商業(yè)理解

明確商業(yè)問(wèn)題和數(shù)據(jù)挖掘目標(biāo),需要通過(guò)與一線業(yè)務(wù)和運(yùn)營(yíng)人員溝通,深入理解商業(yè)問(wèn)題的背景,同時(shí)對(duì)項(xiàng)目所需資源進(jìn)行評(píng)估,這個(gè)階段就需要明確項(xiàng)目商業(yè)目標(biāo)和成功的評(píng)估標(biāo)準(zhǔn)。實(shí)施要點(diǎn),充分溝通調(diào)研,設(shè)定適合的機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景。常見(jiàn)的場(chǎng)景有提升用戶復(fù)購(gòu),優(yōu)化用戶推薦,預(yù)測(cè)用戶流失實(shí)施召回。本質(zhì)來(lái)說(shuō),商業(yè)的核心問(wèn)題就是增加收入、減少流失和人員提效。

注:機(jī)器學(xué)習(xí)類項(xiàng)目一定要與業(yè)務(wù)方或運(yùn)營(yíng)方深度合作,彼此參與,共同推進(jìn)項(xiàng)目,因?yàn)闃I(yè)務(wù)的優(yōu)化常常伴隨著KPI提高,人效提高常伴隨著裁員等業(yè)務(wù)擔(dān)心問(wèn)題,可能面對(duì)很大阻礙。

1.2 數(shù)據(jù)理解

根據(jù)商業(yè)痛點(diǎn)和目標(biāo),梳理企業(yè)內(nèi)部外數(shù)據(jù),探索建模索要的目標(biāo)變量,確定建模需要的數(shù)據(jù),確定取數(shù)口徑,明確數(shù)據(jù)業(yè)務(wù)指標(biāo)業(yè)務(wù)含義和指標(biāo)使用規(guī)則。這個(gè)過(guò)程中算法同學(xué)需要深入介入業(yè)務(wù)中,理解各項(xiàng)業(yè)務(wù)指標(biāo)含義,并根據(jù)業(yè)務(wù)的理解完成后續(xù)數(shù)據(jù)預(yù)處理和特征工程等操作。

注:必備的內(nèi)外部數(shù)據(jù)獲取,需要保證許菊的一致性,完整性和準(zhǔn)確性,數(shù)據(jù)理解階段觸目確定目標(biāo)因子。

1.3 數(shù)據(jù)準(zhǔn)備

將數(shù)據(jù)集合成大寬表或創(chuàng)建數(shù)據(jù)集市,對(duì)數(shù)據(jù)進(jìn)行清洗,轉(zhuǎn)換,校驗(yàn)數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,需要使用科學(xué)的編碼規(guī)范指導(dǎo)編碼。該階段需要對(duì)數(shù)據(jù)缺失值,異常值進(jìn)行處理。同時(shí)需要完成特征工程,特征工程是耗費(fèi)時(shí)間最多的過(guò)程,一般情況,建模中花費(fèi)特征工程耗費(fèi)整個(gè)項(xiàng)目近80%的時(shí)間。

1.4 數(shù)據(jù)建模

選擇合適的模型算法技術(shù),實(shí)現(xiàn)數(shù)據(jù)挖掘目標(biāo),通過(guò)樣本選取,確定訓(xùn)練集,驗(yàn)證集和預(yù)測(cè)集數(shù)據(jù),該階段需要完成特征篩選,模型訓(xùn)練和調(diào)參,模型預(yù)測(cè)評(píng)估,是否滿足目標(biāo)。

注:特征數(shù)據(jù)決定了模型的上限效果,模型調(diào)參只是讓模型的效果趨向這個(gè)上限。二分類模型評(píng)估指標(biāo)auc可以調(diào)優(yōu)范圍很小,優(yōu)化0.01都非常困難,在一些建模比賽中可能auc差異可能只有0.0001

1.5 模型評(píng)估

全面應(yīng)用模型進(jìn)行預(yù)測(cè),判斷是否實(shí)現(xiàn)商業(yè)目標(biāo),通過(guò)科學(xué)的A/B測(cè)試,對(duì)目標(biāo)場(chǎng)景進(jìn)行模型應(yīng)用,收集反饋效果,對(duì)預(yù)測(cè)效果進(jìn)行評(píng)估分析,確定其統(tǒng)計(jì)有效性和真實(shí)有效性,判斷是否滿足商業(yè)目標(biāo)。

1.6 模型部署

將驗(yàn)證有效的模型應(yīng)用于商業(yè)環(huán)境,并監(jiān)控與維護(hù)模型,實(shí)時(shí)跟蹤模型效果,驗(yàn)證商業(yè)目標(biāo)達(dá)成情況,總結(jié)報(bào)告,積累經(jīng)驗(yàn)。

2. 常規(guī)建模流程

從業(yè)務(wù)系統(tǒng)或日志系統(tǒng)進(jìn)行數(shù)據(jù)提取,數(shù)據(jù)預(yù)處理,特征工程,模型訓(xùn)練和調(diào)優(yōu),預(yù)測(cè)和評(píng)估,如下圖所示。我們還是以心臟病的數(shù)據(jù)為例:我們從系統(tǒng)中導(dǎo)出歷史數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),因?yàn)獒t(yī)療數(shù)據(jù)很多都已經(jīng)有標(biāo)簽的,無(wú)需再次打標(biāo),后面會(huì)講解數(shù)據(jù)沒(méi)有標(biāo)簽如何處理。

拿到數(shù)據(jù)后,第一步,進(jìn)行預(yù)處理。處理缺失值和異常值問(wèn)題,缺失值很容易理解,就是給那些沒(méi)數(shù)據(jù)特征填一個(gè)數(shù)值,簡(jiǎn)單方法可以填充固定值(如-999),平均值,眾數(shù)或中位數(shù)等,復(fù)雜的方法可以利用XXX,填充相似數(shù)據(jù)特征的缺失值。

異常值是指將一些不靠譜的值提出,比如年齡數(shù)據(jù),理論上是0-120,當(dāng)年齡字段出現(xiàn)309時(shí)我們就需要將其調(diào)整到正常范圍,簡(jiǎn)單的方法可以將其調(diào)整到上限,眾數(shù)或中位數(shù)等。

第二步,進(jìn)行特征工程,因?yàn)樗惴P捅举|(zhì)就是數(shù)學(xué),所以要把類別特征轉(zhuǎn)換成數(shù)值,比如原始數(shù)據(jù)中性別那一列中是男,女,那么我們就需要將其變成數(shù)值0,1,其中0代表男,1代表女。

one-hot特征編碼也是一種常見(jiàn)的處理特征的方法,如一個(gè)特征包含0,1,2三個(gè)數(shù)值,那么可以一特征拆成三個(gè),分別用0,0,1代表0,用0,1,0代表1,用戶1,0,0代表2,也就是把不同的類別特征都用0和1去表示,還有很多其他方式,如結(jié)合業(yè)務(wù)規(guī)則構(gòu)建特征,特征多項(xiàng)式交叉相乘,PCA降維等。

特征工程可以說(shuō)是建模過(guò)程中最耗時(shí)的部分,算法工程師實(shí)際建模工作中將會(huì)有80-90%的時(shí)間花在特征工程階段。

第三步,模型訓(xùn)練和調(diào)參。也就是將完成預(yù)處理和特征工程的數(shù)據(jù)接入模型,找到相對(duì)最優(yōu)的模型參數(shù),并基于訓(xùn)練數(shù)據(jù)訓(xùn)練處最優(yōu)模型。

第四步,模型預(yù)測(cè)和評(píng)估。使用訓(xùn)練好的模型跑驗(yàn)證數(shù)據(jù),查看預(yù)測(cè)效果,并根據(jù)模型效果繼續(xù)調(diào)參,經(jīng)過(guò)更多輪循環(huán)找到最有模型參數(shù)。

第五步,模型應(yīng)用和效果評(píng)估。使用歷史數(shù)據(jù)完成模型訓(xùn)練和調(diào)優(yōu)后我們需要應(yīng)用到真實(shí)業(yè)務(wù)中,通過(guò)A/B測(cè)試查看模型的真實(shí)效果。

第六步,模型優(yōu)化,隨著業(yè)務(wù)拓展和環(huán)境變化,可能產(chǎn)生新的特征,所以模型要進(jìn)行持續(xù)調(diào)優(yōu)。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

注:應(yīng)用不同類模型特征工程方法不同,如使用線性模型需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化或歸一化,統(tǒng)一不同特征量綱,而樹(shù)模型則無(wú)需進(jìn)行這類操作。

三、模型應(yīng)用實(shí)例概述

本章節(jié)通過(guò)三個(gè)典型案例介紹三類常用模型,同時(shí)介紹非專家用戶應(yīng)用機(jī)器學(xué)習(xí)建模的難點(diǎn),同時(shí)嘗試提供解決方案。現(xiàn)在很多同類文章都包含了大量python實(shí)現(xiàn)代碼和數(shù)學(xué)模型分析,對(duì)于非專家用戶不太友好,筆者嘗試用流程介紹告知模型是如何應(yīng)用,其中提到了如何進(jìn)行簡(jiǎn)單的特征工程操作。

1. 模型應(yīng)用實(shí)例

1.1 二分類模型(邏輯回歸-泰坦尼克號(hào)預(yù)測(cè)生還概率)

泰坦尼克號(hào)生還實(shí)驗(yàn)可謂是一個(gè)經(jīng)典二分類預(yù)測(cè),在kaggle平臺(tái)上一直開(kāi)放,截止到2019年5月2日,共有11374個(gè)隊(duì)伍參加預(yù)測(cè)學(xué)習(xí),訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)為泰坦尼克號(hào)上的所有乘客基礎(chǔ)數(shù)據(jù),訓(xùn)練集包含819條數(shù)據(jù),11個(gè)特征和1個(gè)標(biāo)簽列,標(biāo)簽列告知用戶是否生還,生還為1,去世了為0,預(yù)測(cè)數(shù)據(jù)包含了418條數(shù)據(jù),11個(gè)特征,需要預(yù)測(cè)這418個(gè)人是否生還。

筆者嘗試使用組件化建模工具開(kāi)始建模,過(guò)程如下:

首先進(jìn)行訓(xùn)練數(shù)據(jù)全表分析,查看缺失值情況,各特征的統(tǒng)計(jì)信息,其中cabin缺失率近80%刪除該特征,年齡特征也包含一定缺失值我們選擇填充年齡中位數(shù)。

對(duì)數(shù)值型特征進(jìn)行異常特征平滑和歸一化,異常特征平滑就是將異常值填充固定值,所謂歸一化就是將數(shù)值型數(shù)據(jù)歸一到[0,1]中間,轉(zhuǎn)換函數(shù)為:x = (x-min)/(max-min)? 。

對(duì)類別特征進(jìn)行類別特征編碼,對(duì)客艙等級(jí),船票等級(jí)等類別特征進(jìn)行onehot操作,并將處理完成后的數(shù)據(jù)分成訓(xùn)練集,驗(yàn)證集和預(yù)測(cè)集,使用邏輯回歸模型,進(jìn)行自動(dòng)調(diào)參運(yùn)算,選擇最優(yōu)參數(shù)后保存模型,將官方提供預(yù)測(cè)數(shù)據(jù)經(jīng)過(guò)上述特征工程后接入最優(yōu)模型,預(yù)測(cè)用戶是否生還,得到的結(jié)果是一個(gè)概率,也稱為閾值,當(dāng)閾值大于0.5的則判定為1(生還),小于0.5判定為0(遇難),預(yù)測(cè)結(jié)果準(zhǔn)確率為0.7799。

結(jié)果如下圖所示,結(jié)果表示再給我一條新的樣本,有78%概率可以準(zhǔn)確預(yù)測(cè)用戶是生還還是遇難。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

1.2 回歸模型(XGBOOST-預(yù)測(cè)波士頓房?jī)r(jià))

前文中提到預(yù)測(cè)具體數(shù)值的模型可以稱為回歸預(yù)測(cè),本案例也是經(jīng)典回歸預(yù)測(cè)案例,數(shù)據(jù)集大家可以到UCI機(jī)器學(xué)習(xí)知識(shí)庫(kù)下載,波士頓房屋這些數(shù)據(jù)于1978年開(kāi)始統(tǒng)計(jì),共506個(gè)數(shù)據(jù)點(diǎn),涵蓋了麻省波士頓不同郊區(qū)房屋14種特征的信息。包含城市人均犯罪率,住在用地所占比例,城鎮(zhèn)中非商業(yè)用地所占比例,CHAS查爾斯河虛擬變量,環(huán)保指數(shù),沒(méi)懂住在的房間數(shù)等特征,標(biāo)簽特征為自住房屋價(jià)格的中位數(shù)。

數(shù)據(jù)預(yù)處理和特征工程與二分類相似,回歸模型評(píng)估模型效果的指標(biāo)有幾個(gè),SSE,MSE,RMSE,R-square,這個(gè)案例中我們通過(guò)運(yùn)算決定系數(shù)R-square來(lái)量化模型的表現(xiàn),決定系數(shù)是回歸分析中十分常用的統(tǒng)計(jì)信息,經(jīng)常被當(dāng)作衡量模型預(yù)測(cè)能力好壞的標(biāo)準(zhǔn)。

R-square數(shù)值范圍從0至1,表示目標(biāo)變量的預(yù)測(cè)值和實(shí)際值之間的相關(guān)程度平方的百分比。一個(gè)模型的R-square?值為0還不如直接用平均值來(lái)預(yù)測(cè)效果好,而一個(gè)R-square?值為1的模型則可以對(duì)目標(biāo)變量進(jìn)行完美的預(yù)測(cè)。從0至1之間的數(shù)值,則表示該模型中目標(biāo)變量中有百分之多少能夠用特征來(lái)解釋。

1.3 聚類模型(Kmeans-聚類高中生分群)

聚類模型是無(wú)監(jiān)督模型,我們以前文中提到青少年市場(chǎng)細(xì)分為例,通過(guò)對(duì)30000個(gè)美國(guó)高中生社交網(wǎng)絡(luò)信息數(shù)據(jù)集聚類,實(shí)現(xiàn)用戶分群聚類,按照前文中所使用的異常特征平滑,歸一化,類別特征編碼,onehot等步驟,完成數(shù)據(jù)預(yù)處理和特征工程,模型我們選用常用聚類模型K-means,我們選擇將數(shù)據(jù)聚成5類。

從結(jié)果來(lái)看我們將數(shù)據(jù)聚成了5組,如下圖所示:

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

因?yàn)闆](méi)有標(biāo)簽,我們需要查看每一個(gè)聚類中心的變量取值從大到小進(jìn)行排序。 通過(guò)觀察每個(gè)聚類前10個(gè)變量來(lái)分析聚類所代表的群體,所以我們需要通過(guò)分析聚類結(jié)果來(lái)確定分群用戶有哪些類似愛(ài)好和特點(diǎn)。

通常情況下,用戶分群可以基于規(guī)則認(rèn)為設(shè)定,而聚類模型的聚類特征可以作為分類模型和回歸模型的特征接入模型。

舉例來(lái)說(shuō):當(dāng)我們要基于用戶活躍度指標(biāo)進(jìn)行用戶分群時(shí),我們可以考慮將所有跟活躍相關(guān)的特征作為訓(xùn)練特征,然后設(shè)定分群數(shù),通過(guò)聚類模型完成分群后分析分群數(shù)據(jù)特征,進(jìn)而實(shí)現(xiàn)用戶打標(biāo)。

2. 非專家用戶的門檻在哪里

2.1 不會(huì)寫代碼

寫代碼可以說(shuō)是很多非程序員眼中巨大的門檻,其實(shí)python相比于大學(xué)時(shí)普遍學(xué)習(xí)的C或java簡(jiǎn)單很多,大量的服務(wù)和實(shí)現(xiàn)已經(jīng)封裝成包,通過(guò)import引用即可應(yīng)用,現(xiàn)在很多小學(xué)都開(kāi)始普及編程,很多少兒編程輔導(dǎo)機(jī)構(gòu)可以讓孩子快速使用python完成深度學(xué)習(xí),甚至實(shí)現(xiàn)玩具汽車的無(wú)人駕駛。

而且前文中提到,大量的可視化建模工具和自動(dòng)化建模工具出現(xiàn),這將極大降低AI技術(shù)應(yīng)用的門檻。其實(shí)從前文中的建模流程不難看出,算法工程師也需要先熟悉業(yè)務(wù)才能開(kāi)始建模,這部分來(lái)看,如果有工具可以解決建模過(guò)程那么業(yè)務(wù)人員對(duì)業(yè)務(wù)的理解將更加深刻。所以還是建議對(duì)這方面感興趣的同學(xué)可以打破心理枷鎖,咬牙學(xué)一下python,前10個(gè)小時(shí)可能很痛苦,但是掌握了后續(xù)就非常簡(jiǎn)單了。

注:并不是算法同學(xué)不重要,真正高級(jí)的建模一定是結(jié)合業(yè)務(wù)理解和統(tǒng)計(jì)學(xué)知識(shí)的特征構(gòu)建,而不是簡(jiǎn)單聚合和轉(zhuǎn)換,組件化和自動(dòng)學(xué)習(xí)可以讓企業(yè)快速應(yīng)用模型,實(shí)現(xiàn)一定程度的提升,但是進(jìn)一步的模型優(yōu)化一定需要專業(yè)經(jīng)驗(yàn)的算法同學(xué)介入。

2.2 不會(huì)調(diào)參

模型有很多參數(shù),如樹(shù)模型的樹(shù)的棵樹(shù),樹(shù)的最大深度,學(xué)習(xí)率,隨機(jī)種子等,非數(shù)據(jù)學(xué)相關(guān)專業(yè)的同學(xué)看到可能直接懵逼,但是現(xiàn)在主流的建模平臺(tái)都提供了自動(dòng)調(diào)參功能,自動(dòng)學(xué)習(xí)工具甚至提供了根據(jù)上游數(shù)據(jù)結(jié)構(gòu)進(jìn)行自動(dòng)調(diào)參,所以這部分不用恐懼,跟著樣例做幾次就知道了。

2.3 不會(huì)做特征工程

所謂特征工程是將特征日志或多系統(tǒng)數(shù)據(jù)“拍平”成模型可用的特征,并對(duì)特征進(jìn)行各種變化拓展,通常算法工程師會(huì)將幾個(gè)業(yè)務(wù)特征拓展成幾百個(gè)特征,下面筆者簡(jiǎn)單介紹一下特征如何“拍平”和拓展。

日志數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)通常是根據(jù)時(shí)間維度,多個(gè)主鍵列表,如電商訂單數(shù)據(jù),用戶A可能有幾十條購(gòu)買訂單記錄,建模的預(yù)測(cè)是對(duì)單個(gè)主鍵進(jìn)行預(yù)測(cè),所以需要將多條訂單“拍平”,也就是用戶A的手機(jī)號(hào)或者系統(tǒng)ID合成一條記錄,那么多條記錄如何合并呢?

這就是設(shè)計(jì)到特征拓展,比如可以設(shè)定一個(gè)時(shí)間段內(nèi)用戶A的訂單數(shù),購(gòu)買總金額,購(gòu)買A產(chǎn)品的數(shù)量,購(gòu)買B產(chǎn)品的數(shù)量,單筆訂單最大支付金額,單筆訂單最小支付金額,訂單平均間隔,訂單最大間隔等,將單挑記錄通過(guò)最小,最大,平均等維度拍平后,需要對(duì)類別特征變換,常用的特征工程方法有類別特征編碼,onehot,離散化等操作。

類別特征編碼是指將業(yè)務(wù)類別特征變成數(shù)值,如使用優(yōu)惠券滿減,直降和未使用可以標(biāo)記為0,1,2;onehot編碼是將類別特征變成使用0和1表示的特征,如將上述優(yōu)惠券一個(gè)特征變成了0,0,1和0,1,0,和1,0,0三個(gè)特征;離散化是指將連續(xù)的特征變成類別特征,如對(duì)年齡分段,0-10歲定為0,11-20定為1,以此類推,就可以對(duì)年齡特征變成一個(gè)類別特征,然后再做onebot。

注:數(shù)據(jù)拍平對(duì)于非專家用戶很難處理,但是我參與的項(xiàng)目已經(jīng)找到了解決方案,可以將多張表根據(jù)關(guān)聯(lián)關(guān)系和數(shù)據(jù)類型自動(dòng)化拍平成為模型可用特征,相信其他平臺(tái)也會(huì)提供這項(xiàng)服務(wù),筆者認(rèn)為,這是制約非專家用戶應(yīng)用機(jī)器學(xué)習(xí)模型的一大門檻,和下文中提到的標(biāo)簽工程類似。

2.4 不會(huì)做標(biāo)簽工程

前文中提到的心臟病預(yù)測(cè),泰坦尼克號(hào)生還預(yù)測(cè),房?jī)r(jià)預(yù)測(cè)都是自帶標(biāo)簽,但很多時(shí)候,數(shù)據(jù)中沒(méi)有辦法直接擁有這種分類或者數(shù)值屬性的標(biāo)簽,通常使用滑窗法制作標(biāo)簽。

如下圖所示,我們要預(yù)測(cè)7月份用戶是否有購(gòu)買商品A的欲望,我們可以使用2,3,4月三個(gè)月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),5月的數(shù)據(jù)作為標(biāo)簽數(shù)據(jù)制作訓(xùn)練集。因?yàn)?月份我們知道用戶是否購(gòu)買了A產(chǎn)品,然后再用3,4,5三個(gè)月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),通過(guò)6月份用戶是否購(gòu)買A產(chǎn)品作為標(biāo)簽,這樣我們可以用歷史數(shù)據(jù)完成模型訓(xùn)練,然后應(yīng)用于對(duì)用戶7月份是否購(gòu)買某商品的預(yù)測(cè)。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

四、AI項(xiàng)目立項(xiàng)模板

1. 商業(yè)痛點(diǎn)分析及目標(biāo)分解

如前文所述,在啟動(dòng)AI項(xiàng)目之前,要梳理商業(yè)邏輯,分析現(xiàn)有的痛點(diǎn),將痛點(diǎn)拆解為目標(biāo),模型圍繞目標(biāo)去構(gòu)建。常見(jiàn)的目標(biāo)有提升營(yíng)銷效率,實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷,減少用戶干擾,減少用戶流失,提升轉(zhuǎn)化率,提升ROI等。

筆者發(fā)現(xiàn)所有的AI項(xiàng)目都會(huì)涉及到用戶或客戶畫像,因?yàn)闃?gòu)建模型的特征一版包含三部分:一部分是用戶的靜態(tài)信息,一部分是用戶的行為和交易信息,一部分是用戶應(yīng)用的場(chǎng)景信息。

而用戶的景泰信息和一些行為信息都可以抽象為用戶畫像,所以很多AI項(xiàng)目的目標(biāo)還包括為用戶或客戶構(gòu)建畫像,便于產(chǎn)品和運(yùn)營(yíng)方更加理解自己的服務(wù)對(duì)象。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

2. 項(xiàng)目架構(gòu)

利用機(jī)器學(xué)習(xí)的項(xiàng)目架構(gòu)類似,大家可以參考CDP系統(tǒng)項(xiàng)架構(gòu)來(lái)完成項(xiàng)目的整體架構(gòu)設(shè)計(jì),筆者簡(jiǎn)單結(jié)合自己的理解簡(jiǎn)單搭建一個(gè)項(xiàng)目架構(gòu)作為參考。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

3. 技術(shù)架構(gòu)

筆者與工程同學(xué)和算法同學(xué)溝通,了解到一些建模平臺(tái)的底層技術(shù),構(gòu)架如下圖所示。

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱HDFS。Hadoop實(shí)質(zhì)上更多是一個(gè)分布式數(shù)據(jù)基礎(chǔ)設(shè)施: 它將巨大的數(shù)據(jù)集分派到一個(gè)由普通計(jì)算機(jī)組成的集群中的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ),意味著您不需要購(gòu)買和維護(hù)昂貴的服務(wù)器硬件。

Apache Hadoop YARN (Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的 Hadoop 資源管理器,它是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。

Spark,是一個(gè)專門用來(lái)對(duì)分布式存儲(chǔ)的大數(shù)據(jù)進(jìn)行處理的工具,它并不會(huì)進(jìn)行分布式數(shù)據(jù)的存儲(chǔ)。

Hbase是Hadoop database,即Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),HBase基于列的而不是基于行的模式。

Hive基于數(shù)據(jù)倉(cāng)庫(kù),提供靜態(tài)數(shù)據(jù)的動(dòng)態(tài)查詢。其使用類SQL語(yǔ)言,底層經(jīng)過(guò)編譯轉(zhuǎn)為MapReduce程序,在Hadoop上運(yùn)行,數(shù)據(jù)存儲(chǔ)在HDFS上。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

4. 項(xiàng)目規(guī)劃

通常來(lái)說(shuō)機(jī)器學(xué)習(xí)類項(xiàng)目一期多為構(gòu)建用戶畫像,二期結(jié)合畫像和用戶標(biāo)簽體系構(gòu)建模型,設(shè)計(jì)試運(yùn)行策略,根據(jù)實(shí)際效果對(duì)模型進(jìn)行調(diào)優(yōu)??梢愿鶕?jù)不同的業(yè)務(wù)痛點(diǎn)構(gòu)建多個(gè)模型,逐步構(gòu)建起一整套模型體系,輔助決策。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

5. 應(yīng)用場(chǎng)景

結(jié)合具體應(yīng)用場(chǎng)景,描述如何將模型嵌入到現(xiàn)有業(yè)務(wù)流程當(dāng)中。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

6. 模型效果評(píng)估方法

模型的實(shí)際效果可以通過(guò)A/B測(cè)試進(jìn)行驗(yàn)證,選擇兩組用戶:一組保持原有運(yùn)營(yíng)或產(chǎn)品策略,一組使用機(jī)器學(xué)習(xí)模型推薦策略,通過(guò)一個(gè)業(yè)務(wù)周期的觀察,對(duì)比兩組用戶的效果評(píng)估指標(biāo)變化。

萬(wàn)字干貨|一篇文章助你了解機(jī)器學(xué)習(xí)

因?yàn)椴糠謨?nèi)容涉及公司業(yè)務(wù),不便于舉例說(shuō)明,文中多數(shù)案例均為初學(xué)者常見(jiàn)案例,大家可以搜索到相關(guān)內(nèi)容。

本文僅將筆者近一年的收獲和思考進(jìn)行梳理總結(jié),希望對(duì)各位讀者有所幫助。筆者還在學(xué)習(xí)深度學(xué)習(xí),NLP,推薦系統(tǒng)等相關(guān)AI知識(shí),AI產(chǎn)品經(jīng)理當(dāng)下來(lái)看屬于產(chǎn)品經(jīng)理全新的一個(gè)細(xì)分門類,希望可以與同行們多多交流學(xué)習(xí)~

#專欄作家#

田宇洲(微信公眾號(hào):言之有術(shù)),人人都是產(chǎn)品經(jīng)理專欄作家,北京大學(xué)軟件工程管理碩士,北京電信4年產(chǎn)品經(jīng)理,負(fù)責(zé)B2B電商平臺(tái)的前后端產(chǎn)品設(shè)計(jì),擅長(zhǎng)游戲化產(chǎn)品設(shè)計(jì),挖掘用戶畫像。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 受教了

    來(lái)自浙江 回復(fù)
  2. 可以轉(zhuǎn)載么???

    來(lái)自上海 回復(fù)
    1. 微信嗎?可以轉(zhuǎn)載,給我公眾號(hào),我給你開(kāi)白名單

      來(lái)自河北 回復(fù)
  3. 感謝分享

    回復(fù)
  4. 受教了!

    來(lái)自北京 回復(fù)
  5. 之前看別人寫的都是假大空的內(nèi)容,看這篇文章后有不少收獲,求帶!怎么聯(lián)系您

    來(lái)自北京 回復(fù)
    1. 加微信吧PMandytian

      來(lái)自河北 回復(fù)