自助機(jī)器學(xué)習(xí)平臺(tái)——Amazon SageMaker Canvas測(cè)評(píng)
編輯導(dǎo)語(yǔ):作為一款機(jī)器學(xué)習(xí)平臺(tái),Amazon SageMaker Canvas是否真的為數(shù)據(jù)分析師、業(yè)務(wù)分析師等崗位提供了更加智能化的數(shù)據(jù)分析路徑?本篇文章里,作者就對(duì)這款0代碼機(jī)器學(xué)習(xí)智能工具做了體驗(yàn)測(cè)評(píng),一起來(lái)看。
身邊有很多寫(xiě)SQL很厲害的數(shù)據(jù)分析人員,數(shù)據(jù)治理好了、對(duì)數(shù)據(jù)倉(cāng)庫(kù)、業(yè)務(wù)需求都很熟悉,因?yàn)閷?duì)機(jī)器學(xué)習(xí)算法、數(shù)據(jù)挖掘模型不是很熟悉,沒(méi)法獨(dú)立產(chǎn)出更高階的分析結(jié)果。
哪怕厲害的分析師自己花費(fèi)九牛二虎之力,做出了模型,還要對(duì)模型不斷地調(diào)優(yōu),一趟操作下來(lái),也累得夠嗆。
能否在沒(méi)有算法工程師支持的情況下,做模型訓(xùn)練和特征識(shí)別,快速調(diào)整策略呢?
最近體驗(yàn)了 Amazon SageMaker Canvas?這樣一款人人自助式機(jī)器學(xué)習(xí)工具,我找到了答案。
一、產(chǎn)品體驗(yàn)
1. 數(shù)據(jù)集選擇和介紹
筆者使用了Kaggle的公開(kāi)的銀行數(shù)據(jù)集。
包含了14個(gè)特征:序號(hào)、客戶(hù)ID、名字、信用分、地區(qū)、性別、年齡、保有期、余額、購(gòu)買(mǎi)的產(chǎn)品數(shù)量、是否有信用卡、是否活躍用戶(hù)、固定工資、是否正在從銀行中取錢(qián)。
其中,需要構(gòu)建的預(yù)測(cè)模型是:是否將會(huì)從銀行中取出錢(qián)。
基于該數(shù)據(jù)集,筆者完整地體驗(yàn)了 Amazon SageMaker Canvas?數(shù)據(jù)集管理、建模、預(yù)測(cè)的流程。
2. 導(dǎo)入數(shù)據(jù)和預(yù)覽
在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了一些特征提示。
也可以在此處對(duì)特征值進(jìn)行初步的篩選,缺失值、類(lèi)型不匹配、唯一值等,還可以初步判斷特征和目標(biāo)特征之間的線(xiàn)性相關(guān)關(guān)系、影響因子。
給出就給用戶(hù)一些特征權(quán)重的提示,能夠快速地調(diào)整選中的特征。
比如一些非關(guān)鍵特征:Surname、CustomerId,就被我去掉了。這樣,也適當(dāng)減少不必要的計(jì)算量,提高模型構(gòu)建速度。
3. 快速構(gòu)建和標(biāo)準(zhǔn)構(gòu)建
系統(tǒng)提供了兩種構(gòu)建模式:標(biāo)準(zhǔn)模式、快速模式。
快速構(gòu)建模型模式,模型構(gòu)建速度更快,精確度則要低一些。標(biāo)準(zhǔn)模式則反之,模型構(gòu)建耗時(shí)更多,精準(zhǔn)度則要高一些。
4. 模型構(gòu)建結(jié)果
模型的預(yù)測(cè)準(zhǔn)確率。
模型訓(xùn)練完,在概覽頁(yè)可以看到預(yù)測(cè)的精準(zhǔn)度為87.714%,也可以看到各個(gè)特征的影響值。
在得分頁(yè),可以看到具體的預(yù)測(cè)準(zhǔn)確數(shù)和錯(cuò)誤數(shù)。
點(diǎn)擊高級(jí)指標(biāo),也看到不同結(jié)果,模型的準(zhǔn)確度、精確度、召回值、AUC值。
5. 利用模型進(jìn)行預(yù)測(cè)
模型構(gòu)建完成后,可以利用模型進(jìn)行預(yù)測(cè)對(duì)單個(gè)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
也可以對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),系統(tǒng)會(huì)給出可能性。
二、應(yīng)用前景介紹
筆者所在的領(lǐng)域,是直播領(lǐng)域。用戶(hù)運(yùn)營(yíng)、數(shù)據(jù)分析師們?nèi)粘?huì)對(duì)投放轉(zhuǎn)化、用戶(hù)活躍、用戶(hù)留存、用戶(hù)召回率這些核心指標(biāo)日常關(guān)注。
哪些特征的用戶(hù)的增加和流失,對(duì)平臺(tái)的活躍、營(yíng)收指標(biāo)影響巨大。
場(chǎng)景1:廣告投放
互聯(lián)網(wǎng)內(nèi)容領(lǐng)域,廣告投放對(duì)保持日活、增加營(yíng)收的影響非常巨大。
通過(guò)廣告投放獲取的這波新用戶(hù),是否具有消費(fèi)潛力呢?要用什么樣的內(nèi)容做用戶(hù)承接,通過(guò)什么關(guān)鍵路徑能夠?qū)崿F(xiàn)留存和轉(zhuǎn)化呢?
為了提高投放效果,算法部門(mén)會(huì)基于歷史的用戶(hù)數(shù)據(jù)訓(xùn)練用戶(hù)留存、消費(fèi)預(yù)測(cè)模型。
場(chǎng)景2:潛在流失用戶(hù)挽留
具備什么樣行為特征的是高潛流失用戶(hù)呢?在什么時(shí)間節(jié)點(diǎn)對(duì)這些潛在流失用戶(hù)進(jìn)行召回、挽留,能夠提高留存率,提高拉活率呢?
給出清晰的流失用戶(hù)定義后,分析師和算法部門(mén),可以構(gòu)建一套直播用戶(hù)流失預(yù)測(cè)模型。
基于模型,提取流失用戶(hù)的特征,利用這些特征對(duì)用戶(hù)進(jìn)行挽留活動(dòng)。
場(chǎng)景3:KA用戶(hù)分析和運(yùn)營(yíng)
KA用戶(hù)是直播行業(yè)里的重要運(yùn)營(yíng)和維護(hù)對(duì)象。
平臺(tái)新來(lái)了一個(gè)用戶(hù),該用戶(hù)能否成為成為平臺(tái)營(yíng)收的增長(zhǎng)點(diǎn)呢?是否要在早期階段進(jìn)行服務(wù)的提升和關(guān)系維護(hù)呢?
在直播場(chǎng)景里,預(yù)測(cè)模型將能大大提升精細(xì)化運(yùn)營(yíng)的ROI。
三、感觸比較深的點(diǎn)
1. 預(yù)覽數(shù)據(jù)
高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)分析和挖掘的基礎(chǔ)。
導(dǎo)入數(shù)據(jù)后,進(jìn)行構(gòu)建后,數(shù)據(jù)分析師能快速地了解數(shù)據(jù)的大體質(zhì)量,不同特征的數(shù)據(jù)類(lèi)型,有無(wú)缺失值,均值、眾數(shù)等信息,大大減少了因?yàn)閿?shù)據(jù)質(zhì)量問(wèn)題引發(fā)的后續(xù)的問(wèn)題。
2. 構(gòu)建后的簡(jiǎn)單特征關(guān)聯(lián)度分析
通常情況下,特征的選取,是基于業(yè)務(wù)經(jīng)驗(yàn),系統(tǒng)也對(duì)這方面給出了快捷的特征影響分析,幫助分析師能篩除不必要的特征,加快模型構(gòu)建速度。
模型構(gòu)建結(jié)束后,系統(tǒng)也基于 KernelShap 給出排名前十的影響模型預(yù)測(cè)結(jié)果的特征。
數(shù)據(jù)分析的同學(xué),可以將更多的精力放在對(duì)關(guān)鍵特征、關(guān)鍵用戶(hù)進(jìn)行AB實(shí)驗(yàn)。
因?yàn)楸救瞬痪邆渌惴P蜆?gòu)建的技能,所以Studio的部分,未進(jìn)行深入體驗(yàn)。
四、其他體驗(yàn)
1. 視覺(jué)層面的感受
視覺(jué)層面有兩個(gè)特點(diǎn):簡(jiǎn)潔,不花哨;扁平化,不枯燥。
對(duì)比一些廠商的工具,可能因?yàn)楫a(chǎn)品調(diào)性問(wèn)題,不會(huì)特別在意這些細(xì)節(jié)。
2. 交互層面
交互層面,也是比較便捷。在提醒方面,也是做得很好的。
操作指引給出了比較圖形化的解釋?zhuān)徒榻B中的很多點(diǎn),都是有對(duì)應(yīng)關(guān)系的。
比如:清理和分析數(shù)據(jù)并獲得有關(guān)估算模型精度的指標(biāo),識(shí)別訓(xùn)練數(shù)據(jù)集中最具影響力的字段。
在導(dǎo)入了數(shù)據(jù)集之后,系統(tǒng)就給了我一些提示。
在預(yù)構(gòu)建時(shí),就給用戶(hù)一些特征權(quán)重的提示。
3. 功能層面
模型管理的流程是:導(dǎo)入數(shù)據(jù)集 → 數(shù)據(jù)集自動(dòng)檢測(cè) → 預(yù)構(gòu)建(prebuild)→ 構(gòu)建 → 預(yù)測(cè) → 導(dǎo)出/共享。
在上文提到的交互提示下,操作起來(lái)沒(méi)有任何難度。
模型構(gòu)建完成后,也能方便地看到構(gòu)建的細(xì)節(jié),也能更數(shù)據(jù)科學(xué)家和算法工程師溝通,將模型構(gòu)建的過(guò)程、腳本等等,都能進(jìn)行共享,業(yè)務(wù)分析師職責(zé)范圍內(nèi)的工作難度被大大降低。
五、總結(jié)和感受
我覺(jué)得 Amazon SageMaker Canvas?這款產(chǎn)品擁有黑科技、定位清晰,緊盯目標(biāo),有邊界感。
將復(fù)雜繁瑣的特征工程、模型構(gòu)建的過(guò)程進(jìn)行產(chǎn)品化,為分析師解決了 80% 的常見(jiàn)問(wèn)題,大大提高了效率。
剩余的、難搞的、但是也同樣重要的模型調(diào)優(yōu),也可以跟數(shù)據(jù)科學(xué)家和算法工程師們進(jìn)行協(xié)同。
數(shù)據(jù)分析師們將能大大地提升自工作效率,將更多的精力放到業(yè)務(wù)的驅(qū)動(dòng)上。
作者:數(shù)據(jù)產(chǎn)品小lee;公眾號(hào):樂(lè)說(shuō)樂(lè)言
本文由 @數(shù)據(jù)產(chǎn)品小lee 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
看了博主幾乎所有文章,讓我一個(gè)想轉(zhuǎn)數(shù)據(jù)產(chǎn)品的人十分受用,不知道博主有聯(lián)系方式嗎,可以咨詢(xún)下一些問(wèn)題嗎?
可以關(guān)注同名公眾號(hào)哈~
看了文章數(shù)據(jù)分析,感覺(jué)Amazon SageMaker Canvas這款數(shù)據(jù)分析工具還蠻實(shí)用的。
嗯,我個(gè)人感覺(jué)也是這樣,解放了不少工作,可以多了解下~