策略產(chǎn)品經(jīng)理:模型訓(xùn)練常知的六種算法

0 評(píng)論 1628 瀏覽 5 收藏 8 分鐘

策略產(chǎn)品經(jīng)理需要了解一定的算法邏輯,以便推進(jìn)工作。這篇文章里,作者介紹了六種常見算法,并探討了產(chǎn)品設(shè)計(jì)模型算法的選擇,一起來看。

一、工業(yè)界常用算法

作為與算法同學(xué)對(duì)接的策略產(chǎn)品經(jīng)理,我們必須對(duì)算法同學(xué)常用的算法邏輯有所了解,以下我將介紹相關(guān)的底層算法邏輯,以及它們所適用的任務(wù)類型。

1. 邏輯回歸(logistics regression,LR)

  • 模型訓(xùn)練類別:監(jiān)督學(xué)習(xí)算法。
  • 適用問題任務(wù):分類。
  • 算法特色:復(fù)雜度低,可解釋性強(qiáng),線上效果好。

函數(shù)公式:

y表示模型預(yù)估值,取值范圍[0,1],x表示輸入模型的特征值,可以理解為最終使用的一系列特征對(duì)應(yīng)的具體數(shù)值;T表示矩陣的轉(zhuǎn)置,無實(shí)際數(shù)值意義;w表示模型為每一個(gè)特征訓(xùn)練出的對(duì)應(yīng)參數(shù)。以CTR預(yù)估模型為例,邏輯回歸模型輸出的預(yù)測(cè)值代表的業(yè)務(wù)意義是用戶對(duì)物料的興趣度。

另外,雖然線性回歸(linear regression)與邏輯回歸簡(jiǎn)稱均為L(zhǎng)R,但是線性解決回歸問題,邏輯解決分類問題,邏輯回歸模型包含線性回歸模型,便是線性回歸模型。

2. K近鄰算法(K-nearest neighbor,KNN)

  • 模型訓(xùn)練類別:監(jiān)督學(xué)習(xí)算法。
  • 適用問題任務(wù):分類、回歸。
  • K的取值是關(guān)鍵因素,需要用交叉驗(yàn)證法(測(cè)試集+訓(xùn)練集)驗(yàn)證。
  • 注:使用KNN算法的思想是每一位策略產(chǎn)品經(jīng)理都需要了解的。

分類任務(wù):

1.計(jì)算待分類點(diǎn)(黑叉)與其他已知類別點(diǎn)的距離。

2.按距離正排,占比最好的類別即為待分類點(diǎn)的類別,計(jì)算方法有①歐式距離、②曼哈頓距離。

回歸任務(wù):

整體思路與分類任務(wù)一致,預(yù)測(cè)點(diǎn)的值等于離預(yù)測(cè)點(diǎn)最近K個(gè)點(diǎn)的平均值。

總結(jié):

KNN算法沒有模型訓(xùn)練緩解,而是直接應(yīng)用,所以KNN算法在訓(xùn)練環(huán)節(jié)的時(shí)間復(fù)雜度為0,但是在應(yīng)用環(huán)節(jié),隨著樣本量陡增、復(fù)雜度的增加,在對(duì)于效率要求極高的場(chǎng)景下無法使用KNN算法。

3. 貝葉斯模型(Bayes Model)

  • 模型訓(xùn)練類別:監(jiān)督學(xué)習(xí)算法。
  • 適用問題任務(wù):分類。
  • 模型方向:“逆概率”問題,用于郵件分類,天氣預(yù)測(cè)。

函數(shù)公式:

4. K聚類算法(K-Means)

  • 模型訓(xùn)練類別:無監(jiān)督學(xué)習(xí)算法。
  • 適用問題任務(wù):聚類。
  • K-Means沒有模型訓(xùn)練環(huán)節(jié),利用啟發(fā)式迭代,K值的選擇由業(yè)務(wù)場(chǎng)景確定,如無需求,可試數(shù)。

步驟:

  1. 將所有樣本分成幾個(gè)簇,即設(shè)定K值。
  2. 模型重新計(jì)算新簇質(zhì)心,再次歸類。
  3. 不斷重復(fù)、優(yōu)化。

5. 決策樹(decision tree)

  • 模型訓(xùn)練類別:監(jiān)督學(xué)習(xí)算法。
  • 適用問題任務(wù):分類、回歸。
  • 核心思想:根據(jù)有區(qū)分性的變量查分?jǐn)?shù)據(jù)集。

基本框架要素:

1.根節(jié)點(diǎn):包含所有原始樣本數(shù)據(jù),會(huì)被進(jìn)一步分割成多個(gè)子集合。

2.決策節(jié)點(diǎn)和葉子節(jié)點(diǎn):葉子節(jié)點(diǎn)“不再被分割”,但可以分,決策節(jié)點(diǎn)根據(jù)特征繼續(xù)分割。

3.父節(jié)點(diǎn)與子節(jié)點(diǎn):被分割成子節(jié)點(diǎn)的節(jié)點(diǎn)被稱為子節(jié)點(diǎn)的父節(jié)點(diǎn)。

決策樹種類: ①分類樹 ②回歸樹

決策樹效果評(píng)估:選擇哪些特征組合構(gòu)建效果最好呢?

  • 分類樹:基尼不純度評(píng)估,不純度越低,效果越好。
  • 回歸樹:方差指標(biāo)評(píng)估,方差越小模型擬合效果越好。

決策樹關(guān)鍵參數(shù):

  • 節(jié)點(diǎn)拆分包含的最小樣本數(shù):過大欠擬合,過小過擬合,需要交叉驗(yàn)證來調(diào)參。
  • 葉子節(jié)點(diǎn)包含的最小樣本數(shù):防葉子節(jié)點(diǎn)太多,對(duì)于正負(fù)樣本不均的情況可以分小。
  • 決策樹最大深度:交叉驗(yàn)證解決。
  • 總體葉子節(jié)點(diǎn)數(shù)量控制。
  • 整體分裂中使用最多的特征數(shù):根據(jù)建模經(jīng)驗(yàn),開根號(hào)的特征數(shù)為最佳特征數(shù)。

6. 深度神經(jīng)網(wǎng)絡(luò)(deep neutral network)

網(wǎng)上有很多資料介紹,可以自己找一下。

簡(jiǎn)單介紹,深度學(xué)習(xí)中的“深度”指的是其hidden layer,在輸出層和輸入層中,隱藏層越多深度越大。深度學(xué)習(xí)與常規(guī)神經(jīng)網(wǎng)絡(luò)算法的區(qū)別主要體現(xiàn)在訓(xùn)練數(shù)據(jù)、訓(xùn)練方式、層數(shù)方面。

目前在產(chǎn)品策劃領(lǐng)域,深度學(xué)習(xí)可以解決安防領(lǐng)域、零售行業(yè)的視覺識(shí)別問題,也有如ChatGPT等的自然語音識(shí)別、語言處理等應(yīng)用,實(shí)體企業(yè)如智能駕駛中的地位正在提升,其最早被應(yīng)用與搜光腿的算法模型中。

二、產(chǎn)品設(shè)計(jì)模型算法的選擇

對(duì)于同種業(yè)務(wù)場(chǎng)景可能使用多種算法,然而作為產(chǎn)品經(jīng)理,我們需要重點(diǎn)考核模型的兩大要點(diǎn):模型預(yù)測(cè)的準(zhǔn)確性和模型的可解釋性。

對(duì)于金融風(fēng)控等受到強(qiáng)監(jiān)管的場(chǎng)景,我們更偏向于使用具有可解釋性的模型,而對(duì)于搜廣推等產(chǎn)品體驗(yàn)場(chǎng)景,我們更看重產(chǎn)品的使用效果,以下是各類算法的使用效益分布圖:

本文由 @產(chǎn)品研習(xí)中 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!