超詳解析零售業(yè)中的那些數(shù)據(jù)挖掘問(wèn)題

6 評(píng)論 14653 瀏覽 53 收藏 52 分鐘

本文是 TalkingData 首席數(shù)據(jù)科學(xué)家張夏天翻譯自 Highly Scalable Blog?的一篇文章,介紹了零售業(yè)中的數(shù)據(jù)挖掘問(wèn)題。本文內(nèi)容包括零售業(yè)中的多個(gè)常見(jiàn)問(wèn)題,如響應(yīng)建模、推薦系統(tǒng)、需求預(yù)測(cè)、價(jià)格差異、促銷(xiāo)活動(dòng)規(guī)劃、類目管理、財(cái)務(wù)影響等。其中涉及的資源分配優(yōu)化問(wèn)題、個(gè)性化推薦、定向廣告等業(yè)務(wù)問(wèn)題,上下兩篇完整閱讀大約需要兩個(gè)半小時(shí)。本次發(fā)布上篇,下篇敬請(qǐng)關(guān)注。

零售是數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘重要的商業(yè)應(yīng)用領(lǐng)域之一。零售領(lǐng)域有著豐富的數(shù)據(jù)和大量的優(yōu)化問(wèn)題,如優(yōu)化價(jià)格、折扣、推薦、以及庫(kù)存水平等可以用數(shù)據(jù)分析優(yōu)化的問(wèn)題。

全渠道零售,即在所有線上和線下渠道整合營(yíng)銷(xiāo)、客戶關(guān)系管理,以及庫(kù)存管理的崛起產(chǎn)生了大量的關(guān)聯(lián)數(shù)據(jù),大大增強(qiáng)了數(shù)據(jù)驅(qū)動(dòng)型決策的重要性和能力。

盡管已經(jīng)有許多關(guān)于數(shù)據(jù)挖掘在營(yíng)銷(xiāo)和客戶關(guān)系管理方面的書(shū),如 [BE11, AS14, PR13 etc.],但絕大多數(shù)書(shū)的結(jié)構(gòu)更像是數(shù)據(jù)科學(xué)家手冊(cè),專注在算法和方法論,并且假設(shè)人的決策是處于將分析結(jié)果到業(yè)務(wù)執(zhí)行上的中心位置。

在這篇文章中我們?cè)噲D采用更加嚴(yán)謹(jǐn)?shù)姆椒ê拖到y(tǒng)化的視角來(lái)探討基于數(shù)據(jù)分析的經(jīng)濟(jì)學(xué)模型和目標(biāo)函數(shù)如何使得決策更加自動(dòng)化。在這篇文章里, 我們將描述一個(gè)假想的收入管理平臺(tái),這一平臺(tái)基于零售商的數(shù)據(jù)并控制零售策略的很多方面,如價(jià)格、營(yíng)銷(xiāo)和倉(cāng)儲(chǔ)。

我們專注在將經(jīng)濟(jì)學(xué)框架和數(shù)據(jù)挖掘方法的組合有以下兩個(gè)主要的原因:

  1. 我們可以從經(jīng)濟(jì)學(xué)教科書(shū)上找到上百個(gè)與零售有關(guān)的經(jīng)濟(jì)學(xué)模型,因?yàn)殛P(guān)于市場(chǎng)、折扣、競(jìng)爭(zhēng)等問(wèn)題在上個(gè)世紀(jì)得到了深入的研究。然而,許多模型都是高度參數(shù)化的(即嚴(yán)格的由帶有有限參數(shù)的公式所定義)并且不能足夠靈活而精確地對(duì)現(xiàn)實(shí)世界的問(wèn)題建模。但數(shù)據(jù)挖掘提供了很多非參數(shù)建模技術(shù),可以幫助創(chuàng)建靈活而實(shí)用的模型。在最近十年里,也有許多成功的平衡抽象模型和機(jī)器學(xué)習(xí)技術(shù)的文章和案例研究已經(jīng)發(fā)表。
  2. 快速的數(shù)據(jù)循環(huán)使得在現(xiàn)代零售業(yè)中可以使用相對(duì)簡(jiǎn)單的模型做出更加準(zhǔn)確的預(yù)測(cè),因?yàn)樾∫?guī)模增量式的預(yù)測(cè)一般而言要比大決策更加容易。例如,因?yàn)閷?duì)于一個(gè)新的顛覆性產(chǎn)品在消費(fèi)者心中的感知價(jià)值是未知的,要計(jì)算它的最優(yōu)價(jià)格是很困難的。但是根據(jù)需求和庫(kù)存水平實(shí)時(shí)調(diào)整促銷(xiāo)價(jià)格則是相對(duì)容易的。有一些成功的商業(yè)解決方案對(duì)價(jià)格優(yōu)化就幾乎丟棄了經(jīng)濟(jì)學(xué)模型,簡(jiǎn)單的根據(jù)銷(xiāo)售閉環(huán)的反饋情況來(lái)決定價(jià)格的上升和下降 [JL11]。

以上兩點(diǎn)意味著在零售業(yè)自動(dòng)化決策和動(dòng)態(tài)優(yōu)化具有很高的潛力,因此我們專注于研究這個(gè)領(lǐng)域。本文很大篇幅用于綜述零售業(yè)者和研究人員發(fā)表的成果,這些成果都是他們?cè)诰C合應(yīng)用抽象經(jīng)濟(jì)學(xué)模型和數(shù)據(jù)挖掘方法構(gòu)建實(shí)際的決策和優(yōu)化系統(tǒng)中產(chǎn)生的。

特別的,本文主要受到 3 個(gè)案例研究的啟發(fā),分別出自 Albert Heijn [KOK07],荷蘭最大的連鎖超市,Zara [CA12],一家國(guó)際服裝零售商,以及 RueLaLa [JH14],一家創(chuàng)新在線時(shí)尚零售商。我們同樣綜合了來(lái)自 Amazon、Netflix、LinkedIn 和許多獨(dú)立研究者和商業(yè)項(xiàng)目的結(jié)果。同時(shí),我們避免使用那些缺乏實(shí)踐支持的學(xué)術(shù)結(jié)果。

我們的研究主要著眼于與收入管理相關(guān)的優(yōu)化問(wèn)題,包括營(yíng)銷(xiāo)和定價(jià)等問(wèn)題。更加特殊的數(shù)據(jù)挖掘應(yīng)用,如供應(yīng)鏈優(yōu)化和欺詐檢測(cè), 數(shù)據(jù)挖掘過(guò)程實(shí)現(xiàn)的細(xì)節(jié)(如模型質(zhì)量的驗(yàn)證)則不在這我們研究的范疇內(nèi)。

本文剩余部分組織如下:

  1. 我們首先引入一個(gè)簡(jiǎn)單的框架將零售商的行為,利潤(rùn)和數(shù)據(jù)聯(lián)系在一起。此框架將作為更統(tǒng)一的方式來(lái)描述分析問(wèn)題。
  2. 本文的主體部分探討了一系列與零售業(yè)相關(guān)的優(yōu)化問(wèn)題。我們將在不同章節(jié)逐個(gè)介紹這些問(wèn)題。每個(gè)章節(jié)會(huì)簡(jiǎn)要描述問(wèn)題,并提供一組業(yè)務(wù)案例和應(yīng)用,以及詳細(xì)介紹如何將問(wèn)題分解成經(jīng)濟(jì)學(xué)模型和數(shù)據(jù)挖掘任務(wù),使得可以通過(guò)數(shù)值優(yōu)化方法來(lái)解決業(yè)務(wù)問(wèn)題。
  3. 然后,我們會(huì)有一個(gè)章節(jié)專門(mén)討論這些方法在實(shí)際應(yīng)用中的可期的經(jīng)濟(jì)收益。
  4. 最后,總結(jié)部分會(huì)對(duì)這些問(wèn)題之間的依賴關(guān)系進(jìn)行討論,從而闡明一般的原則和關(guān)鍵點(diǎn)。

優(yōu)化框架:

本文介紹了 6 個(gè)主要與營(yíng)銷(xiāo)和定價(jià)相關(guān)的優(yōu)化問(wèn)題,這些問(wèn)題都能夠應(yīng)用數(shù)據(jù)挖掘技術(shù)來(lái)解決。盡管這些問(wèn)題非常不同,但我們嘗試建立了一般性的框架來(lái)幫助設(shè)計(jì)求解所需的優(yōu)化和數(shù)據(jù)挖掘任務(wù)。

該框架的基本思想是用一個(gè)經(jīng)濟(jì)指標(biāo),例如毛利率作為優(yōu)化目標(biāo),并將這一目標(biāo)作為零售商行為(如營(yíng)銷(xiāo)活動(dòng)或者分類調(diào)整)的函數(shù)。

同時(shí)計(jì)量經(jīng)濟(jì)學(xué)目標(biāo)也是數(shù)據(jù)的一個(gè)函數(shù),即計(jì)量經(jīng)濟(jì)模型應(yīng)該被零售商的特性參數(shù)化,從而在其輸出中產(chǎn)生一個(gè)數(shù)值,如毛利率。

例如,某零售商在計(jì)劃一個(gè)郵件營(yíng)銷(xiāo)活動(dòng)??尚械男袆?dòng)空間可被定義為一組對(duì)于每個(gè)客戶發(fā)送/不發(fā)送決策集合,而活動(dòng)的毛利率則決定于營(yíng)銷(xiāo)動(dòng)作(有些人會(huì)接受激勵(lì)而另一些人不會(huì))以及給定客戶的期望收入和郵件成本。這一方法可以更形式化的由如下公式表達(dá):

此公式里 G 是可用于分析的數(shù)據(jù),是零售業(yè)者行為和決策空間, 是計(jì)量經(jīng)濟(jì)模型函數(shù),其參數(shù)是 d 和 A,而?A0?是最優(yōu)策略。這一框架由文獻(xiàn) [JK98] 整理提出。

模型 G 的設(shè)計(jì)十分依賴于問(wèn)題本身。在大部分情況下,對(duì)毛利率建模和優(yōu)化都是合理的。但是,有些情況下其他的目標(biāo)也是有可能的,就如下一章探討的響應(yīng)建模。同時(shí)需要注意的是優(yōu)化問(wèn)題(1)也跟時(shí)間有關(guān)系,因?yàn)榄h(huán)境會(huì)隨著如新產(chǎn)品的上架、競(jìng)爭(zhēng)對(duì)手的行動(dòng)等因素變化,零售業(yè)者自己的行為也會(huì)產(chǎn)生影響。

數(shù)據(jù)挖掘在這一優(yōu)化問(wèn)題中的角色是非常重要的,因?yàn)橛?jì)量模型 G 通常都比較復(fù)雜且必須基于數(shù)據(jù)通過(guò)回歸等數(shù)據(jù)挖掘技術(shù)學(xué)習(xí)確定。

在某些情況下因?yàn)閺?fù)雜性太高(如用戶的行為很難精確預(yù)測(cè))或者因?yàn)闊o(wú)法將現(xiàn)有數(shù)據(jù)做外推(如對(duì)于完全新的服務(wù)),模型是無(wú)法完全確定的。這時(shí),可以用 A/B 測(cè)試和問(wèn)卷調(diào)查來(lái)獲得額外的數(shù)據(jù)來(lái)改進(jìn)模型的精度。

問(wèn)題 1:響應(yīng)建模

1.問(wèn)題描述

在廣告或者特價(jià)優(yōu)惠活動(dòng)中,需要決定將一些資源投放給一些客戶。而這些資源都是有成本的,如郵寄印制商品的目錄的資金成本,或者一些負(fù)面效應(yīng)(如使得用戶取消郵通知訂閱)。

同時(shí), 這些資源將會(huì)影響用戶的決策,如促使他們更多地消費(fèi)或者購(gòu)買(mǎi)更高價(jià)值的產(chǎn)品。其目標(biāo)是找到一組最靠譜的候選客戶,對(duì)他們投入資源后能夠使得業(yè)績(jī)最大化。

投入的資源可以是同質(zhì)的(如所有參加的客戶都得到同樣的激勵(lì))也可以是個(gè)性化的。在后一種情況下,零售業(yè)者將對(duì)每個(gè)不同的客戶提供不同的激勵(lì)如不同產(chǎn)品的優(yōu)惠券來(lái)最大化總體的收益目標(biāo)。

2.應(yīng)用

響應(yīng)建模被廣泛的應(yīng)用在營(yíng)銷(xiāo)和客戶關(guān)系管理上:

  • 確定特定的折扣、優(yōu)惠券和特價(jià),需要識(shí)別出客戶對(duì)這些激勵(lì)的反應(yīng)。
  • 有這對(duì)性的郵件促銷(xiāo)、活動(dòng)和贈(zèng)品(如 4S 店提供的免費(fèi)太陽(yáng)眼鏡)通常需要識(shí)別出最優(yōu)價(jià)值的客戶來(lái)降低營(yíng)銷(xiāo)費(fèi)用。
  • 客戶挽留計(jì)劃需要識(shí)別出那些可能會(huì)離開(kāi)但可以通過(guò)激勵(lì)來(lái)改變主意的客戶。例如,電商可以向那些放棄購(gòu)物車(chē)或者離開(kāi)搜索會(huì)話的客戶發(fā)送特價(jià)優(yōu)惠。
  • 在線目錄和搜索結(jié)果可以根據(jù)客戶對(duì)某些商品的的喜好來(lái)重新調(diào)整。
  • 響應(yīng)建模幫助優(yōu)化了電郵促銷(xiāo)來(lái)避免不必要的垃圾郵件,這些垃圾郵件可能會(huì)讓客戶取消郵件訂閱。

3.求解

基于以上的討論,我們現(xiàn)在可以認(rèn)識(shí)到這個(gè)問(wèn)題就是資源分配的優(yōu)化問(wèn)題,而優(yōu)化問(wèn)題由一個(gè)目標(biāo)函數(shù)驅(qū)動(dòng)。一個(gè)最基本的方法是:根據(jù)每個(gè)客戶的響應(yīng)概率和期望凈價(jià)值來(lái)對(duì)促銷(xiāo)活動(dòng)的整體利潤(rùn)建模。

這里 Pr(R│u;I)?是給定客戶 u 對(duì)激勵(lì) I 的響應(yīng)概率,g(u|R)) 是這個(gè)客戶響應(yīng)的激勵(lì)的凈價(jià)值,而 c?則是激勵(lì)的成本。公式中第一項(xiàng)是響應(yīng)從響應(yīng)用戶獲得的凈收益,而第二項(xiàng)則是對(duì)應(yīng)在沒(méi)有響應(yīng)的客戶上的期望損失。目標(biāo)是通過(guò)找到一組最有可能響應(yīng)活動(dòng)并能貢獻(xiàn)高利潤(rùn)的客戶子集來(lái)最大化 G。因?yàn)楣?(1.1) 可以約簡(jiǎn)如下:

這里 E{g|u;I} 表示對(duì)給定客戶在假定他會(huì)接受激勵(lì)的情況下的毛利率的數(shù)學(xué)期望,而客戶的選擇標(biāo)準(zhǔn)則要符合以下條件:

同時(shí),最優(yōu)的客戶子集 U 可以定義為最大化毛利率的子集:

我們也可以以隨機(jī)分配激勵(lì)為基準(zhǔn)的凈值最大化。為此,我們假設(shè)參與該次營(yíng)銷(xiāo)活動(dòng)的客戶數(shù)固定為 |U|。首先,我們將公式 (1.2) 展開(kāi),顯示的包括對(duì)于隨機(jī)選取的 |U| 個(gè)客戶的營(yíng)銷(xiāo)活動(dòng)的期望毛利率。

此處 E{g|I} 是所有客戶上的平均凈價(jià)值。這一平均凈價(jià)值是常數(shù),因此在?|U|?確定的情況下在目標(biāo)函數(shù)中可以被略去。因此,公式(1.2)在固定 的情況下同樣可以得到(1.3):

然而,文獻(xiàn) [VL02] 提出這一模型存在一定的缺陷,因?yàn)樵撃P推蛴谝子诮邮芗?lì)的客戶,而沒(méi)有考慮那些有沒(méi)有激烈都會(huì)貢獻(xiàn)同樣利潤(rùn)的的客戶。為解決這一 缺陷,我們需要根據(jù)以下四種情況來(lái)計(jì)算客戶集合 U 的毛利率:

  • G1 – 根據(jù)公式(1.2)選擇?U?并向中所有客戶發(fā)送激勵(lì)
  • G2 – 隨機(jī)選擇?U?并向?U?中所有客戶發(fā)送激勵(lì)
  • G3 – 根據(jù)公式(1.2)選擇?U?但是不發(fā)送任何激勵(lì)
  • G4 – 隨機(jī)選擇?U?但是不發(fā)送任何激勵(lì)

公式(1.2)是最大化 之差即相較于隨機(jī)投放的提升度。

另一種方法是優(yōu)化,這一目標(biāo)函數(shù)不僅僅度量相較于隨機(jī)投放的提升度同時(shí)還考慮去除掉在同樣的客戶集合上不做任何激勵(lì)的提升度。在此情況下,公式(1.2)變?yōu)槿缦滦问剑?/p>

此處最后一項(xiàng)對(duì)應(yīng)的是未被激勵(lì)的客戶的期望凈價(jià)值。這一方法被稱為差分響應(yīng)分析或者提升度建模由文獻(xiàn) [BE09] 提出。

值得注意的是,公式(1.2)和(1.4)都不是通過(guò)最大化營(yíng)銷(xiāo)費(fèi)用來(lái)優(yōu)化的??紤]如下情況,每個(gè)響應(yīng)的用戶可以貢獻(xiàn) 100 美元的凈利潤(rùn),而激勵(lì)費(fèi)用為 1 美元。如果一個(gè)客戶組有 100 萬(wàn)客戶,其中有 0.5% 的潛在響應(yīng)者,則花費(fèi)最大的營(yíng)銷(xiāo)活動(dòng)是對(duì)每個(gè)客戶都做觸達(dá)則最終將損失 50 萬(wàn)美元(總的響應(yīng)者貢獻(xiàn)的 50 萬(wàn)美元凈價(jià)值減去活動(dòng)費(fèi)用 100 萬(wàn)美元)。

公式(1.4)對(duì)于各種類型的價(jià)格折扣特別重要(優(yōu)惠券、臨時(shí)價(jià)格折扣、特價(jià))??紤]如下問(wèn)題:“一個(gè)零售商應(yīng)該向每天都買(mǎi)蘋(píng)果的人提供蘋(píng)果優(yōu)惠券嗎?” 根據(jù)公式(1.2),回答是肯定的。因?yàn)檫@個(gè)人很有可能會(huì)使用優(yōu)惠券。

然而,更可能的是這個(gè)客戶用更低的價(jià)格購(gòu)買(mǎi)了同樣數(shù)量的蘋(píng)果,根本上這會(huì)降低零售商的利潤(rùn)。公式(1.4)考慮了默認(rèn)的客戶行為從而消除了這一問(wèn)題。我們?cè)谙乱还?jié)將繼續(xù)討論價(jià)格區(qū)分問(wèn)題因?yàn)檫@一是個(gè)復(fù)雜的問(wèn)題遠(yuǎn)超了公式(1.4)范疇。

公式(1.2)和(1.4)中凈收入的數(shù)學(xué)期望能夠基于過(guò)去客戶對(duì)激勵(lì)是否接受的歷史數(shù)據(jù)用分類或者回歸模型來(lái)確定。這一問(wèn)題可能是非常有挑戰(zhàn)性的,特別是當(dāng)需要評(píng)估的激勵(lì)與過(guò)往出現(xiàn)過(guò)的都存在某種程度上的差異。

在這種情況下,全規(guī)模的活動(dòng)上線之前需要在一個(gè)客戶測(cè)試組上進(jìn)行測(cè)試。另外,對(duì)于零售業(yè)者而言毛利率并非唯一的關(guān)鍵指標(biāo)。在公式(1.2)和(1.4)中使用的毛利率度量關(guān)心的是第一次付款后即時(shí)的匯報(bào),從客戶關(guān)系管理的角度看這是非常簡(jiǎn)單的視角。

零售業(yè)者還會(huì)關(guān)心其他不同的度量,度量上的多元性是如此巨大以至于有一門(mén)專門(mén)研究這個(gè)問(wèn)題的經(jīng)濟(jì)學(xué)分支 – 傾向性建模[SG09, LE13] – 這一學(xué)科發(fā)展了不同的模型來(lái)預(yù)測(cè)用戶未來(lái)的行為。最重要的傾向性模型包括:

  • 生命價(jià)值預(yù)測(cè)。生命價(jià)值模型是估計(jì)一個(gè)客戶在其生命周期內(nèi)可以貢獻(xiàn)的收入或者利潤(rùn)總額。這一指標(biāo)對(duì)于那些目標(biāo)為獲取新客的營(yíng)銷(xiāo)活動(dòng)而言是很重要的。
  • 錢(qián)包份額預(yù)測(cè)。錢(qián)包份額模型用來(lái)估計(jì)用戶對(duì)于某些類型商品,如雜貨或者服飾,在某一零售商及其在各競(jìng)爭(zhēng)對(duì)手那花錢(qián)的比例。這一度量能夠揭示哪些客戶具有貢獻(xiàn)高收入的潛力,因?yàn)檫@一模型能夠用在忠誠(chéng)計(jì)劃和提升使用的營(yíng)銷(xiāo)活動(dòng)中。
  • 類型擴(kuò)展傾向。該模型估計(jì)首次購(gòu)買(mǎi)某一類型的商品后,從休閑產(chǎn)品轉(zhuǎn)換到奢侈品的可能性。這一模型能夠幫助設(shè)計(jì)目的是獲得使用擴(kuò)展的活動(dòng)。
  • 流失傾向。這一模型估計(jì)客戶從給定零售商流失并轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手的可能性。如果客戶具有較高的流失傾向則可以定向進(jìn)行挽留活動(dòng)。例如,一個(gè)零售商可以識(shí)別出那些放棄了在線購(gòu)物車(chē)或者退出了搜索會(huì)話但是提供一定折扣或者贈(zèng)品后會(huì)改變主意的客戶。
  • 購(gòu)物習(xí)慣改變傾向。每個(gè)客戶的購(gòu)物習(xí)慣最終確定了其對(duì)一個(gè)零售商的價(jià)值,即客戶的購(gòu)買(mǎi)頻率、購(gòu)買(mǎi)什么產(chǎn)品、購(gòu)買(mǎi)什么類型的產(chǎn)品等等。這些習(xí)慣通常是穩(wěn)定的,一旦零售商改變一個(gè)客戶的分層,這個(gè)分層將會(huì)持續(xù)。

因此,零售業(yè)者通常對(duì)找到那些對(duì)改變習(xí)慣比較開(kāi)放的客戶感興趣, 如那些從一個(gè)城市遷移到另一個(gè)城市的人群, 從學(xué)校畢業(yè)的學(xué)生, 剛剛結(jié)婚的人群等等。一個(gè)典型的例子是預(yù)測(cè)客戶是否在懷孕早期 [DG12] 因?yàn)樾律恼Q生會(huì)顯著的改變客戶的購(gòu)物行為。

以上模型都能夠嵌入類似公式(1.4)的公式來(lái)代替毛利率目標(biāo),我們?cè)诤竺娴男」?jié)中將針對(duì)討價(jià)格差異化的情況下對(duì)折扣的響應(yīng)傾向建模的情況仔細(xì)探討傾向性建模。關(guān)于傾向性建模的更多細(xì)節(jié)可以參考 [FX06] 和 [SG09] 兩本書(shū)。

這一框架也能夠擴(kuò)展到在多個(gè)可能的激勵(lì)方案中選擇最優(yōu)的方案。例如,一個(gè)零售商可以估計(jì)對(duì)于兩個(gè)激烈方案 A 和 B(例如巧克力冰激淋和香草冰激淋)的期望表現(xiàn)然后對(duì)于給定的用戶可以根據(jù)以下標(biāo)準(zhǔn)[WE07]來(lái)選擇最優(yōu)的選項(xiàng):

最后,值得注意的是響應(yīng)建模是與客戶分群緊密耦合的:

  • 響應(yīng)建模能夠用來(lái)檢驗(yàn)通過(guò)聚類行程的客戶分群的可行性。一個(gè)分群應(yīng)該對(duì)特定的營(yíng)銷(xiāo)計(jì)劃有持續(xù)的響應(yīng)。
  • 傾向性模型是基于客戶數(shù)據(jù)訓(xùn)練得到的回歸和分類模型??蛻舴秩嚎梢詤⒖紝?duì)于主要回歸量的分析結(jié)果。另一方面,從聚類結(jié)果中也可以發(fā)現(xiàn)合理的傾向性模型。

問(wèn)題 2:推薦

1.問(wèn)題說(shuō)明

一組激勵(lì)中的每一項(xiàng)激勵(lì)對(duì)應(yīng)著一個(gè)產(chǎn)品或者其他目錄項(xiàng)目。展示這些激勵(lì)并不直接與費(fèi)用成本相關(guān),但是只有有限數(shù)量的激勵(lì)能夠展示給用戶。

從這個(gè)角度來(lái)說(shuō),每個(gè)激勵(lì)的展示都會(huì)占用一定的屏幕空間或者客戶的注意力,所以給客戶提供的某個(gè)激勵(lì)的負(fù)面激勵(lì)能夠被機(jī)會(huì)成本的損失來(lái)度量。

在這樣的目標(biāo)下就需要將激勵(lì)的子集對(duì)于每個(gè)客戶而言都是個(gè)性化的(如網(wǎng)站上的推薦)從而最大化群體的購(gòu)買(mǎi)表現(xiàn)。

2.應(yīng)用

該問(wèn)題最典型的應(yīng)用有推薦系統(tǒng), 個(gè)性化搜索結(jié)果, 和定向廣告。 此外還有一些其他重要的應(yīng)用:

  • 廠商贊助折扣可以歸為這類問(wèn)題,因?yàn)榱闶凵虒?duì)激勵(lì)的成本不關(guān)心(由廠商覆蓋這部分成本), 他們僅關(guān)心有效的定向。廠商贊助的活動(dòng)被廣泛的應(yīng)用在很多零售細(xì)分領(lǐng)域,如雜貨店或者百貨商店,因?yàn)檫@些廠商市場(chǎng)份額的提升有很重的依賴。
  • 交叉銷(xiāo)售的營(yíng)銷(xiāo)能也夠從推薦模型中獲益,因?yàn)橐恍┩扑]技術(shù)能夠揭示出客戶畫(huà)像中的隱含維度,如生活方式。這些能力對(duì)于跨類之間的推薦是特別有用的,可以基于客戶服飾方面的消費(fèi)行為向客戶推薦家居或者廚具。
  • 推薦系統(tǒng)可以將用戶的購(gòu)買(mǎi)和瀏覽歷史概括為心心理學(xué)畫(huà)像,因此乏味的著裝品味或者運(yùn)動(dòng)型的生活方式能夠量化測(cè)量。同樣的技術(shù)也可以根據(jù)競(jìng)爭(zhēng)者銷(xiāo)售產(chǎn)品的來(lái)對(duì)競(jìng)爭(zhēng)者畫(huà)像,就像根據(jù)客戶購(gòu)買(mǎi)來(lái)對(duì)客戶畫(huà)像。
  • 一些推薦算法能夠基于文本描述來(lái)區(qū)分產(chǎn)品的心理維度,如生活方式等。所以商家可以利用它們來(lái)評(píng)估產(chǎn)品描述,也可以用來(lái)獲得關(guān)于產(chǎn)品定位的適當(dāng)措辭的建議。

特別需要注意的是盡管推薦通常被認(rèn)為是線上服務(wù)特有的,但其所產(chǎn)生的基本原則和技術(shù)對(duì)于零售業(yè)的許多方面也是非常重要的。因?yàn)檫@些技術(shù)致力于揭示客戶對(duì)產(chǎn)品興趣的隱含關(guān)系,而這是零售商最基本的任務(wù)。

3.解決方案

推薦系統(tǒng)在過(guò)去20年是非常受關(guān)注的研究領(lǐng)域,[JZ10, RR10] 兩本書(shū)提供了對(duì)幾十種在各種論文,演講和白皮書(shū)中提出的推薦算法和技術(shù)的系統(tǒng)化視角。

某種程度上,推薦技術(shù)的高度多樣性在于一些實(shí)現(xiàn)推薦時(shí)遇到的挑戰(zhàn),如客戶評(píng)分的稀疏性,計(jì)算的可擴(kuò)展性,以及缺乏新物品和客戶的信息。

顯然,我們無(wú)法在本節(jié)中綜述哪怕一下部分方法和算法,而且在此處探討這些也沒(méi)有太多的意義,因?yàn)檫@樣的綜述俯拾皆是。相反我們將關(guān)注于驅(qū)動(dòng)設(shè)計(jì)推薦系統(tǒng)的目標(biāo)和效用函數(shù),而基本上忽略這一問(wèn)題的算法和技術(shù)側(cè)的細(xì)節(jié)。

從計(jì)量經(jīng)濟(jì)學(xué)的觀點(diǎn)來(lái)看,推薦系統(tǒng)問(wèn)題與電商和全渠道商業(yè)在很多零售領(lǐng)域的興起帶來(lái)銷(xiāo)售品類的快速擴(kuò)張是緊密相關(guān)。大的平類增加了很多非暢銷(xiāo)產(chǎn)品,每一個(gè)產(chǎn)品的銷(xiāo)售量和貢獻(xiàn)的收入都是很少的,但是這個(gè)“長(zhǎng)尾”的總體貢獻(xiàn)是非常顯著的。

傳統(tǒng)推薦技術(shù)如推廣最暢銷(xiāo)的商品不能有效利用非暢銷(xiāo)商品的潛力,這就需要更巧妙的推薦方法在數(shù)百萬(wàn)他或者她從未探索過(guò)的產(chǎn)品中對(duì)其進(jìn)行引導(dǎo)。

因?yàn)槲覀冎饕P(guān)注模型對(duì)客戶在產(chǎn)品上的偏好的描述,我們將從根據(jù)效用函數(shù)的復(fù)雜性從簡(jiǎn)單到負(fù)責(zé)來(lái)介紹使用最廣的推薦技術(shù), 我們將依據(jù)如下圖所示的推薦技術(shù)層次分類圖。這個(gè)層次分類綜合了推薦系統(tǒng)的常用分類,但也不是完全一致:

4.單一目標(biāo)

讓我們從單一目標(biāo)推薦任務(wù)的基本定義開(kāi)始,這一定義被廣泛的應(yīng)用在推薦系統(tǒng)的文獻(xiàn)之中。零售商向用戶群體 U={u_1,…,u_m } 銷(xiāo)售物品 J={j_1,…,j_n }。評(píng)分函數(shù) R:J×U 表示一個(gè)用戶對(duì)一個(gè)物品的觀點(diǎn)從負(fù)面(“不喜歡”)到正面(“喜歡”),通常使用數(shù)字來(lái)表示。

一些用戶和物品對(duì)的評(píng)分值可以基于用戶的評(píng)分或者通過(guò)分析購(gòu)買(mǎi)歷史,網(wǎng)站訪問(wèn)記錄來(lái)估計(jì),推薦任務(wù)則可以被定義為對(duì)給定用戶-物品對(duì) (u,j) 評(píng)分值? ?r_(u,j) 的預(yù)測(cè)。

有兩種方法可以解決評(píng)級(jí)預(yù)測(cè)問(wèn)題:

  1. 通過(guò)查找與特定用戶過(guò)去喜歡的項(xiàng)目相似的項(xiàng)目來(lái)獨(dú)立估計(jì)每個(gè)用戶的評(píng)分;
  2. 也可以通過(guò)對(duì)來(lái)自與給定用戶類似的用戶的評(píng)分進(jìn)行平均來(lái)估計(jì)評(píng)分。這兩種方法分別被稱為內(nèi)容過(guò)濾和協(xié)作過(guò)濾。

5.內(nèi)容過(guò)濾

內(nèi)容過(guò)濾的主要思想是基于對(duì)用戶過(guò)往對(duì)于產(chǎn)品的偏好、行為和購(gòu)買(mǎi)。盡管不可以對(duì)內(nèi)容過(guò)濾做不同的解釋, 我們選擇將其作為分類問(wèn)題 [PZ07] 來(lái)強(qiáng)調(diào)數(shù)據(jù)挖掘的應(yīng)用:

  • 每個(gè)用戶可以被視作一個(gè)對(duì)物品預(yù)測(cè)評(píng)分的回歸模型。一個(gè)特殊的例子是可以用二分類將物品分為兩個(gè)類別 – “喜歡”和“不喜歡”。
  • 一個(gè)用戶的畫(huà)像就是上面介紹的回歸模型的一個(gè)實(shí)例。這一模型使用該用戶的已知評(píng)分(顯示評(píng)分,購(gòu)買(mǎi)歷史等等)來(lái)訓(xùn)練。
  • 給指定用戶的推薦物品列表是通過(guò)對(duì)所有目錄物品采用該用戶對(duì)應(yīng)的回歸模型預(yù)測(cè)評(píng)分然后選擇那些估計(jì)評(píng)分最高的物品子集來(lái)獲得的。

盡管以上的過(guò)程似乎是是比較直接的,但是實(shí)際上確實(shí)非常挑戰(zhàn)的。因?yàn)橛脩艉臀锲肥歉静煌膶?shí)體,而且要找到一種可以直接將物品轉(zhuǎn)換成回歸模型可以使用的用戶偏好這種微妙的東西。

最主要的問(wèn)題是存貨屬性諸如品牌、物品名,或者價(jià)格對(duì)于衡量物品對(duì)用戶的效用是根本不夠的。盡管一些客戶能夠被滿足忠于某品牌或價(jià)格取件的特征,但是需要更多微妙而有信息的維度如生活方式或者品味來(lái)描述觀察到的模式和共性。

這些隱式的維度對(duì)于如電影、書(shū)籍、音樂(lè),甚至是如服飾這樣的有形物品都是非常重要的。零售商可以用如下的方法基于標(biāo)準(zhǔn)的分類技術(shù)來(lái)對(duì)帶有隱含維度的物品打標(biāo)簽 [GH02]:

  • 例如,服裝可以用諸如時(shí)髦、保守、運(yùn)動(dòng)等標(biāo)簽來(lái)標(biāo)識(shí)。
  • 標(biāo)準(zhǔn)產(chǎn)品屬性(如文本描述)旨在向客戶提供特定的營(yíng)銷(xiāo)信息,因此它們隱含地包含了一些無(wú)形的屬性。因此,人工評(píng)分項(xiàng)目的物品子集可以用于構(gòu)建將從產(chǎn)品屬性映射到隱含維度的分類模型。例如,可以使用貝葉斯分類方法來(lái)估計(jì)描述在隱含屬性值出現(xiàn)時(shí)詞出現(xiàn)的條件概率 Pr(詞項(xiàng)描述 | 隱含屬性值)。
  • 物品然后可以通過(guò)計(jì)算后驗(yàn)概率 Pr(隱式屬性值 | 項(xiàng)目描述)來(lái)自動(dòng)分類沒(méi)有人工評(píng)分的商品。

一般化的來(lái)看,內(nèi)容過(guò)濾和物品建模實(shí)際是信息檢索任務(wù),所以許多的為恩本挖掘和搜索技術(shù)(例如,[MA08]?的綜述所提到的)可以被用來(lái)構(gòu)建推薦系統(tǒng)。我們?cè)诖寺赃^(guò)這些細(xì)節(jié),因?yàn)閺挠?jì)量經(jīng)濟(jì)的角度來(lái)看這些都不是最重要的部分。

協(xié)同過(guò)濾: 前面部分提到的隱含維度的問(wèn)題具有重要意義,此問(wèn)題可以引導(dǎo)我們了解推薦技術(shù)的第二個(gè)系列。這個(gè)問(wèn)題源于根本無(wú)法嚴(yán)格的對(duì)人的口味和傾向建模。

協(xié)同過(guò)濾是一種自然的,也許是唯一不需要對(duì)系統(tǒng)進(jìn)行很多人工工作的解決方案 – 推薦決策中對(duì)”人的因素”的需求通過(guò)其他用戶的反饋來(lái)滿足。

最基本的協(xié)同過(guò)濾模型 [RE04, BR98] 直接由用戶之間的相似度度量來(lái)定義:

此處? r_u,j 為用戶 u 對(duì) j 物品的評(píng)分,U 是所有用戶的集合或者啟發(fā)式選取的給定用戶的鄰近用戶,λ 是規(guī)范化系數(shù),sim(u,v) 是兩個(gè)用戶之間的相似度度量, 而 ˉr_u 是戈丁用戶的平均評(píng)分:

假設(shè) J_u 是一組用戶評(píng)分過(guò)的物品,公式 (2.1) 使用的平均用戶評(píng)分概念來(lái)建模用戶比其他用戶在打分傾向上是偏高還是偏低,因?yàn)樗麄冇械囊蟾哂械囊蟮?。雖然不是絕對(duì)必要,這一修正在實(shí)踐是上非常重要并在最開(kāi)始實(shí)現(xiàn)協(xié)同過(guò)濾時(shí)就被廣泛應(yīng)用了。

一般用余弦距離或者皮爾森相關(guān)系數(shù)來(lái)計(jì)算評(píng)分向量 J_u 和 J_v 之間的相似度。此外,文獻(xiàn) [ER98, SU09] 介紹了很多對(duì)于此基本相似度度量進(jìn)行調(diào)整的多種方法來(lái)改進(jìn)使用中的性能。

模型(2.1)存在一些顯著的缺陷:首先這一模型的計(jì)算復(fù)雜性(與物品和用戶數(shù)量成正比)很高,其次用戶的評(píng)分是非常稀疏的。評(píng)分的稀疏性是指每個(gè)用戶都只會(huì)對(duì)很小一部分物品進(jìn)行評(píng)分,所以在計(jì)算向量 J_u 和向量 J_v 的相似度時(shí)經(jīng)常會(huì)出現(xiàn)沒(méi)有重合的元素,這會(huì)降低推薦的質(zhì)量。

例如,眾所周知 Amazon[SA01] 和 Netflix[YK08] 的評(píng)分矩陣中的評(píng)分缺失率達(dá)到 99%。為了克服這一限制,基于用戶的模型(2.1)在通常被概念上非常相似的基于物品的模型 [SA01, YK08] 所取代:

其中物品之間的相似度度量是基于那些在兩個(gè)物品上都有評(píng)分的用戶的基準(zhǔn)評(píng)分 ˉr_(u,j) 來(lái)計(jì)算的?;鶞?zhǔn)評(píng)分同時(shí)考慮了用戶偏差(用戶的平均評(píng)分值相較于整體評(píng)分的偏差)以及物品偏差(物品的平均評(píng)分相較于整體評(píng)分的偏差)。

值得注意的是,有一簡(jiǎn)單的方法來(lái)實(shí)現(xiàn)公式(2.2),此方法通過(guò)尋找頻繁項(xiàng)集(被頻繁一起購(gòu)買(mǎi)的物品)并基于在頻繁項(xiàng)集的同現(xiàn)來(lái)計(jì)算相似度。這一方法因其簡(jiǎn)單被視為“窮人的推薦引擎”[RE03]。

模型(2.1)和(2.2)屬于所謂最近鄰模型,這些模型通過(guò)分析相似的用戶或者物品的鄰居來(lái)估計(jì)他們的評(píng)分。這一系列的算法也包括很多變種的技術(shù) [SU09] 通過(guò)使用跟緊湊的概率模型或者其他近似方法來(lái)取代計(jì)算開(kāi)銷(xiāo)昂貴的檢查鄰居的方法。

盡管最近鄰模型是一種被諸如亞馬遜等領(lǐng)先的零售商驗(yàn)證過(guò)的推薦技術(shù),但在根本上這些技術(shù)還是在根本上具有在內(nèi)容過(guò)濾中就有的隱含維度所帶來(lái)的問(wèn)題。前面考慮的用戶之間和物品之間的相似度度量對(duì)于揭示用戶和無(wú)偏之間的復(fù)雜關(guān)系,其能力是有限的。

這與信息檢索里面的同義搜索和多義搜索棉面臨的問(wèn)題是類似的,要揭示搜索者的實(shí)際意圖,并將其意圖翻譯成文本和查詢之間的相似度是非常挑戰(zhàn)的事情。

為了解決這一問(wèn)題,一種被稱為隱含語(yǔ)義分析的的技術(shù)被提出來(lái) [DR90]。該方法被提出來(lái) 10 年后被用來(lái)設(shè)計(jì)推薦系統(tǒng) [SA00],并開(kāi)創(chuàng)了一類新隱含因子模型。

隱含因子模型主要的思想能夠被描述如下:評(píng)分函數(shù) R 能夠被表達(dá)成 m×n 矩陣(m 是用戶數(shù),n 是產(chǎn)品數(shù)), 其中的元素是評(píng)分值。這可以被當(dāng)作一個(gè)線性空間問(wèn)題。

推薦任務(wù)則可以被重新定義為用其他評(píng)分向量的組合來(lái)計(jì)算用戶評(píng)分向量。實(shí)際上,公式(2.1)自然的就是一種權(quán)重由相似度函數(shù)定義的評(píng)分制的線性組合。

然而,問(wèn)題是評(píng)分矩陣缺失評(píng)分而稀疏,因偏見(jiàn)和隨機(jī)因素通常帶有噪音,而且基于物品維度則限制了揭示用戶品味的能力,而品味通常是與一組物品相關(guān)而不是與單個(gè)物品相關(guān)。

換句話說(shuō), 被散落在巨大的低密度矩陣中并混有一定程度噪音的信號(hào)智能通過(guò)研究隱含模式才能顯示出來(lái)。隱含因子模型的思想是用低維度的基來(lái)近似一個(gè)高維線性空間,這有助于達(dá)成以下目標(biāo):

  • 較少的維度能夠幫助把信號(hào)的能量集中,則每個(gè)基向量對(duì)評(píng)分估計(jì)的貢獻(xiàn)都是顯著的。它通過(guò)丟棄簡(jiǎn)單的不適應(yīng)這些較小的基啊的波動(dòng)來(lái)減少噪聲。
  • 基本的計(jì)算過(guò)程可以被設(shè)計(jì)來(lái)產(chǎn)生有著最少依賴的基向量,從而有效的揭示用戶品味的主要傾向,這些傾向每個(gè)對(duì)應(yīng)一個(gè)基向量。例如,Netflix 用這一方法來(lái)預(yù)測(cè)電影評(píng)分 [YK08, YK09] 時(shí), 系統(tǒng)產(chǎn)生的維度清晰的對(duì)應(yīng)著諸如喜劇,男女等坐標(biāo)軸。

集合中的每個(gè)點(diǎn)沿著 R_1 和 R_2 維度都有著很大的坐標(biāo)值并顯示出數(shù)據(jù)的復(fù)雜而不規(guī)則的結(jié)構(gòu)。然而,在另一個(gè)坐標(biāo)系 B 中則揭示了數(shù)據(jù)可以被維度 B_1 有效描述,而維度 B_2 則并不重要,這暗示了這是一個(gè)一維的隱含因子模型。

某種程度上,隱含因子模型能夠與離散余弦變換 (DCT) 相比較,離散余弦變換被用在圖像壓縮算法諸如 JPEG 中來(lái)用少量的諧波來(lái)近似圖片。

以上的思考鏈引導(dǎo)我們到如下的隱含因子的形式化模型,首先選擇維數(shù) b?n,m 并將每個(gè)用戶和物品都當(dāng)作該維度空間中的一個(gè)向量。我們將用戶 u 的向量標(biāo)識(shí)為 p_u∈R^b, 物品 j 的向量標(biāo)識(shí)為 q_j∈R^b,這些向量是基于評(píng)分舉證計(jì)算 R 得到的,計(jì)算過(guò)程中通過(guò)某種辦法讓向量 b 的個(gè)分量都對(duì)應(yīng)到上面所述的一個(gè)隱含維度。

因此,用戶和物品都可以在同樣的主題下進(jìn)行編碼,同時(shí)評(píng)分可以通過(guò)計(jì)算兩個(gè)向量的內(nèi)積,即將向量的維度兩兩對(duì)應(yīng)相乘然后求和得到:

有許多不同的方法來(lái)計(jì)算用戶和物品的隱含因子向量 p_u 和 q_j,最直接的方法就是用奇異值分解 (SVD) 對(duì)評(píng)分矩陣 R 進(jìn)行分解。然而,基于計(jì)算穩(wěn)定性和復(fù)雜性的考慮,在實(shí)踐中一般使用迭代的梯度瞎講優(yōu)化方法 [YK09]。

下圖展示了卷積(2.1)和(2.3)之間的區(qū)別。左邊對(duì)于給定物品的稀疏的評(píng)分向量與稀疏度相似的給定用戶做卷積得到評(píng)分估計(jì);而在右邊,評(píng)分是通過(guò)計(jì)算兩個(gè)降維后且能量密度很好的向量的卷積得到的。

6.多目標(biāo)

以上討論的推薦方法本質(zhì)上都是由一個(gè)單一目標(biāo)驅(qū)動(dòng),這一目標(biāo)是提供最好的語(yǔ)義匹配或者預(yù)測(cè)偏好評(píng)分。然而,推薦精度并不是推薦系統(tǒng)設(shè)計(jì)的唯一考慮,零售商可能有興趣對(duì)綜合多個(gè)有沖突的目標(biāo)在一起給用戶提供推薦。

例如,食品雜貨商可能有興趣提升具有較短貨架期的易腐食物的銷(xiāo)量,時(shí)尚商店可能希望推廣贊助品牌或當(dāng)季款,更多的零售商可以從推薦較高利潤(rùn)率的產(chǎn)品或考慮產(chǎn)品庫(kù)存水平避免以避免缺貨來(lái)獲得更好收益。

文獻(xiàn) [JW10] 提出了多目標(biāo)推薦系統(tǒng)并在 LinkedIn[RP12] 中做了大規(guī)模驗(yàn)證。在 LinkedIn 的例子中, 其主要的目標(biāo)是給候選人推薦語(yǔ)義上匹配的工作機(jī)會(huì),其次是顯示找工作的行為。[RP12] 描述了該方法,將推薦任務(wù)定義為如下的優(yōu)化問(wèn)題:

此處:

  • ˉr 是由底層推薦系統(tǒng)基于語(yǔ)義匹配和相關(guān)性產(chǎn)生的原生推薦向量,ˉr 中的第 j 個(gè)元素表示的是第 j 個(gè)產(chǎn)品的相關(guān)性分值(或排序)。
  • ˉf 是二級(jí)特征值向量,ˉf 中的第個(gè)元素對(duì)應(yīng)的是第 j 個(gè)產(chǎn)品在次要目標(biāo)上對(duì)應(yīng)的分值。例如,這一向量可以產(chǎn)品的毛利率。
  • R(·) 是組合排序函數(shù)其綜合了 ˉr 和 ˉf 形成一個(gè)新的物品排序平衡了兩個(gè)目標(biāo)。
  • g(·) 表示度量推薦系統(tǒng)性能的整體效用函數(shù)。
  • E{?} 對(duì)所有推薦效果的平均。
  • (·)_(1…K) 表示的是前 K 個(gè)具有最高分?jǐn)?shù)的元素,這里 K 是給用戶推薦的物品數(shù)。例如,如果 ˉr? 中包括在冊(cè)的所有 n 個(gè)產(chǎn)品的推薦分,則 ˉr_(1..K) 對(duì)應(yīng)的是 K 個(gè)最值得推薦的產(chǎn)品。
  • dist(·) 是度量?jī)蓚€(gè)推薦向量之間的差異的距離函數(shù),而 c 是這一差異的限制閾值。根據(jù) [RP12], 一個(gè)合理而實(shí)際的距離度量是兩個(gè)分值向量直方圖的平方誤差和。

上述優(yōu)化問(wèn)題的主要事項(xiàng)是是增加混合了次要目標(biāo)的相關(guān)度分值的綜合推薦的效用,但是對(duì)原聲的相關(guān)性推薦結(jié)果和綜合推薦結(jié)果的差異做懲罰來(lái)保證不會(huì)為了最求次要目標(biāo)而完全犧牲相關(guān)性。

函數(shù) R(·) 的設(shè)計(jì)需要包括可調(diào)整的參數(shù)來(lái)調(diào)節(jié)兩個(gè)目標(biāo)的權(quán)重并決定哪個(gè)是主要的優(yōu)化目標(biāo),這一方法可以直接的擴(kuò)展到多于兩個(gè)目標(biāo)的情況。

我們能夠使用大量的例子來(lái)展示上述優(yōu)化模型是可以適配到實(shí)際的問(wèn)題中去的。首先,考慮零售商要將收入目標(biāo)整合到推薦分值里的情況。

整體的效用函數(shù)可以被期望毛利率定義,設(shè) m(p)∈[0,1] 為物品 p 的規(guī)范化毛利率,而被購(gòu)買(mǎi)的概率則由排序位置的倒數(shù)表示(即在推薦列表里排序越低的的物品,其轉(zhuǎn)化概率越低)。

此處是概率規(guī)范化常數(shù)。綜合排序函數(shù)可以被定義為如下:

其中 β 是一個(gè)控制相關(guān)性和選取高毛利率產(chǎn)品之間的權(quán)衡的參數(shù),這一參數(shù)決定了優(yōu)化問(wèn)題(2.4)的主要目標(biāo)。

根據(jù)次要目標(biāo)重新排序的另一個(gè)例子是促銷(xiāo)特色商品,如打折產(chǎn)品或易腐貨物。效用函數(shù)可以指定為特選產(chǎn)品在有 K 個(gè)推薦項(xiàng)的推薦列表中的平均個(gè)數(shù)。

此處 F(·) 是特選標(biāo)志當(dāng)物品是特選時(shí)為 1,不是則為 0。綜合排序函數(shù)組合了相關(guān)性分值和特選標(biāo)志,通過(guò)參數(shù) β 來(lái)權(quán)衡哪個(gè)是主要的優(yōu)化目標(biāo)。

以上的排序函數(shù)能夠直接擴(kuò)展到整合多個(gè)分離的特征,每個(gè)特征對(duì)最終排序分值的貢獻(xiàn)尤其對(duì)應(yīng)的權(quán)衡參數(shù)(所有參數(shù)需要聯(lián)合起來(lái)優(yōu)化):

關(guān)于問(wèn)題(2.4)的數(shù)值優(yōu)化算法的細(xì)節(jié)可以在 [RP12] 中找到。

問(wèn)題 3: 需求預(yù)測(cè)

1.問(wèn)題定義

零售商為客戶提供一組產(chǎn)品,對(duì)給定產(chǎn)品的需求依賴于許多因素,包括產(chǎn)品本身的特性如價(jià)格或品牌,同類產(chǎn)品競(jìng)爭(zhēng)對(duì)手的價(jià)格、 促銷(xiāo)活動(dòng),甚至是天氣。

該問(wèn)題的目標(biāo)是整合這些因素來(lái)構(gòu)建需求模型并且允許進(jìn)行假設(shè)分析以預(yù)測(cè)對(duì)價(jià)格變化的響應(yīng),品類的擴(kuò)充和減少,計(jì)算最佳庫(kù)存水平,并分配貨架空間單位。

2.應(yīng)用

在本節(jié)中我們將討論需求預(yù)測(cè)核心問(wèn)題。這一問(wèn)題可以被考慮為一個(gè)建造模塊,該模塊要求對(duì)影響需求的行為或者庫(kù)存水平的限制建模:

  • 價(jià)格優(yōu)化,促銷(xiāo)活動(dòng)計(jì)劃, 以及定向折扣。
  • 品類管理和計(jì)劃。
  • 庫(kù)存水平優(yōu)化。
  • 需求預(yù)測(cè)模型通常應(yīng)用在市場(chǎng)營(yíng)銷(xiāo)活動(dòng)設(shè)計(jì)中,因?yàn)檫@些模型能夠解釋需求回歸量的影響。例如,一個(gè)需求預(yù)測(cè)模型可以揭示某一產(chǎn)品的價(jià)格敏感性(當(dāng)價(jià)格變化時(shí)需求有多少變化)與包裝大小和和銷(xiāo)售區(qū)域的人口特性緊密相關(guān),這就暗示了可以在不同的商店使用不同的價(jià)格并對(duì)不同包裝的產(chǎn)品設(shè)定不同的單位毛利率。

我們將在后面的章節(jié)中把需求預(yù)測(cè)模型用在價(jià)格優(yōu)化和品類計(jì)劃問(wèn)題上。

3.解決方案

需求預(yù)測(cè)可以被認(rèn)為是一個(gè)相對(duì)簡(jiǎn)單的數(shù)據(jù)挖掘問(wèn)題,只需要建立一個(gè)回歸模型并用歷史數(shù)據(jù)進(jìn)行評(píng)估。然而,設(shè)計(jì)回歸模型則不是那么簡(jiǎn)單的事情,因?yàn)樾枨笫艿胶芏嘤兄鴱?fù)雜依賴關(guān)系的因素的影響。

在本節(jié)中,我們將研究文獻(xiàn) [KOK07] 為 Albert Heijn(一家荷蘭的連鎖超市)構(gòu)建并驗(yàn)證的回歸模型。這一模型基于早期的營(yíng)銷(xiāo)研究如 [BG92],以及時(shí)尚零售商如 RueLaLa[JH14] 和 Zara[CA12] 的實(shí)踐,這些實(shí)踐中應(yīng)用了相似的模型。

然而,重要的是要理解不同的優(yōu)化問(wèn)題需要不同的需求預(yù)測(cè)模型并且?guī)缀醪豢赡軜?gòu)建通用的需求模型來(lái)整合各種不同的需求影響因子。

我們從以下對(duì)一給定產(chǎn)品的需求模型開(kāi)始:

此處:

  • V 是在給定時(shí)間窗口內(nèi)顧客到訪商店的數(shù)量,例如一天。
  • Pr(purchase | visit) 是客戶在逛商店期間購(gòu)買(mǎi)任意商品的概率。
  • Pr(j | purchase) 是當(dāng)客戶發(fā)生購(gòu)買(mǎi)時(shí)在所有可選項(xiàng)中選擇產(chǎn)品的概率。
  • E{Q | j;purchase} 是當(dāng)客戶選擇了產(chǎn)品并購(gòu)買(mǎi)時(shí)購(gòu)買(mǎi)數(shù)量(單位數(shù)量)的數(shù)學(xué)期望。

公式(3.1)中的所有因素都可以用店鋪的歷史交易數(shù)據(jù)來(lái)估計(jì)。需求通常與日期(周幾、節(jié)假日等)和店鋪(大小、鄰近區(qū)域的人口統(tǒng)計(jì)情況等等)相關(guān),所以我們引入下標(biāo) t 和 h 來(lái)分別表示日期和店鋪,而估計(jì)的需求就是這些參數(shù)的函數(shù)。

另外,商店屬性,如大小、位置和平均消費(fèi)者的收入可以納入模型作為回歸。根據(jù) [KOK07],商店訪客的數(shù)量可以建模如下:

此處 Tt 是天氣溫度,Wt 是天氣舒適度指數(shù)(濕度、陰晴等),Bti 和 Eti 分別是表示一天是星期幾和公共假期的 0/1 啞變量,H 是公共假期的天數(shù),而 α 是回歸系數(shù)。

購(gòu)買(mǎi)事件是一個(gè)二值變量(購(gòu)買(mǎi)/沒(méi)有購(gòu)買(mǎi)),所以我們可以用一個(gè)標(biāo)準(zhǔn)的建模方法 – 將購(gòu)買(mǎi)概率用一個(gè) Sigmoid 函數(shù)來(lái)表達(dá)并從數(shù)據(jù)估計(jì)指數(shù)參數(shù):

則 x 的回歸模是:

此處 Ajht 是啞變量,產(chǎn)品 j 在促銷(xiāo)時(shí)值為 1 否則為 0,Nh 是所有產(chǎn)品的數(shù)量,而 β4 對(duì)應(yīng)的是促銷(xiāo)產(chǎn)品占整體銷(xiāo)售產(chǎn)品中的百分比。

Pr(j | purchase) 的估計(jì)則更為棘手一些??蛻暨x擇建模在本質(zhì)上是計(jì)量經(jīng)濟(jì)問(wèn)題,是一個(gè)特別的經(jīng)濟(jì)學(xué)研究分支——選擇建模理論。選擇建模理論證明了多項(xiàng) logit 模型(MNL)是有效的方法來(lái)對(duì)多個(gè)選項(xiàng)中選擇的概率進(jìn)行建模。

此處會(huì) i 迭代遍歷所有產(chǎn)品,yj 是一個(gè)參數(shù)變量。類似于購(gòu)買(mǎi)事件的概率,我們對(duì)參數(shù) yj 建立了一個(gè)回歸模型:

此處系數(shù) Γn+1 和 數(shù) Γn+2 由所有產(chǎn)品共享,Rjht 和 R 分別是單個(gè)產(chǎn)品的價(jià)格和產(chǎn)品的平均價(jià)格,而 Ajht 和 A 是促銷(xiāo)啞變量和平均促銷(xiāo)率,如上面對(duì)購(gòu)買(mǎi)可能性回歸模型描述的那樣。

最后,單位產(chǎn)品的平均銷(xiāo)售數(shù)量可以建模如下:

通過(guò)將上述模型代入根表達(dá)式(3.1),可以得到完全特別的需求預(yù)測(cè)模型。 這一模型可以根據(jù)零售商的業(yè)務(wù)用例來(lái)調(diào)整,這些跳幀個(gè)可以通過(guò)增加更多的解釋性變量如營(yíng)銷(xiāo)事件來(lái)完成。

 

作者:Ilya Katsov

原文鏈接:https://highlyscalable.wordpress.com/2015/03/10/data-mining-problems-in-retail/

譯者:張夏天,公眾號(hào):TalkingData(ID:Talkingdata)

TalkingData誠(chéng)邀優(yōu)秀人才加入,感興趣同學(xué)請(qǐng)將簡(jiǎn)歷投遞至 TalkingData 首席數(shù)據(jù)科學(xué)家張夏天郵箱:xiatian.zhang@tendcloud.com

本文由 @TalkingData 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 嗯,我就是用 TalkingData公司的埋點(diǎn)系統(tǒng)的,特別不好用。

    來(lái)自廣東 回復(fù)
  2. 從英文原文中找到了引用出處,感謝譯者:)
    [BE11] Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, G. Linoff and M. J. A. Berry, 2011
    [AS14] A Practical Guide to Data Mining for Business and Industry, Ahlemeyer-Stubbe A. Coleman S.
    [PR13] Data Science for Business: What you need to know about data mining and data-analytic thinking, F. Provost, T. Fawcett, 2013

    來(lái)自北京 回復(fù)
  3. –盡管已經(jīng)有許多關(guān)于數(shù)據(jù)挖掘在營(yíng)銷(xiāo)和客戶關(guān)系管理方面的書(shū),如 [BE11, AS14, PR13 etc.],但絕大多數(shù)書(shū)的結(jié)構(gòu)更像是數(shù)據(jù)科學(xué)家手冊(cè)…
    求教 [BE11, AS14, PR13 etc.]這是什么書(shū)?

    來(lái)自北京 回復(fù)
  4. 666,坐等下篇

    來(lái)自江蘇 回復(fù)
  5. 大佬?。。。”Т笸?/p>

    來(lái)自上海 回復(fù)