用戶畫像如何從搭建到應(yīng)用實(shí)戰(zhàn)?
用戶畫像是指根據(jù)用戶的基本屬性、用戶偏好、生活習(xí)慣、用戶行為等信息而抽象出來(lái)的標(biāo)簽化用戶模型。那么,我們要怎么去應(yīng)用這些用戶畫像呢?
一、用戶畫像是什么?
用戶畫像是指根據(jù)用戶的基本屬性、用戶偏好、生活習(xí)慣、用戶行為等信息而抽象出來(lái)的標(biāo)簽化用戶模型。每一個(gè)標(biāo)簽及標(biāo)簽權(quán)重即為用戶的一個(gè)向量,一個(gè)用戶可以理解為超維空間的多個(gè)向量(標(biāo)簽)的和。即通過(guò)數(shù)據(jù)方式來(lái)描述用戶,最終將一個(gè)用戶表達(dá)為計(jì)算機(jī)可識(shí)別的用戶,以此為基礎(chǔ)實(shí)現(xiàn)用戶畫像應(yīng)用。
二、用戶畫像應(yīng)用
當(dāng)一個(gè)用戶可以被計(jì)算機(jī)全面識(shí)別理解后,我們就可以用來(lái)做精準(zhǔn)營(yíng)銷、個(gè)性化推薦等基礎(chǔ)性工作,其作用總體包括:
- 精準(zhǔn)營(yíng)銷:根據(jù)用戶特征,針對(duì)特定群體,利用短信、郵件、AppPush、App彈窗、微信公眾號(hào)、微信群等方式進(jìn)行營(yíng)銷。
- 用戶統(tǒng)計(jì):根據(jù)用戶的屬性、行為特征對(duì)用戶進(jìn)行分類后,統(tǒng)計(jì)不同特征下的用戶數(shù)量、分布;分析不同用戶畫像群體的分布特征。
- 個(gè)性推薦:以用戶畫像為基礎(chǔ)構(gòu)建推薦系統(tǒng)、搜索引擎、廣告投放系統(tǒng),提升轉(zhuǎn)化率。
- 行業(yè)研究:通過(guò)用戶畫像分析可以了解行業(yè)動(dòng)態(tài),比如人群消費(fèi)習(xí)慣、消費(fèi)偏好分析、不同地域品類消費(fèi)差異分析。
三、用戶畫像如何提供以上能力
用戶畫像有以上應(yīng)用,到底是怎么應(yīng)用的呢?我們一個(gè)一個(gè)解釋一遍。
1. 精準(zhǔn)營(yíng)銷
根據(jù)用戶特征,針對(duì)特定群體,利用短信、郵件、AppPush、App彈窗、微信群、h5等方式進(jìn)行營(yíng)銷。如果沒(méi)有用戶畫像,也能完成 短信、郵件、App push、App彈窗的運(yùn)營(yíng),但是不能保證資源有效利用。
為什么這么說(shuō)呢?在平臺(tái)用戶量低的時(shí)候,我們很容易做運(yùn)營(yíng),我們將運(yùn)營(yíng)內(nèi)容全量推送,發(fā)現(xiàn)召回率、轉(zhuǎn)化率并不會(huì)很低。這是因?yàn)槌跗谖覀兊挠脩舳己芫珳?zhǔn),所以召回率轉(zhuǎn)化率不會(huì)很低。但隨著用戶基數(shù)的逐漸增加,這種運(yùn)營(yíng)效果越來(lái)越差轉(zhuǎn)化率越來(lái)越低。
因?yàn)殡S著用戶量的增加,推送的內(nèi)容只能打動(dòng)那一小撮人,為了提升轉(zhuǎn)化效率,運(yùn)營(yíng)位資源的有效利用,我們需要借助用戶畫像的能力。
(1)分群運(yùn)營(yíng)
分群運(yùn)營(yíng)是此問(wèn)題很好的解決方案,通過(guò)用戶畫像的標(biāo)簽篩選,篩選出不同的用戶群,篩選出的用戶群每個(gè)用戶群都有一個(gè)唯一id。通過(guò)push或彈窗配置平臺(tái),輸入用戶群id實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)。
(2)自動(dòng)化運(yùn)營(yíng)
我們讓用戶群的粒度無(wú)限小,最后會(huì)小到一個(gè)個(gè)體。我們針對(duì)每個(gè)個(gè)體去做push或者彈屏,運(yùn)營(yíng)效率還是太低了?;谟脩舢嬒竦淖詣?dòng)化運(yùn)營(yíng)就發(fā)揮了作用。我們一起看一下如何實(shí)現(xiàn)自動(dòng)化運(yùn)營(yíng)。
- 粗略定向(城市:北京;屬性:新用戶)此類設(shè)置為滿足業(yè)務(wù)需求,比如暑假低價(jià)課的廣告彈屏只針對(duì)沒(méi)有購(gòu)買過(guò)長(zhǎng)期班的用戶。這是通過(guò)事實(shí)標(biāo)簽來(lái)實(shí)現(xiàn)。
- 精細(xì)定向:設(shè)置偏好標(biāo)簽及標(biāo)簽值來(lái)確定精細(xì)用戶群。原理很簡(jiǎn)單,給一個(gè)策略設(shè)定好偏好標(biāo)簽及標(biāo)簽權(quán)重后,相當(dāng)于在空間中繪制出一個(gè)用戶向量,我們用真實(shí)用戶向量與此向量進(jìn)行空間向量的余弦相似計(jì)算,或歐幾里得距離計(jì)算相似性,最相似的則優(yōu)先顯示。如果相同相似則按創(chuàng)建時(shí)間倒敘展示。這樣設(shè)定權(quán)重好處:可以很好的避免不同業(yè)務(wù)部門App內(nèi)流量的爭(zhēng)搶。只有設(shè)置的標(biāo)簽才參與計(jì)算,不是全部標(biāo)簽進(jìn)行相似計(jì)算。
- 設(shè)定push文案
- push落地頁(yè)
- 設(shè)定開(kāi)始結(jié)束機(jī)制(時(shí)間控件)
舉個(gè)例子:
背景:
- 暑期結(jié)束場(chǎng)景下的收心課;
- 針對(duì)沒(méi)有報(bào)名暑假長(zhǎng)期班的學(xué)員;
- 目標(biāo)100w。
配置:
- 設(shè)置人群;沒(méi)有購(gòu)買2019暑期長(zhǎng)期班的學(xué)員;
- 設(shè)置權(quán)重:數(shù)學(xué):0.8,短期班:0.7,暑假:0.6,開(kāi)學(xué):0.5;
- 設(shè)置文案:親愛(ài)的斑馬家長(zhǎng)你好,暑假愉快,學(xué)而思網(wǎng)校為您準(zhǔn)備9.9元 10節(jié)暑假數(shù)學(xué)收心課;
- 設(shè)置落地頁(yè):www.banma.com;
- 時(shí)間設(shè)置:2019/08/23-2019/08/24。
圖示:
2. 用戶統(tǒng)計(jì)
根據(jù)用戶的屬性、行為特征對(duì)用戶進(jìn)行分類后,統(tǒng)計(jì)不同特征下的用戶數(shù)量、分布、走勢(shì)等。
這里不做多闡述,參考神策。截圖大家參考下,數(shù)據(jù)已脫敏。
北京的-完成加入購(gòu)物車操作的用戶數(shù)的趨勢(shì)
3. 用戶組成
4. 個(gè)性推薦
個(gè)性推薦:以用戶畫像為基礎(chǔ)構(gòu)建推薦系統(tǒng)、搜索引擎、廣告投放系統(tǒng),提升轉(zhuǎn)化率。
這里重點(diǎn)介紹一下推薦系統(tǒng),其他與推薦邏輯大同小異。
推薦系統(tǒng)一般都分為召回和排序兩個(gè)階段。因?yàn)槿课锲罚↖tem)通常數(shù)量非常大,無(wú)法為一個(gè)用戶(User)逐一計(jì)算每一個(gè)物品(Item)的評(píng)分,這時(shí)候就需要一個(gè)召回階段,其實(shí)就是預(yù)先篩選一部分物品(Item),從而降低計(jì)算量。
海量 Item——召回(粗排)——候選集合——排序(精排)——排序列表——規(guī)則(多樣化推薦)——推薦結(jié)果。用戶畫像除了用于最終匹配評(píng)分,還要用于在召回。
那用戶畫像是如何做召回?
我們先看一下用戶畫像的用戶偏好表存儲(chǔ)(用戶畫像有好多個(gè)表,文章畫像構(gòu)建部分會(huì) 具體講解):
當(dāng)我們購(gòu)買完成一個(gè)帶有標(biāo)簽id1,標(biāo)簽id2,標(biāo)簽id3的課程后,一般在購(gòu)買完成頁(yè)會(huì)有交叉銷售場(chǎng)景,我們通過(guò)用戶偏好表的標(biāo)簽及權(quán)重,基于用戶相似,或Item相似的協(xié)同過(guò)濾算法,召回一部分課程。這就是粗排的過(guò)程。簡(jiǎn)單理解就是找到用戶喜歡的其他課程。
協(xié)同過(guò)濾:基于用戶相似推薦:歐幾里得距離公式 userid1 與 userid2 =√ [(標(biāo)簽id1-標(biāo)簽id1)^2+(標(biāo)簽id2-標(biāo)簽id2)^2+···(標(biāo)簽idn-標(biāo)簽idn)^2]
5. 行業(yè)研究
行業(yè)研究就很好理解了,我們經(jīng)常聽(tīng)到馬爸爸拿一些標(biāo)簽,說(shuō)明這個(gè)地方人喜歡買什么?為什么喜歡買?那個(gè)地方人喜歡買什么?為什么喜歡?
最經(jīng)典的就是每年的年終總結(jié)H5,這里不多贅述此內(nèi)容。
四、用戶畫像的搭建
1. 標(biāo)簽管理系統(tǒng)搭建
(1)什么是標(biāo)簽管理系統(tǒng)?
標(biāo)簽與用戶畫像的關(guān)系,在介紹什么是用戶畫像時(shí)候就已經(jīng)說(shuō)過(guò)。
我們說(shuō)一下什么是標(biāo)簽管理系統(tǒng):
一般來(lái)說(shuō),將能關(guān)聯(lián)到具體用戶數(shù)據(jù)的標(biāo)簽,稱為葉子標(biāo)簽。對(duì)葉子標(biāo)簽進(jìn)行分類匯總的標(biāo)簽,稱為父標(biāo)簽。父標(biāo)簽和葉子標(biāo)簽共同構(gòu)成標(biāo)簽體系,但兩者是相對(duì)概念。
用戶畫像的本質(zhì)就是使用不同的標(biāo)簽來(lái)描述表達(dá)用戶,那這些標(biāo)簽是需要我們事先準(zhǔn)備好的。每個(gè)用戶都有成千上萬(wàn)的標(biāo)簽,我們維護(hù)這么大量級(jí)的標(biāo)簽,我們事先一定要構(gòu)建健康的標(biāo)簽體系。
所以標(biāo)簽管理系統(tǒng)要支持對(duì)所有標(biāo)簽查詢、修改、刪除、新增等功能,主要包括兩個(gè)模塊:標(biāo)簽樹(shù)和標(biāo)簽查詢。
- 標(biāo)簽樹(shù):以樹(shù)形結(jié)構(gòu)呈現(xiàn)標(biāo)簽之間的層級(jí)和邏輯關(guān)系,并且可以對(duì)任意層級(jí)的標(biāo)簽名進(jìn)行修改、新增和刪除;
- 標(biāo)簽查詢:對(duì)某一時(shí)間段內(nèi)的標(biāo)簽進(jìn)行查詢,可以實(shí)現(xiàn)自定義查詢及條件查詢,并實(shí)現(xiàn)標(biāo)簽下的用戶數(shù)的統(tǒng)計(jì)功能。
(2)標(biāo)簽管理系統(tǒng)功能列表
(3)標(biāo)簽管理系統(tǒng)頁(yè)面
(4)標(biāo)簽體系構(gòu)建
1)偏好標(biāo)簽
偏好標(biāo)簽簡(jiǎn)單理解就是用戶對(duì)不同標(biāo)簽的喜愛(ài)程度,通過(guò)用戶與標(biāo)簽的行為類型、行為權(quán)重、行為次數(shù)、時(shí)間衰減來(lái)計(jì)算。后續(xù)具體講解如何進(jìn)行計(jì)算,偏好標(biāo)簽是做推薦及策略方向最重要的標(biāo)簽。
2)標(biāo)簽梳理
該類標(biāo)簽梳理很簡(jiǎn)單,在我們數(shù)據(jù)倉(cāng)庫(kù)中有不同的內(nèi)容表。
比如課程數(shù)據(jù)庫(kù)表結(jié)構(gòu):上課地點(diǎn)、上課時(shí)間、老師、價(jià)格、大綱、評(píng)價(jià)……
比如教師表結(jié)構(gòu):教師名稱、有無(wú)教師資格證、年齡、學(xué)校、性別、評(píng)價(jià)……
這里每一個(gè)字段就是一個(gè)偏好標(biāo)簽,當(dāng)然字段值也是標(biāo)簽。因?yàn)橛脩襞c這些內(nèi)容發(fā)生關(guān)系,間接是與這些標(biāo)簽放生關(guān)系。
偏好標(biāo)簽是固定的,不可編輯修改,數(shù)據(jù)來(lái)源于平臺(tái)內(nèi)全部?jī)?nèi)容的表字段及值。
3)事實(shí)標(biāo)簽
- 信息標(biāo)簽:用戶的基本信息標(biāo)簽(城市、年級(jí)、年齡、性別……)
- 業(yè)務(wù)標(biāo)簽:來(lái)自業(yè)務(wù)的標(biāo)簽(在讀、非在讀、長(zhǎng)期班、短期班、語(yǔ)文、數(shù)學(xué)、英語(yǔ)……)
- 規(guī)則標(biāo)簽:自定義的規(guī)則(低潛、中潛、高潛、核心)
4)標(biāo)簽梳理
用戶基本信息,用戶業(yè)務(wù)信息,工作人員定的規(guī)則,比如:低潛用戶,中潛用戶……
5)預(yù)測(cè)標(biāo)簽
這種標(biāo)簽是根據(jù)機(jī)器學(xué)習(xí)預(yù)測(cè)的標(biāo)簽,比如:流失預(yù)測(cè),虎躍預(yù)測(cè),轉(zhuǎn)化預(yù)測(cè)等等。
6)標(biāo)簽梳理
很簡(jiǎn)單,就那么幾個(gè)想預(yù)測(cè)啥就添加啥。標(biāo)簽之間具有層級(jí)的邏輯關(guān)系,1級(jí)是2級(jí)標(biāo)簽的父級(jí),2級(jí)是1級(jí)標(biāo)簽的子級(jí),以此類推。
偏好標(biāo)簽不可編輯,數(shù)據(jù)來(lái)源于不同內(nèi)容的表字段。事實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽當(dāng)子級(jí)有內(nèi)容則父級(jí)不可刪除,但可編輯。只有下一級(jí)沒(méi)有任何子級(jí)的情況下可以進(jìn)行刪除操作。
2. 標(biāo)簽權(quán)重計(jì)算
這里的標(biāo)簽權(quán)重計(jì)算特指偏好標(biāo)簽。
畫像的用戶偏好標(biāo)簽存儲(chǔ)結(jié)構(gòu):
這里的每一個(gè)用戶每一個(gè)標(biāo)簽下的值就是標(biāo)簽的權(quán)重,這節(jié)講解的重點(diǎn)。
這個(gè)標(biāo)簽權(quán)重影響著對(duì)用戶屬性的歸類,屬性歸類不準(zhǔn)確,接下來(lái)給予畫像對(duì)用戶進(jìn)行推薦,精細(xì)化運(yùn)營(yíng)也就無(wú)從談起。
(1)基于TF-IDF算法計(jì)算
1)算法思想
用戶標(biāo)簽權(quán)重,是由該標(biāo)簽對(duì)用戶本身的重要性與該標(biāo)簽在業(yè)務(wù)上,對(duì)用戶的重要性共同決定的。
標(biāo)簽本身對(duì)用戶重要性是通過(guò)TF-IDF計(jì)算得到的,業(yè)務(wù)權(quán)重是通過(guò)用戶對(duì)標(biāo)簽的行為來(lái)決定的,即:
- 用戶標(biāo)簽權(quán)重 = 業(yè)務(wù)權(quán)重* TF-IDF權(quán)重
- 用戶標(biāo)簽權(quán)重 = 行為類型權(quán)重 * 行為次數(shù) * 時(shí)間衰減* TF-IDF權(quán)重
2)簡(jiǎn)單理解
就是用戶對(duì)一個(gè)標(biāo)簽,會(huì)有不同行為觸達(dá),不同的行為有不同的難度,比如:購(gòu)買行為大于搜索行為,搜索行為大于瀏覽行為。所以不同行為就會(huì)有不同的權(quán)重,行為越難代表越喜歡,權(quán)重越高同理行為次數(shù)越多也代表越喜歡。
標(biāo)簽對(duì)這個(gè)用戶來(lái)說(shuō)越稀有代表越喜歡,喜歡程度會(huì)隨著時(shí)間的增加而逐漸降低,通過(guò)這個(gè)公式計(jì)算標(biāo)簽權(quán)重。
3)行為類型權(quán)重
用戶瀏覽、點(diǎn)擊、搜索、收藏、分享、下單、購(gòu)買等不同行為對(duì)用戶而且有不同重要性,一般使用層次分析法定義一個(gè)基本行為權(quán)重。
4)行為次數(shù)
這里的行為次數(shù)表示每一種行為的次數(shù)。
5)時(shí)間衰減
時(shí)間衰減是指用戶的行為會(huì)隨著時(shí)間的流逝,用戶偏好會(huì)不斷減弱。在建立與時(shí)間衰減相關(guān)的函數(shù)時(shí),我們可套用牛頓冷卻定律數(shù)學(xué)模型。
牛頓冷卻定律:
較熱物體的溫度F(t)是隨著時(shí)間t的增長(zhǎng)而呈現(xiàn)指數(shù)型衰減,其溫度衰減公式為:F(t)=T×exp(-α×t)。
- T:初始溫度
- α:衰減常數(shù)即冷卻系數(shù),是自己定義的數(shù)值,一般通過(guò)回歸可計(jì)算得出
- t:時(shí)間間隔
冷卻系數(shù)如何計(jì)算呢?
冷卻系數(shù)是自己定義的數(shù)值,一般通過(guò)回歸可計(jì)算得出。例如:初始溫度100攝氏度,1小時(shí)后的溫度為85攝氏度,即 85=100×exp(-α×1),求得α=0.16。
在這里我們用R語(yǔ)言來(lái)模擬一下這個(gè)冷卻曲線:
wendu<-100*exp(-0.16*t) t<-c(1:100) plot(x)
t<-c(1:100)
plot(x)
6) TF-IDF
TF-IDF = TF*IDF
TF:
這里我們用 N(P,T)表示一個(gè)標(biāo)簽T被用于標(biāo)簽用戶P的次數(shù)。
TF(P,T)表示這個(gè)標(biāo)記次數(shù)在用戶P所有標(biāo)簽標(biāo)記次數(shù)中所占的比例。
TF(P,T)= N(P,T)/Σ N(P,Ti)
N(P,T):打在某用戶身上某個(gè)標(biāo)簽的個(gè)數(shù)
Σ N(P,Ti):該用戶身上全部標(biāo)簽的個(gè)數(shù)
Ti 該用戶全部標(biāo)簽個(gè)數(shù)
IDF:
IDF(P,T):表示標(biāo)簽T在全部標(biāo)簽中的稀缺程度
如果一個(gè)標(biāo)簽出現(xiàn)的幾率很小,同時(shí)被用戶標(biāo)記某個(gè)用戶,這就使得該用戶與該標(biāo)簽T之間的關(guān)系更加緊密。
IDF(P,T)=Σ Σ N(Pi,Ti)/ΣN(Pi,T)
Σ Σ N(Pi,Ti):全部用戶的全部標(biāo)簽之和
ΣN(Pi,T) :所有打T標(biāo)簽的用戶之和
7)計(jì)算方式
舉例子:
用戶“斑馬”,對(duì)于標(biāo)簽“語(yǔ)文”的標(biāo)簽權(quán)重計(jì)算:假設(shè)我們之前定義 冷卻系數(shù)α=0.16。
行為表:
2019-08-22
2019-08-23
2019-08-24
用戶“斑馬”對(duì)標(biāo)簽“語(yǔ)文”的權(quán)重:
2019-08-22:語(yǔ)文=2*0.1+2*0.2+3*0.6+1*0.5+1*0.9=3.8
2010-08-23:語(yǔ)文=3.8 *exp(-α*1)+1*0.1+1*0.2+2*0.6+1*0.5+0=5.067718
2010-08-23:語(yǔ)文= 5.067718*exp(-α*1)= 4.318424
3. 標(biāo)簽存儲(chǔ)
(1)事實(shí)標(biāo)簽
1)基礎(chǔ)信息表
2)事實(shí)標(biāo)簽-在讀信息表
3)事實(shí)標(biāo)簽-報(bào)名信息表
4)事實(shí)標(biāo)簽-規(guī)則信息表
(2)偏好標(biāo)簽&預(yù)測(cè)標(biāo)簽
本文由 @斑馬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
F(t)=T×exp(-α×t)這個(gè)公式里的“×”是乘號(hào)嗎?還是未知變量“x”?。?/p>
學(xué)習(xí)了
想知道怎么找到合適的時(shí)間衰減系數(shù)
學(xué)習(xí)了,感謝分享!
vx:13126701193