【標(biāo)簽畫(huà)像系列】標(biāo)簽加工與落庫(kù)
編輯導(dǎo)語(yǔ):標(biāo)簽加工與落庫(kù)是標(biāo)簽體系完成后重要的步驟,本篇文章作者分享了標(biāo)簽加工與落庫(kù)過(guò)程中需要關(guān)注的注意點(diǎn),講述了不同標(biāo)簽的加工內(nèi)容以及標(biāo)簽的更新與落庫(kù)等內(nèi)容,一起來(lái)學(xué)習(xí)一下吧,希望對(duì)你有幫助。
在標(biāo)簽生命周期流程中,標(biāo)簽體系設(shè)計(jì)完成后,便進(jìn)入標(biāo)簽加工與上線(xiàn)運(yùn)行階段,一般來(lái)說(shuō)數(shù)據(jù)開(kāi)發(fā)團(tuán)隊(duì)會(huì)主導(dǎo)此過(guò)程,但我們需要關(guān)心以下幾個(gè)問(wèn)題:
- 標(biāo)簽如何快速創(chuàng)建和實(shí)現(xiàn)標(biāo)簽邏輯的在線(xiàn)化管理;
- 業(yè)務(wù)人員怎么參與到標(biāo)簽建設(shè)流程中;
- 百級(jí)別的標(biāo)簽如何落表。
一、加工方式:傳統(tǒng) VS 在線(xiàn)
當(dāng)企業(yè)無(wú)標(biāo)簽系統(tǒng)時(shí),一般由數(shù)據(jù)開(kāi)發(fā)在離線(xiàn)數(shù)倉(cāng)中完成標(biāo)簽加工和運(yùn)行,運(yùn)營(yíng)或市場(chǎng)同學(xué)需要某個(gè)標(biāo)簽需要通過(guò)產(chǎn)品經(jīng)理向數(shù)據(jù)開(kāi)發(fā)提需求,這個(gè)過(guò)程存在很多問(wèn)題:
- 標(biāo)簽資產(chǎn)不可見(jiàn):標(biāo)簽是存在于表里的字段,業(yè)務(wù)人員不清楚現(xiàn)在有多少標(biāo)簽;標(biāo)簽的加工邏輯與業(yè)務(wù)邏輯是否一致只能查看SQL代碼;新上線(xiàn)的標(biāo)簽只有部分人知道,標(biāo)簽價(jià)值散發(fā)慢等。
- 標(biāo)簽資產(chǎn)不可管:加工好的標(biāo)簽,有多少在真正被使用,有多少?zèng)]人用,完全黑盒,不用的標(biāo)簽每天繼續(xù)運(yùn)行浪費(fèi)計(jì)算與存儲(chǔ)資源。
- 標(biāo)簽加工效率低:當(dāng)業(yè)務(wù)人員需要某個(gè)簡(jiǎn)單標(biāo)簽時(shí),也需要提交需求給數(shù)據(jù)開(kāi)發(fā),加工到上線(xiàn)基本需要2-3天流程。
基于以上這些問(wèn)題,標(biāo)簽在線(xiàn)化創(chuàng)建與管理顯得尤為重要,在線(xiàn)化主要包含以下內(nèi)容:
- 標(biāo)簽在線(xiàn)化加工;
- 標(biāo)簽在線(xiàn)化管理;
- 標(biāo)簽在線(xiàn)化更新。
其讓標(biāo)簽加工過(guò)程、有哪些標(biāo)簽變得透明,業(yè)務(wù)人員也可以參與進(jìn)標(biāo)簽建設(shè)的流程中。
二、各類(lèi)型標(biāo)簽加工
標(biāo)簽類(lèi)型的區(qū)分在此處便不再贅述了。在袋鼠云智能標(biāo)簽產(chǎn)品中,我們按照標(biāo)簽加工邏輯,將標(biāo)簽分為下文類(lèi)型,各類(lèi)型標(biāo)簽的加工層次如下圖:
接下來(lái),我們看下具體各類(lèi)型標(biāo)簽的加工吧。
1. 原子標(biāo)簽
該類(lèi)標(biāo)簽由數(shù)據(jù)開(kāi)發(fā)在數(shù)倉(cāng)加工中完成,一般基于數(shù)倉(cāng)DWD、DWS層的明細(xì)表與匯總表加工而來(lái),處理邏輯較為復(fù)雜,同時(shí)維表中的一些字段也可以作為原子標(biāo)簽。這類(lèi)標(biāo)簽一般包含哪些內(nèi)容呢?
比如建立用戶(hù)的標(biāo)簽體系,會(huì)包含:
用戶(hù)維表中的用戶(hù)基礎(chǔ)屬性:性別、年齡、置業(yè)、會(huì)員等級(jí)、手機(jī)號(hào)、身份證號(hào)等信息,一般用戶(hù)系統(tǒng)會(huì)有該類(lèi)信息。
基于交易表加工的交易指標(biāo):最近30天購(gòu)買(mǎi)次數(shù)、最近30天交易金額、最近7天購(gòu)買(mǎi)次數(shù)、最近7天交易金額。這部分標(biāo)簽也建議放在數(shù)倉(cāng)中實(shí)現(xiàn),有以下幾點(diǎn)原因。
- 因?yàn)槠浔旧硪彩且粋€(gè)指標(biāo),除后續(xù)作為標(biāo)簽進(jìn)行畫(huà)像分析外,也常用于在數(shù)據(jù)門(mén)戶(hù)、BI報(bào)表中分析,可作為對(duì)外服務(wù)的指標(biāo)放在ADS層中,并且市場(chǎng)上也會(huì)有專(zhuān)門(mén)指標(biāo)管理的產(chǎn)品,來(lái)實(shí)現(xiàn)該指標(biāo)的加工。
- 這類(lèi)標(biāo)簽若屬于同一個(gè)統(tǒng)計(jì)維度(如都計(jì)算最近7天),數(shù)據(jù)開(kāi)發(fā)可以在一個(gè)SQL片段中計(jì)算多個(gè)標(biāo)簽,節(jié)約計(jì)算成本。
- 若業(yè)務(wù)人員直接基于DWS層的輕度匯總表(每天匯總的交易次數(shù)、交易金額)、或DWD層的明細(xì)表(每條交易記錄一行數(shù)據(jù))來(lái)加工最近30天購(gòu)買(mǎi)次數(shù)這個(gè)標(biāo)簽,需要針對(duì)對(duì)應(yīng)的字段進(jìn)行求和,稍微涉及到一點(diǎn)SQL理解,有一點(diǎn)難度。
故該類(lèi)使用場(chǎng)景多、對(duì)于業(yè)務(wù)人員有計(jì)算難度,可在數(shù)倉(cāng)中合并加工降低成本的標(biāo)簽,可在數(shù)倉(cāng)中作為原子標(biāo)簽加工。
基于行為表加工的行為指標(biāo):可經(jīng)過(guò)數(shù)倉(cāng)加工成如下表格式,加工行為類(lèi)的標(biāo)簽,便于后續(xù)業(yè)務(wù)人員去衍生。
原子標(biāo)簽在數(shù)倉(cāng)加工好后,可導(dǎo)入到標(biāo)簽系統(tǒng)中,進(jìn)行在線(xiàn)化管理。
2. 規(guī)則標(biāo)簽
該類(lèi)標(biāo)簽配置可由數(shù)據(jù)開(kāi)發(fā)或數(shù)據(jù)分析師來(lái)完成,可基于單張表或關(guān)聯(lián)表中的字段進(jìn)行在線(xiàn)化加工,可設(shè)置統(tǒng)計(jì)周期、數(shù)據(jù)過(guò)濾條件,其內(nèi)置常用的聚合函數(shù)(求和、均值、計(jì)數(shù)、去重技術(shù)、最大值、最小值等)、操作符(大于、小于、區(qū)間、有值、無(wú)值、包含等),通過(guò)規(guī)則化的在線(xiàn)配置完成標(biāo)簽加工。配置界面如以下:
根據(jù)上面的描述,該類(lèi)標(biāo)簽可以將指標(biāo)的類(lèi)型的標(biāo)簽在數(shù)倉(cāng)或指標(biāo)平臺(tái)加工好,導(dǎo)入至標(biāo)簽平臺(tái)作為原子標(biāo)簽,再基于這些原子標(biāo)簽取操作符更好。但在實(shí)際場(chǎng)景中,基于不同考慮,有的客戶(hù)也會(huì)在標(biāo)簽平臺(tái)直接加工此類(lèi)型標(biāo)簽,如以下場(chǎng)景:
- 數(shù)倉(cāng)無(wú)對(duì)應(yīng)的基礎(chǔ)標(biāo)簽,但業(yè)務(wù)人員很著急需要該標(biāo)簽?zāi)硺?biāo)簽,走正常的排期、數(shù)倉(cāng)加工、測(cè)試,上線(xiàn)到使用基本2天以上了,基于這種情況可以通過(guò)該類(lèi)標(biāo)簽在標(biāo)簽系統(tǒng)直接配置,5分鐘即可配置、更新完成,業(yè)務(wù)人員便可以使用了;
- 客戶(hù)方想把標(biāo)簽的加工邏輯在線(xiàn)化呈現(xiàn)、方便查找與追溯,通過(guò)可視化的方式在線(xiàn)配置。
3. SQL標(biāo)簽
SQL標(biāo)簽主要數(shù)據(jù)開(kāi)發(fā)、數(shù)據(jù)分析師使用,主要解決通過(guò)規(guī)則標(biāo)簽無(wú)法表達(dá)的邏輯,如用到排序函數(shù)、字符轉(zhuǎn)化函數(shù)、子查詢(xún)等內(nèi)容??梢酝ㄟ^(guò)標(biāo)準(zhǔn)SQL語(yǔ)法靈活完成標(biāo)簽加工。
4. 模型標(biāo)簽
模型標(biāo)簽可由業(yè)務(wù)人員創(chuàng)建。系統(tǒng)集成常見(jiàn)的用戶(hù)分層RFM模型,用戶(hù)營(yíng)銷(xiāo)AIPL模型、用戶(hù)生命周期模型,用戶(hù)輸入對(duì)應(yīng)的指標(biāo)值區(qū)間,便可定義對(duì)應(yīng)的標(biāo)簽值。
以RFM模型舉例,基于該模型生成“客戶(hù)價(jià)值”標(biāo)簽??苫谧罱淮钨?gòu)買(mǎi)時(shí)間、最近一年消費(fèi)金額、最近一年消費(fèi)頻率等幾個(gè)原子標(biāo)簽,進(jìn)行不同區(qū)間的取值,給用戶(hù)打上“重要價(jià)值客戶(hù)”、“重要發(fā)展客戶(hù)”、“重要發(fā)展客戶(hù)”、“重要挽留客戶(hù)”等。
5. 組合標(biāo)簽
模型標(biāo)簽可由業(yè)務(wù)人員創(chuàng)建?;谝焉傻脑印⒁?guī)則、SQL、模型標(biāo)簽等,進(jìn)行規(guī)則衍生,生成組合標(biāo)簽。如組合標(biāo)簽“高收入低購(gòu)買(mǎi)”用戶(hù),可通過(guò)“收入水平”衍生標(biāo)簽,與“最近3年消費(fèi)金額區(qū)間”衍生標(biāo)簽組合加工,如下圖:
6. 自定義標(biāo)簽
自定義標(biāo)簽可由業(yè)務(wù)人員創(chuàng)建。手動(dòng)為某些用戶(hù)打上標(biāo)簽,該類(lèi)標(biāo)簽手動(dòng)導(dǎo)入,常見(jiàn)場(chǎng)景如下:
- 客服人員和用戶(hù)ID為1001的用戶(hù)溝通后,給該用戶(hù)打上”性格:溫和、有耐心”標(biāo)簽。
- 如監(jiān)管機(jī)構(gòu)提供的一些信貸黑名單用戶(hù),該類(lèi)標(biāo)簽可直接導(dǎo)入進(jìn)標(biāo)簽系統(tǒng),為用戶(hù)打上新的標(biāo)簽。
7. 算法標(biāo)簽
算法標(biāo)簽由算法開(kāi)發(fā)同學(xué)創(chuàng)建,該類(lèi)標(biāo)簽可在算法平臺(tái)完成,將算好的結(jié)果存儲(chǔ)至Hive表中,標(biāo)簽系統(tǒng)可獲取算法標(biāo)簽的元數(shù)據(jù),拿到算法標(biāo)簽的中文名、英文名,注冊(cè)至標(biāo)簽系統(tǒng)中,在標(biāo)簽系統(tǒng)中完成算法標(biāo)簽的標(biāo)簽信息查看、標(biāo)簽查詢(xún)等。
如利用機(jī)器學(xué)習(xí)模型加工預(yù)測(cè)類(lèi)的算法標(biāo)簽,如根據(jù)用戶(hù)的特征,預(yù)測(cè)哪些用戶(hù)是否即將流失,流失的概率等,從而在用戶(hù)流失之前做一些措施來(lái)挽留。
8. 實(shí)時(shí)標(biāo)簽
實(shí)時(shí)標(biāo)簽由數(shù)據(jù)開(kāi)發(fā)同學(xué)創(chuàng)建,該類(lèi)標(biāo)簽可在流計(jì)算平臺(tái)完成,實(shí)時(shí)行為數(shù)據(jù)打入到kafka中,用FlinkSQL消費(fèi),再輸出到Kafka、或數(shù)據(jù)表中,下游直接訂閱或查詢(xún)。
三、標(biāo)簽更新與落庫(kù)
標(biāo)簽配置完成后,便需要進(jìn)行標(biāo)簽更新與落庫(kù),即將標(biāo)簽打到對(duì)象(如用戶(hù))的身上,這樣業(yè)務(wù)同學(xué)就可以根據(jù)標(biāo)簽圈選目標(biāo)群組啦。在此處我們需要說(shuō)明以下幾個(gè)問(wèn)題:
1. 技術(shù)選型
首先說(shuō)明一下標(biāo)簽加工的技術(shù)選型,在袋鼠云智能標(biāo)簽產(chǎn)品中我們用的 Trino(Presto)高性能分析引擎讀寫(xiě) Hive 表的方式,標(biāo)簽表存儲(chǔ)在Hive中。主要有以下幾點(diǎn)原因:
- 隨著國(guó)家對(duì)數(shù)字化轉(zhuǎn)型的支持,從金融、政府到小企業(yè)都在建設(shè)數(shù)倉(cāng),進(jìn)行數(shù)字化應(yīng)用,在這個(gè)過(guò)程中,大多采用的是分布式的Hadoop系統(tǒng)作為計(jì)算存儲(chǔ)引擎(不論是開(kāi)源Hadoop,還是發(fā)行版的CDH、TDH、FusionInsight等),Hive表便是最常用的存儲(chǔ)形式。標(biāo)簽是基于數(shù)倉(cāng)模型搭建出來(lái)的,與數(shù)倉(cāng)用同一種存儲(chǔ)可以節(jié)省存儲(chǔ)資源以及不用兩種存儲(chǔ)之間進(jìn)行數(shù)據(jù)交換。
- 而用Trino(Presto)的原因是其首先是一個(gè)分析型引擎,讀寫(xiě)速度均可;其次是其SQL語(yǔ)法完備、函數(shù)豐富、靈活,可以處理絕大多是業(yè)務(wù)場(chǎng)景的需求;并且支持跨庫(kù)同時(shí)讀取,如Trino可以同時(shí)取Hive與MySQL的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理。
但沒(méi)有一種完美的技術(shù)選型,只能貼合企業(yè)自己的業(yè)務(wù),選取最合適的技術(shù)。在這里我們就不分析各種標(biāo)簽的技術(shù)選型了。
2. 落表方式
上面我們介紹了有各種類(lèi)型的標(biāo)簽,標(biāo)簽如何落表呢,大家看下面這個(gè)圖:
在業(yè)務(wù)場(chǎng)景中,存在有的標(biāo)簽需要每天更新,如最近30天消費(fèi)金額區(qū)間。而有的標(biāo)簽周更新、月更新即可,更新頻率不高,如活動(dòng)類(lèi)型偏好。
這樣,便需要支持每個(gè)標(biāo)簽有不同的更新頻率,但hive2.x版本不支持單列更新,為了解決該問(wèn)題,我們將每個(gè)標(biāo)簽先在臨時(shí)表存一下(就包含2列,1列用戶(hù)ID,1列標(biāo)簽)該臨時(shí)表即建即用即刪,每個(gè)標(biāo)簽只有一個(gè)臨時(shí)表(非分區(qū)表),每個(gè)標(biāo)簽占用的占用不大,又能解決標(biāo)簽更新周期不一致的問(wèn)題。
但如果后續(xù)的標(biāo)簽圈群、群組畫(huà)像分析,我們基于這些單獨(dú)表的去做聯(lián)合查詢(xún),那效率會(huì)很低。
因?yàn)槊總€(gè)用營(yíng)銷(xiāo)活動(dòng),我們需要5個(gè)標(biāo)簽圈選出來(lái)一批人群,并查詢(xún)出這群人的性別、年齡、月消費(fèi)、會(huì)員等級(jí)、是否活躍用戶(hù)等信息,加起來(lái)用到了10個(gè)標(biāo)簽左右,會(huì)涉及到10個(gè)表的join操作,客戶(hù)集群資源不豐裕的情況,查詢(xún)速度慢。
所有我們便將多個(gè)臨時(shí)表通過(guò)聚合任務(wù),將所有的臨時(shí)表join到一張標(biāo)簽大寬表中,進(jìn)行固化,這張表是一個(gè)分區(qū)表,可以每天存儲(chǔ)一份全量用戶(hù)標(biāo)簽信息,當(dāng)然可以自行設(shè)置該表的更新周期與保存多少個(gè)分區(qū)。
這樣,業(yè)務(wù)人員進(jìn)行圈群和分析就可以一張表查詢(xún)數(shù)據(jù),查詢(xún)效率大大提升。通過(guò)標(biāo)簽跑批時(shí)間的消耗換取業(yè)務(wù)的查詢(xún)速度。
但會(huì)遇到有些企業(yè)標(biāo)簽數(shù)量在500-1000個(gè)之間,用戶(hù)量在千萬(wàn)、億級(jí)別,這樣的話(huà),用一張表去存所有的標(biāo)簽會(huì)遇到標(biāo)簽大寬表跑批時(shí)間過(guò)長(zhǎng)或跑不出來(lái)的情況,所以便需要分表,可以根據(jù)標(biāo)簽數(shù)量分表。
綜上,以上加工存儲(chǔ)方式,有缺點(diǎn)的地方便是大寬表加工時(shí),需要join多個(gè)臨時(shí)表,消耗內(nèi)存,跑批時(shí)間長(zhǎng)。
為解決該問(wèn)題,袋鼠云智能標(biāo)簽產(chǎn)品在引入數(shù)據(jù)湖Iceberg進(jìn)行標(biāo)簽表的存儲(chǔ),其可以實(shí)現(xiàn)單列更新,每個(gè)標(biāo)簽可以單獨(dú)更新,這樣,便不需要那些臨時(shí)表了,解決加工效率的問(wèn)題。
該篇講了標(biāo)簽的加工與落庫(kù),歡迎大家留言討論,也可以分享下自己見(jiàn)到一些好的標(biāo)簽加工方式,我們共同進(jìn)步。
對(duì)了,業(yè)務(wù)人員怎么參與到標(biāo)簽建設(shè)流程中,該問(wèn)題在【標(biāo)簽畫(huà)像系列】標(biāo)簽畫(huà)像建設(shè)方法論中有介紹過(guò),可以去那里查看。
本文由 @木研 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
很棒很棒,學(xué)習(xí)了,請(qǐng)問(wèn)你錄的視頻在哪里能看
可以在這里查看相關(guān)視頻
標(biāo)簽:https://www.bilibili.com/video/BV1254y1o7Kf?spm_id_from=333.999.0.0
指標(biāo):https://www.bilibili.com/video/BV1834y177rg?spm_id_from=333.999.0.0
離線(xiàn):https://www.bilibili.com/video/BV1vv4y1w7MT?spm_id_from=333.999.0.0
感謝大佬
不得不說(shuō),看起來(lái)很棒,標(biāo)簽畫(huà)像系列是之前一直都沒(méi)有接觸過(guò)的,看完了之后發(fā)現(xiàn)自己又懂得多了一點(diǎn)。