從技術(shù)和業(yè)務(wù)視角,認(rèn)識數(shù)據(jù)平臺

14 評論 18162 瀏覽 131 收藏 18 分鐘

本文主要面向讀者為互聯(lián)網(wǎng)行業(yè)相關(guān)從業(yè)人員,期望對企業(yè)數(shù)據(jù)平臺有所了解的人群;因篇幅有限,文中所述的主題及相關(guān)概念點(diǎn)到為止。

一、什么是數(shù)據(jù)平臺?

數(shù)據(jù)平臺字面的意思是“數(shù)據(jù)+平臺”:

  • 數(shù)據(jù):源于業(yè)務(wù)又作用于業(yè)務(wù);
  • 平臺:基于數(shù)據(jù)也服務(wù)于數(shù)據(jù)。

整體看數(shù)據(jù)平臺是由「數(shù)據(jù)流程」和「業(yè)務(wù)流程」兩大運(yùn)轉(zhuǎn)主體共同構(gòu)成的解決方案,兩大主體相輔相成、互相依賴、密不可分。

  • 從數(shù)據(jù)流程的視角看:不同業(yè)務(wù)類型企業(yè)的解決方案大同小異,目標(biāo)都是為了保證數(shù)據(jù)整體的完整性、準(zhǔn)確性、時效性;
  • 從業(yè)務(wù)流程的視角看:不同業(yè)務(wù)類型企業(yè)的解決方案各有不同,本文中業(yè)務(wù)類型偏電商類。

二、數(shù)據(jù)的技術(shù)視角

數(shù)據(jù)從生產(chǎn)到應(yīng)用的整體流程是任何一個數(shù)據(jù)從業(yè)者都繞不開的主題,即便是非數(shù)據(jù)領(lǐng)域的產(chǎn)品和運(yùn)營同學(xué),同樣也應(yīng)該對業(yè)務(wù)中數(shù)據(jù)的流向有個初步的認(rèn)識。要展開描述,我們必須從數(shù)據(jù)的技術(shù)視角思考兩個問題:

  1. 需要解決的問題是什么?
  2. 如何保證數(shù)據(jù)流中不同階段的最優(yōu)解?

1. 需要解決的問題是什么?

  • 數(shù)據(jù)供給:提供便捷的數(shù)據(jù)生產(chǎn)方案,以數(shù)據(jù)產(chǎn)生為起點(diǎn),規(guī)范數(shù)據(jù)整個主體的供給,為夯實數(shù)據(jù)平臺的基礎(chǔ)提供保障;
  • 數(shù)據(jù)產(chǎn)出:保證數(shù)據(jù)在產(chǎn)出層面的普遍適用性。該階段包括分析報表,自動化分析工具,查詢?nèi)肟诘鹊慕ㄔO(shè);
  • 過程管理:保證數(shù)據(jù)的完整性、準(zhǔn)確性、時效性,實現(xiàn)數(shù)據(jù)從產(chǎn)生到應(yīng)用全流程的高效管理。

2. 數(shù)據(jù)流的不同階段如何保證最優(yōu)解?

「立足現(xiàn)狀,具體問題具體分析」,不同企業(yè)所處的業(yè)務(wù)發(fā)展階段不同,所面對的問題會不一樣。同樣,業(yè)務(wù)本身特性及企業(yè)對數(shù)據(jù)建設(shè)的資源傾斜程度不同,也會直接影響數(shù)據(jù)全流程處理的差異。最重要的還是立足于現(xiàn)狀,站在更高的戰(zhàn)略視角去思考整體的解決方案。下面從技術(shù)視角以“數(shù)據(jù)流”為骨架展開講解數(shù)據(jù)產(chǎn)生至應(yīng)用各環(huán)節(jié)中我們分別需要做什么:

?2.1 數(shù)據(jù)產(chǎn)生

數(shù)據(jù)產(chǎn)生,這個階段是最適合向業(yè)務(wù)方宣灌數(shù)據(jù)生產(chǎn)應(yīng)用流程的階段,因為該階段的優(yōu)劣將會直接影響之后的各環(huán)節(jié)。該階段的關(guān)鍵字是「規(guī)范輸入」,需要給數(shù)據(jù)上游的業(yè)務(wù)方提供可行的數(shù)據(jù)埋點(diǎn)規(guī)范(業(yè)務(wù)團(tuán)隊自身業(yè)務(wù)庫除外):

  • 數(shù)據(jù)接入流程:需要對業(yè)務(wù)數(shù)據(jù)的接入流程做全面了解,重點(diǎn)從數(shù)據(jù)認(rèn)知層面規(guī)避“不合理的輸入”;
  • 數(shù)據(jù)上報地址及API應(yīng)用方法:確定API應(yīng)用規(guī)范,保證數(shù)據(jù)上報位置準(zhǔn)確,上報信息不被丟棄;
  • 埋點(diǎn)規(guī)范及內(nèi)容 :在遵循數(shù)據(jù)接入埋點(diǎn)規(guī)范的前提下,保證各業(yè)務(wù)中具有差異性部分?jǐn)?shù)據(jù)的完整性,通常會基于事件模型中的“who when how where what”幾個關(guān)鍵要素設(shè)計埋點(diǎn);
  • 數(shù)據(jù)測試方法:數(shù)據(jù)測試方法也會依據(jù)埋點(diǎn)形式的不同而不同,一般分為前端和后端數(shù)據(jù)測試。前端常見測試抓包工具如“Fiddler”,后端通常將數(shù)據(jù)上報至測試服務(wù)器,撈取日志觀察其完整性、實時性。

2.2 數(shù)據(jù)采集

數(shù)據(jù)采集,這個階段是一個既主動又被動的環(huán)節(jié)。我們偶爾會收到xx業(yè)務(wù)方的疑問“為什么業(yè)務(wù)上線了,沒有看到數(shù)據(jù)”,排查后才發(fā)現(xiàn)是因為模塊日志并沒有被采集。那該環(huán)節(jié)關(guān)鍵字便是「讓日志被正確的采集」

  • 針對現(xiàn)有業(yè)務(wù):數(shù)據(jù)部門會提供給業(yè)務(wù)方不同場景下的模塊日志采集方案清單,業(yè)務(wù)方只需按照現(xiàn)有清單選擇模塊上報,數(shù)據(jù)部門會自動收集;
  • 針對新業(yè)務(wù):數(shù)據(jù)部門會提供模塊日志注冊系統(tǒng),形成良性注冊機(jī)制,讓數(shù)據(jù)部門提前感知,自動化收集模塊數(shù)據(jù)。

?2.3 數(shù)據(jù)處理

數(shù)據(jù)處理、清洗是數(shù)據(jù)輸入到倉庫的前置階段,該階段關(guān)鍵字是「清洗規(guī)則」,目的是建立符合業(yè)務(wù)需要的數(shù)據(jù)清洗方案。比如什么格式的數(shù)據(jù)該被過濾;比如在廣告投放中,用戶符合哪種規(guī)則算是作弊用戶;比如在用戶行為數(shù)據(jù)中,符合哪種特征的行為算是爬蟲用戶等等。

2.4 數(shù)據(jù)倉庫

數(shù)據(jù)倉庫面向應(yīng)用而生,該階段的關(guān)鍵字是「分層、建模」。為了保證數(shù)據(jù)的普遍適用性及拓展性,會對倉庫進(jìn)行分層,通常分為:源數(shù)據(jù)層、數(shù)據(jù)倉庫層、數(shù)據(jù)集市層、數(shù)據(jù)應(yīng)用層。常見數(shù)據(jù)倉庫模型為“星型模型”,星型模型就是一種典型的維度模型。我們在進(jìn)行維度建模的時候會建一張事實表,這個事實表就是星型模型的中心,然后會有一堆維度表,這些維度表就是向外發(fā)散的星星。

?2.5 數(shù)據(jù)計算

數(shù)據(jù)計算是數(shù)據(jù)變活的過程,主要分為離線和實時計算,該階段的關(guān)鍵字是「準(zhǔn)確、穩(wěn)定」。會按照不同業(yè)務(wù)單元的需要,設(shè)計數(shù)據(jù)指標(biāo),并按照不同場景中的業(yè)務(wù)邏輯確定統(tǒng)計規(guī)則,最終由系統(tǒng)實現(xiàn)例行計算。數(shù)據(jù)本身并不具備任何價值,但一旦我們將它變?yōu)楹饬渴虑榈臉?biāo)準(zhǔn)、將它變?yōu)槎床鞓I(yè)務(wù)的眼睛,它就有了不可估量的力量。

??2.6 數(shù)據(jù)應(yīng)用

數(shù)據(jù)的應(yīng)用是數(shù)據(jù)最終產(chǎn)生價值的部分,該階段的關(guān)鍵字是「完善、洞察」?;跀?shù)據(jù)流前面的流程處理,該環(huán)節(jié)最終會提供給應(yīng)用方業(yè)務(wù)報表、數(shù)據(jù)訪問、自動化工具、統(tǒng)計模型等應(yīng)用;以下描述了數(shù)據(jù)平臺和數(shù)據(jù)應(yīng)用方在應(yīng)用階段需要長期持續(xù)關(guān)注的問題:

  • 數(shù)據(jù)平臺:是否能提供完善的業(yè)務(wù)分析指標(biāo)體系,是否能提供完善的精細(xì)化運(yùn)營工具;
  • 數(shù)據(jù)應(yīng)用方:現(xiàn)有數(shù)據(jù)是否足夠支撐業(yè)務(wù)分析,是否能依據(jù)現(xiàn)有數(shù)據(jù)發(fā)現(xiàn)更多的業(yè)務(wù)問題,是否能洞察潛在的商業(yè)機(jī)會。

2.7 元數(shù)據(jù)管理

元數(shù)據(jù)管理貫穿整個數(shù)據(jù)流程始終,是一個較為寬泛的概念,元數(shù)據(jù)治理的好壞將直接決定了整個數(shù)據(jù)平臺的品質(zhì)。元數(shù)據(jù)管理主要分為三部分:技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、過程元數(shù)據(jù)。

  • 技術(shù)元數(shù)據(jù):如日志文件的路徑/格式、倉庫表結(jié)構(gòu)、數(shù)據(jù)表血緣關(guān)系等;
  • 業(yè)務(wù)元數(shù)據(jù):如指標(biāo)歸屬業(yè)務(wù)單元、業(yè)務(wù)描述、計算邏輯、業(yè)務(wù)類型等;
  • 過程元數(shù)據(jù):如表更新規(guī)則(增量/全量)、更新頻率、更新時間、量級等依據(jù)以上,我們可以從技術(shù)視角總結(jié)出數(shù)據(jù)平臺需要哪些東西,下圖是參考示例:

三、數(shù)據(jù)的業(yè)務(wù)視角

基于立場的不同,導(dǎo)致了從業(yè)務(wù)視角與從技術(shù)視角看到的表現(xiàn)層內(nèi)容會不一樣,但究其本質(zhì)是相通的。無論數(shù)據(jù)在應(yīng)用層面以何種方案最終呈現(xiàn),最終都是為了解決問題而存在;參考「黃金圈法則」我們同樣也需要從數(shù)據(jù)的業(yè)務(wù)視角去思考三個問題:

  1. 為什么需要數(shù)據(jù)團(tuán)隊解決?
  2. 需要解決的問題是什么?
  3. 該通過什么方式解決?

1. 為什么需要數(shù)據(jù)團(tuán)隊解決?(why)

「聞道有先后,術(shù)業(yè)有專攻」與「有所為而有所不為」,業(yè)務(wù)技術(shù)團(tuán)隊的定位是服務(wù)于業(yè)務(wù)一線,數(shù)據(jù)團(tuán)隊的定位是提供專業(yè)性的數(shù)據(jù)解決方案,二者分工上的差異性決定了解決問題的最佳路徑。如下列舉了需要數(shù)據(jù)團(tuán)隊解決幾類問題:

  1. 數(shù)據(jù)類型:數(shù)據(jù)產(chǎn)生場景復(fù)雜、數(shù)據(jù)類型多(行為、交易、用戶、商品..),數(shù)據(jù)結(jié)構(gòu)復(fù)雜(結(jié)構(gòu)化/非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù));
  2. 數(shù)據(jù)量級:存儲量級大,傳統(tǒng)關(guān)系型數(shù)據(jù)庫不能解決;
  3. 數(shù)據(jù)處理:清洗規(guī)則多,計算任務(wù)流程長,計算血緣關(guān)系復(fù)雜等;
  4. 數(shù)據(jù)應(yīng)用:行為分析,多維交叉分析,實時多維分析,豐富的可視化等。

2. 需要解決的問題是什么?(how)

(1)我的業(yè)務(wù)是什么

不同業(yè)務(wù)單元依據(jù)自身業(yè)務(wù)屬性,需要數(shù)據(jù)團(tuán)隊解決的數(shù)據(jù)問題也不一樣。如市場團(tuán)隊關(guān)注應(yīng)用市場投放相關(guān)的數(shù)據(jù),客戶端團(tuán)隊關(guān)注設(shè)備/應(yīng)用版本/用戶轉(zhuǎn)化相關(guān)的屬性數(shù)據(jù),運(yùn)營團(tuán)隊關(guān)注活動相關(guān)數(shù)據(jù),風(fēng)控團(tuán)隊關(guān)注風(fēng)控相關(guān)數(shù)據(jù)等。

(2)我該如何衡量它們

團(tuán)隊屬性的不同,也決定了量化到數(shù)據(jù)指標(biāo)的衡量標(biāo)注不同。各業(yè)務(wù)團(tuán)隊擁有自己的關(guān)鍵唯一指標(biāo)和對應(yīng)拆解/下鉆的指標(biāo)體系。

(3)如何讓數(shù)據(jù)驅(qū)動業(yè)務(wù)

市場團(tuán)隊通過衡量不同渠道來源用戶的質(zhì)量,評估渠道ROI,優(yōu)化投放策略;客戶端團(tuán)隊通過觀察不同產(chǎn)品方案的轉(zhuǎn)化效果,改進(jìn)注冊及其他核心行為發(fā)生的主流程設(shè)計;運(yùn)營團(tuán)隊通過用戶細(xì)分,評估不同用戶群在活動對的轉(zhuǎn)化效果,進(jìn)行精細(xì)化運(yùn)營等。

3. 通過什么方式解決?(what)

以下從業(yè)務(wù)視角拆解數(shù)據(jù)平臺產(chǎn)品解決方案:

3.1 實時監(jiān)控

  • 實時看板:專注于關(guān)鍵核心指標(biāo)的實時表現(xiàn),如用戶、商品、訂單等。視具體情況會將關(guān)鍵指標(biāo)維度下鉆后進(jìn)行實時監(jiān)控
  • 實時電視監(jiān)控:依據(jù)平臺數(shù)據(jù)源,適用于電視投屏,監(jiān)控看板展現(xiàn)等
  • 紅包/促銷監(jiān)控:關(guān)于紅包主題的實時監(jiān)控,觀察業(yè)務(wù)中的紅包發(fā)放/紅包使用等波動情況,判斷業(yè)務(wù)健康度
  • 用戶監(jiān)控:監(jiān)控用戶活躍/用戶新增的表現(xiàn),與推送服務(wù)、品牌投放、投放等的業(yè)務(wù)動作進(jìn)行相關(guān)分析,判斷效果是否符合預(yù)期,及時優(yōu)化策略動作
  • 其他

3.2 離線分析

  • 核心看板:企業(yè)業(yè)務(wù)發(fā)展所處階段的不同,所關(guān)注的核心指標(biāo)也不同,核心看板著重關(guān)注公司戰(zhàn)略層核心指標(biāo)在核心維度上的趨勢及構(gòu)成表現(xiàn)
  • 業(yè)務(wù)看板:業(yè)務(wù)看板服務(wù)于不同業(yè)務(wù)團(tuán)隊,亦可視作各業(yè)務(wù)單元的核心看板
  • 流量分析:描述用戶從哪里來,不同渠道用戶的后續(xù)核心業(yè)務(wù)表現(xiàn)。同時也承載渠道數(shù)據(jù)管理的工作(如渠道分組/渠道關(guān)系維護(hù)等)
  • 用戶分析:用戶構(gòu)成、用戶留存、用戶轉(zhuǎn)化、行為、生命周期等場景的分析
  • 商品分析:商品構(gòu)成、庫存、售出、質(zhì)量、商品生命周期等場景的分析
  • 交易分析:主要用于交易主題的多維交叉分析,用戶與商品在交易鏈路上的具體表現(xiàn),如:曝光→瀏覽→咨詢→下單→支付→售后等鏈路的分析
  • 專題分析:搜索推薦分析、風(fēng)控分析、競對分析、垂類分析、運(yùn)營位分析、垂類專區(qū)分析、活動分析等
  • 其他

3.3 精細(xì)化運(yùn)營工具

  • 事件分析:基于事件模型的自動化分析工具,業(yè)務(wù)方可依據(jù)行為埋點(diǎn)查詢到不同行為事件的用戶表現(xiàn)
  • 事件漏斗分析:基于事件模型的自動化漏斗分析工具,可自行設(shè)置業(yè)務(wù)轉(zhuǎn)化漏斗,觀測各精分業(yè)務(wù)流程中的轉(zhuǎn)化效果,拆解轉(zhuǎn)化問題
  • 留存分析:按照留存模型,起始行為精分用戶群體,依據(jù)精分用戶群不同行為頻次的表現(xiàn),觀測各層用戶的留存
  • 畫像分群:按照不同主體拆分屬性,通過屬性組合,篩選目標(biāo)分群,進(jìn)行精細(xì)化運(yùn)營(1.用戶分群:以唯一用戶ID為主體,組合用戶的不同分類屬性,篩選目標(biāo)用戶群,做差異化運(yùn)營或用戶分析;2.商品分群:以唯一商品ID為主體,組合商品的不同分類屬性,篩選目標(biāo)商品群,做精細(xì)化商品分析;3.訂單分群:以唯一訂單ID為主體,組合訂單的不同分類屬性,篩選目標(biāo)訂單群,做精細(xì)化交易分析)
  • SQL查詢工具:可視化SQL查詢
  • 其他

?3.4 智能預(yù)警及分析

  • 實時異常分析:實時異常分析基于歷史數(shù)據(jù),獲取當(dāng)前時間點(diǎn)的可能數(shù)值范圍,當(dāng)實際值在該范圍以外時,即認(rèn)為數(shù)據(jù)異常。關(guān)鍵要求是及時和準(zhǔn)確
  • 智能分析:具體策略是對關(guān)鍵核心指標(biāo)進(jìn)行維度拆解,尋找出影響核心指標(biāo)波動中不同維值的“貢獻(xiàn)度”,最終定位問題
  • 其他

3.5 其他解決方案

  • 自動郵件:通過配置化的方案,實現(xiàn)數(shù)據(jù)報表的自動郵件推送。也可以在離線報表上設(shè)置開關(guān),發(fā)送具體頁面數(shù)據(jù)表到指定郵箱
  • 數(shù)據(jù)分析:如:商品分析、交易分析、轉(zhuǎn)化分析、DAU預(yù)測、訂單預(yù)測等
  • 數(shù)據(jù)挖掘:通過聚類、回歸、關(guān)聯(lián)規(guī)則等常見挖掘算法分析問題,發(fā)現(xiàn)機(jī)會
  • 外部數(shù)據(jù):競對數(shù)據(jù)抓取及分析
  • 其他

依據(jù)以上,我們可以從業(yè)務(wù)視角總結(jié)出數(shù)據(jù)平臺產(chǎn)品矩陣,下圖為參考示例:

四、最后

我們在實際工作中,技術(shù)視角和業(yè)務(wù)視角應(yīng)該是交叉共存的。即在沿著技術(shù)視角去開展數(shù)據(jù)流鏈路上的工作時,也需要同時關(guān)注業(yè)務(wù)本身的情況,設(shè)計出更優(yōu)雅的解決方案;同樣在業(yè)務(wù)視角應(yīng)用數(shù)據(jù)手段去推進(jìn)工作時,也需要關(guān)注數(shù)據(jù)流中各階段上潛在的問題與風(fēng)險點(diǎn)。

道阻且長,溯洄從之。

 

作者:蔣坤偉,轉(zhuǎn)轉(zhuǎn)產(chǎn)品經(jīng)理;個人公眾號:黑夜月

本文由 @黑夜月?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 微信:xiao386019920

    來自貴州 回復(fù)
  2. 不好意思,評論錯地方了。。

    回復(fù)
  3. 實名制進(jìn)坑,掃碼開鎖自動計時,如廁時間實時對外展示

    回復(fù)
  4. 把自己掌握的知識,轉(zhuǎn)為自己的,并且傳教給他人??删?。

    來自北京 回復(fù)
    1. 謝謝,認(rèn)知還是太有限呀

      來自北京 回復(fù)
  5. 邀請你給我們團(tuán)隊做個交流,不知可否?

    來自江蘇 回復(fù)
    1. 加微信mo-alex私聊

      來自北京 回復(fù)
  6. 寫的很好。不過是不是 黃金圈法則,有兩條寫反了,我孤陋寡聞,只是想向您確認(rèn)下。

    來自北京 回復(fù)
    1. 感謝指正,標(biāo)題命名應(yīng)該有問題。正確的順序應(yīng)該是:
      1.為什么需要數(shù)據(jù)團(tuán)隊解決?
      2.需要解決的問題是什么,如何解決?
      3.具體需要做什么?

      來自北京 回復(fù)
    2. 來自北京 回復(fù)
  7. 為什么感覺您講的這么復(fù)雜啊,而且還沒有涉及數(shù)據(jù)統(tǒng)計方面的知識,是刻意的嗎?不知道這么做下來對你們公司的產(chǎn)品業(yè)務(wù)的提升有多少實質(zhì)的幫助?

    來自浙江 回復(fù)
    1. 復(fù)雜程度其實是跟業(yè)務(wù)本身有關(guān)系,但再復(fù)雜的數(shù)據(jù)平臺如果從兩個視角看就會變得清晰:
      1)技術(shù)視角:按數(shù)據(jù)流向,逐層拆解
      2)業(yè)務(wù)視角:按應(yīng)用場景拆分

      數(shù)據(jù)統(tǒng)計方面,后續(xù)有時間就更新哈。這只是第一篇

      來自北京 回復(fù)
  8. 想加你

    回復(fù)
    1. 可以,mo-alex

      來自北京 回復(fù)