作為數(shù)據(jù)產(chǎn)品經(jīng)理,你需要搞懂這4大模塊
文章從數(shù)據(jù)全生命周期的四大模塊展開,對數(shù)據(jù)的采集、處理、存儲和分析作了簡要的分析介紹。希望對你有所幫助。
前面我們學(xué)習(xí)了4個步驟,用OSM和第一關(guān)鍵指標(biāo)法來確定核心指標(biāo),接下來我們聊聊數(shù)據(jù)全生命周期。
接下來分別介紹這幾大模塊:
- 數(shù)據(jù)采集
- 數(shù)據(jù)預(yù)處理——ETL
- 數(shù)據(jù)存儲——數(shù)倉
- 數(shù)據(jù)分析——OLAP/業(yè)務(wù)模型
一、數(shù)據(jù)采集
按數(shù)據(jù)來源分,可將數(shù)據(jù)分為如下幾個類型:
- 埋點(diǎn)行為數(shù)據(jù):通過埋點(diǎn)的方式,采集到的一些行為數(shù)據(jù),如瀏覽、點(diǎn)擊、停留時長等
- 業(yè)務(wù)數(shù)據(jù):伴隨著業(yè)務(wù)產(chǎn)生的數(shù)據(jù),核心是生產(chǎn)系統(tǒng)內(nèi)存儲的業(yè)務(wù)表單數(shù)據(jù)
- 日志數(shù)據(jù):一般是web端日志記錄的數(shù)據(jù)
- 外部接入數(shù)據(jù):從第三方獲得的數(shù)據(jù)
按數(shù)據(jù)類型可分為:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。
(1)結(jié)構(gòu)化數(shù)據(jù)
一般是從內(nèi)部數(shù)據(jù)庫和外部開放數(shù)據(jù)庫接口中獲得,一般都是存儲產(chǎn)品業(yè)務(wù)運(yùn)營數(shù)據(jù)以及用戶操作的結(jié)果數(shù)據(jù),比如注冊用戶數(shù)、下單量、完單量等數(shù)據(jù)。這類數(shù)據(jù)格式規(guī)范,典型代表就是關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),可以用二維表來存儲,有固定字段數(shù),每個字段有固定的數(shù)據(jù)類型(數(shù)字、字符、日期等),每個字節(jié)長度相對固定。這類數(shù)據(jù)易于維護(hù)管理,同時對于查詢、展示和分析而言也是最為方便的一類數(shù)據(jù)格式。
(2)半結(jié)構(gòu)化數(shù)據(jù)
應(yīng)用的點(diǎn)擊日志以及一些用戶行為數(shù)據(jù),通常指日志數(shù)據(jù)、xml、json等格式輸出的數(shù)據(jù),格式較為規(guī)范,一般是純文本數(shù)據(jù),需要對數(shù)據(jù)格式進(jìn)行解析,才能用于查詢或分析數(shù)據(jù)。每條記錄預(yù)定義規(guī)范,但是每條記錄包含信息不同,字段數(shù)不同,字段名和字段類型不同,或者還包含著嵌套的格式。
(3)非結(jié)構(gòu)化數(shù)據(jù)
指非純文本類數(shù)據(jù),沒有標(biāo)準(zhǔn)格式,無法直接解析相應(yīng)值,常見的非結(jié)構(gòu)化數(shù)據(jù)有富文本、圖片、聲音、視頻等數(shù)據(jù)。這類數(shù)據(jù)除非是要進(jìn)行高級的文本挖掘或者多媒體數(shù)據(jù)挖掘,否則對于日常的數(shù)據(jù)統(tǒng)計與分析而言,非結(jié)構(gòu)化數(shù)據(jù)沒有分析價值。一般不會將非結(jié)構(gòu)化數(shù)據(jù)以二進(jìn)制形式存入數(shù)據(jù)倉庫,數(shù)據(jù)倉庫之父Inmon的建議是數(shù)據(jù)倉庫中只需要存儲非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)。一般將非結(jié)構(gòu)化數(shù)據(jù)存放在文件系統(tǒng)中,數(shù)倉中記錄數(shù)據(jù)的信息,如標(biāo)題、摘要、創(chuàng)建時間等,方便進(jìn)行索引查詢。
二、數(shù)據(jù)預(yù)處理——ETL
ETL
即Extract Transform Load,描述數(shù)據(jù)抽取、轉(zhuǎn)換、加載的過程。
- 數(shù)據(jù)抽取:把數(shù)據(jù)從數(shù)據(jù)源中讀出來
- 數(shù)據(jù)轉(zhuǎn)換:把原始數(shù)據(jù)轉(zhuǎn)換成期待的格式和維度
- 數(shù)據(jù)加載:把處理后的數(shù)據(jù)加載到目標(biāo)處,如數(shù)據(jù)倉庫中
數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)以及在數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)流轉(zhuǎn)和流動都可以認(rèn)為是ETL過程,ETL是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝,而數(shù)據(jù)倉庫日常的管理和維護(hù)工作大部分精力是保持ETL的正常和穩(wěn)定。
Kettle
Kettle是常用的ETL處理開源免費(fèi)工具,其中文名叫水壺,該項(xiàng)目的主程序員MATT希望把各種數(shù)據(jù)放到一個壺中,然后以指定的格式流出。Kettle是純Java編寫,可以在Windows、Linux、unix上運(yùn)營,數(shù)據(jù)抽取效率高效穩(wěn)定,開放源代碼,便于二次開發(fā)包裝。但其數(shù)據(jù)抽取速度和大數(shù)據(jù)處理方面的能力比起powercenter、informatica、datastage等商業(yè)軟件要慢。
三、數(shù)據(jù)存儲——數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。數(shù)據(jù)倉庫本身不生產(chǎn)任何數(shù)據(jù),同時也不消費(fèi)任何數(shù)據(jù),數(shù)據(jù)來源于外部,并且開放給外部應(yīng)用。這就是為什么叫數(shù)據(jù)倉庫,而非數(shù)據(jù)工廠的原因。
數(shù)據(jù)倉庫基本架構(gòu)
數(shù)據(jù)倉庫基本架構(gòu)包含數(shù)據(jù)流入/流出的過程,可以分為三層:源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用。
(1)ODS(Operational Data Store)數(shù)據(jù)操作層
用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地,這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與雨啊是數(shù)據(jù)層基本一致。在源數(shù)據(jù)進(jìn)入這一層時,通常要進(jìn)行數(shù)據(jù)清洗,如業(yè)務(wù)字段提取、去掉不用字段、臟數(shù)據(jù)處理等。默認(rèn)保留近30天的數(shù)據(jù),表命名規(guī)范為:ods_主題_原表名。
(2)DIM(Dimension Data Layer),數(shù)據(jù)維度層
主要用于存儲公共的信息數(shù)據(jù),如地理位置、時間,數(shù)據(jù)格式一般是維表,如以國家ID等字段為主鍵,按需存儲,保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dim_業(yè)務(wù)描述,如dim_time。
(3)DWD(Data Warehouse Detail)數(shù)據(jù)明細(xì)層
用于源系統(tǒng)數(shù)據(jù)在數(shù)據(jù)平臺中的永久存儲,用以支持DWS層和DM層無法覆蓋的需求。默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dwd_主題域_描述,如dws_driver_detail 司機(jī)個人信息表。
(4)DWS(Data Warehouse Service),數(shù)據(jù)匯總層
主要包含兩類匯總表,一是細(xì)粒度的寬表,二是粗粒度的匯總表。例如打車業(yè)務(wù),包含基于訂單、乘客、司機(jī)、車輛等細(xì)粒度的寬表和基于維度組合如(用戶日下單量匯總、用戶日完單量匯總、司機(jī)日接單量匯總)的粗粒度匯總表。DWS層的匯總數(shù)據(jù)目標(biāo)時滿足80%的業(yè)務(wù)計算,默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dws_主題域_描述,如dws_訂單_今日下單量。
(5)DM:數(shù)據(jù)集市層
按照業(yè)務(wù)主題構(gòu)建,面向特定部門或人員等數(shù)據(jù)集合,如產(chǎn)品、運(yùn)營、客服等,用于支持BI、多維分析、營銷推薦、標(biāo)簽、數(shù)據(jù)挖掘和其他數(shù)據(jù)服務(wù)。默認(rèn)保留歷史至今的所有數(shù)據(jù),表命名規(guī)范為:dm_主題域_描述。
數(shù)據(jù)倉庫特性
數(shù)據(jù)倉庫有4大特性:主題性、集成性、穩(wěn)定性、動態(tài)性。
(1)為什么要面向主題?
面向主題是數(shù)據(jù)倉庫的第一特性,主要指合理的組織數(shù)據(jù)以方便實(shí)現(xiàn)分析。對于源數(shù)據(jù)而言,數(shù)據(jù)組織形式是多樣的,如點(diǎn)擊流數(shù)據(jù)格式是未經(jīng)優(yōu)化的,前臺數(shù)據(jù)庫基于OLTP操作組織,不適合直接進(jìn)行分析,而整理成面向主題的形式,才方便分析。如點(diǎn)擊流日志整理成頁面、訪問、用戶三個主題,可以明顯提升分析效率。
(2)為什么集成?
數(shù)據(jù)倉庫中存儲的數(shù)據(jù)是來源于多個數(shù)據(jù)源的集成,原始數(shù)據(jù)來自不同的數(shù)據(jù)源,存儲方式各不相同。
(3)為什么穩(wěn)定?
數(shù)據(jù)倉庫匯總保存的數(shù)據(jù)是一系列歷史快照,不允許修改,用戶只能通過分析工具進(jìn)行查詢。
(4)為什么動態(tài)?
數(shù)據(jù)倉庫會定期接收新的集成數(shù)據(jù),反映出最新的數(shù)據(jù)變化。當(dāng)數(shù)據(jù)超過數(shù)據(jù)倉庫的存儲期限時,或?qū)Ψ治鰺o用時,會從數(shù)據(jù)倉庫中刪除這些數(shù)據(jù),數(shù)據(jù)倉庫的結(jié)構(gòu)和維護(hù)信息存儲在數(shù)據(jù)倉庫的元數(shù)據(jù)中。
Hive
主流的數(shù)據(jù)倉庫,在國內(nèi)常用的是一款開源數(shù)據(jù)倉庫hive。Hive是基于Hadoop的數(shù)據(jù)倉庫工具,可以對存儲在HDFS的文件數(shù)據(jù)集進(jìn)行查詢和分析處理。Hive對外提供了類似于SQL語言的查詢語句hiveQL,在做查詢時,將HQL語句轉(zhuǎn)換成計算模型。Hive的主要優(yōu)勢是免費(fèi),而商業(yè)收費(fèi)數(shù)據(jù)倉庫有Teradata、Oracle、Db2等。
四、數(shù)據(jù)分析
1. OLAP
也被稱為多維分析,提供多維數(shù)據(jù)管理環(huán)境,其典型應(yīng)用是對商業(yè)問題的建模與商業(yè)分析。
1993年,關(guān)系數(shù)據(jù)庫支父F.Codd提出OLAP概念,同時提出OLAP的12條準(zhǔn)則。使得分析人員能夠從多角度對信息進(jìn)行快速、一致、交互的存取。
目標(biāo):滿足決策支持或者滿足在多維環(huán)境條件下特定的查詢和報表需求,核心技術(shù)是“維”的這個概念?!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分。
OLAP的多維分析操作:鉆取、上卷、切片、切塊、切塊、旋轉(zhuǎn)、透視、排序、篩選。
- 鉆取:在維的不同層次間的變化,從上層降到下一層,比如通過對2020年第二季度的總銷售額數(shù)據(jù)進(jìn)行鉆取,查看2010年第二季度4、5、6每個月消費(fèi)數(shù)據(jù);也可以鉆取浙江省查看杭州、寧波等城市銷售數(shù)據(jù)。
- 上卷:鉆取的逆操作,細(xì)粒度向高層聚合,如將江蘇、上海、浙江省的銷售數(shù)據(jù)匯總查看江浙滬地區(qū)的銷售數(shù)據(jù)。
- 切片:選擇維中特定的值進(jìn)行分析,比如只選擇電子產(chǎn)品的銷售數(shù)據(jù)。
- 切塊:選擇維中特定區(qū)間的數(shù)據(jù)或者某批特定值進(jìn)行分析,比如選擇電子產(chǎn)品和日用品的銷售數(shù)據(jù)。
- 旋轉(zhuǎn):維的位置互換,就像二維表行列轉(zhuǎn)換,通過旋轉(zhuǎn)實(shí)現(xiàn)產(chǎn)品維和地域維的互換。
優(yōu)勢:基于數(shù)據(jù)倉庫面向主題的、集成的、保留歷史不可變更的數(shù)據(jù)存儲,以及多維模型多層次的數(shù)據(jù)組織形式。
2. 業(yè)務(wù)模型
基于某些數(shù)據(jù)分析和決策支持而建立起來的數(shù)據(jù)模型,如用戶評價模型、關(guān)聯(lián)推薦模型、RFM分析模型、漏斗模型、用戶行為路徑模型、用戶分群模型、留存分析模型等。接下來介紹一個常用的模型RFM模型,其他的業(yè)務(wù)模型在后續(xù)篇章進(jìn)行展開。
RFM模型
根據(jù)美國數(shù)據(jù)庫營銷研究所Arthur Hughes的研究,客戶數(shù)據(jù)庫中有3個神奇的要素,這3個要素構(gòu)成了數(shù)據(jù)分析最好的指標(biāo)。
- 最近一次消費(fèi)(Recency):指用戶上一次購買的的時間,理論上上一次消費(fèi)時間越近的顧客是比較好的顧客,是維系顧客的一個重要指標(biāo)。。
- 消費(fèi)頻率(Frequency):顧客在限定時間周期內(nèi)消費(fèi)的次數(shù)。最長購買的顧客,也是滿意度最高的顧客。根據(jù)這個指標(biāo),可以把客戶分成5等份,相當(dāng)于劃分了一個忠誠度的階梯。
- 消費(fèi)金額(Monetary):消費(fèi)金額時產(chǎn)能最直接的衡量指標(biāo),也可以驗(yàn)證“帕雷托法則”,公司的80%收入來自于20%的顧客。
客戶類型可劃分為:
1)重要價值客戶:RFM比較大、優(yōu)質(zhì)客戶,需要保持;
措施:傾斜更多資源、VIP服務(wù)、個性化服務(wù)、附加銷售
2)重要喚回客戶:消費(fèi)金額和消費(fèi)頻次大,但最近無消費(fèi),需要喚回;
措施:提供有用資源,通過續(xù)訂或更新產(chǎn)品贏回他們
3)重要深耕客戶:消費(fèi)金額大貢獻(xiàn)度高,且最近有交易,需要重點(diǎn)識別;
措施:交叉銷售,提供會員/忠誠計劃,推薦其他產(chǎn)品
4)重要挽留客戶:消費(fèi)金額大,潛在有價值客戶,需要挽留
措施:push消息觸達(dá),回訪,提高留存率
5)潛力客戶:消費(fèi)頻次高,且最近有消費(fèi),需要挖掘
措施:向上銷售更高價值的產(chǎn)品
6)新客戶:最近有消費(fèi),接觸的新客戶,有推廣價值
措施:開展活動,免費(fèi)試用,提高客戶興趣,建立品牌認(rèn)知度
7)一般維持客戶:消費(fèi)頻次多,但貢獻(xiàn)不大,一般維持
措施:積分制,分享寶貴的資源,以折扣推薦熱門產(chǎn)品/續(xù)訂,與他們重新獲得聯(lián)系
8)流失客戶:FM值均低于平均值,最近也沒消費(fèi),相當(dāng)于流失
措施:恢復(fù)客戶興趣,暫時放棄無價值用戶
總結(jié)
本文主要數(shù)據(jù)采集、ETL數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫、OLAP數(shù)據(jù)分析與業(yè)務(wù)模型,幫助大家進(jìn)行技術(shù)上的掃盲,后續(xù)會介紹業(yè)務(wù)模型以及BI數(shù)據(jù)應(yīng)用,歡迎一起交流。
#相關(guān)閱讀#
作者:草帽小子;公眾號:一個數(shù)據(jù)人的自留地,wx:luckily304
本文由 @草帽小子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
對于要做的BI的數(shù)據(jù)小白受益匪淺,“ODS(Operational Data Store)數(shù)據(jù)操作層
用于原始數(shù)據(jù)在數(shù)據(jù)平臺的落地,這些數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)之間的邏輯關(guān)系上都與雨啊是數(shù)據(jù)層基本一致”有個輸入法錯誤,另外樓主微信好像不對。。。咋是個女生的微信呢
微信是對的,我的性別女??
我看看怎么改一下
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營》終于在起點(diǎn)學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機(jī)構(gòu))上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營等人群。
課程會從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實(shí)際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!