數(shù)據(jù)分析 | 數(shù)據(jù)分析整體框架
編輯導語:無論是產(chǎn)品還是運營,數(shù)據(jù)分析都是其日常工作中不可忽略的一個板塊,那么數(shù)據(jù)分析的整體框架應該如何搭建?本篇文章里,作者以支付業(yè)務為例,對數(shù)據(jù)分析的整體框架、數(shù)據(jù)如何處理加工做了相應闡述,一起來看一下吧。
我以支付業(yè)務為例來講解。
用戶來到支付收銀臺后,在頁面上有很多點擊行為,比如選擇各種支付方式,微信支付、ApplePay 支付等最后完成支付,也有可能點擊左上角返回鍵或者右上角訂單中心離開當前頁面。
這個過程會產(chǎn)生很多數(shù)據(jù),從數(shù)據(jù)大類上分成:用戶數(shù)據(jù)、行為數(shù)據(jù)和業(yè)務數(shù)據(jù)。
誰(用戶數(shù)據(jù))做了什么(行為數(shù)據(jù))結果如何(業(yè)務數(shù)據(jù))?
用戶數(shù)據(jù)指用戶本身的特性,如用戶畫像,使用你產(chǎn)品的用戶男性多還是女性多,年齡多大等。
行為數(shù)據(jù)指用戶使用產(chǎn)品在頁面上的各種點擊行為,在頁面上停留時長等。
業(yè)務數(shù)據(jù)指用戶行為之后,實際產(chǎn)生的結果,業(yè)務數(shù)據(jù)會落庫業(yè)務數(shù)據(jù)表。分析業(yè)務數(shù)據(jù)的意義,可以衡量商業(yè)價值,是業(yè)務最終呈現(xiàn)結果,用以推動公司業(yè)務的發(fā)展。
用戶數(shù)據(jù)和行為數(shù)據(jù)通常可以從第三方數(shù)據(jù)工具,如友盟、Google Analytics 直接獲取,業(yè)務數(shù)據(jù)一般要內(nèi)部建設。
今天重點講業(yè)務數(shù)據(jù)搭建完整過程,以阿里云的Quick BI為例。
在整個數(shù)據(jù)分析的框架中,分為五大層次,依次是:數(shù)據(jù)生成、獲取數(shù)據(jù)、數(shù)據(jù)建模、數(shù)據(jù)分析和數(shù)據(jù)應用。
一、數(shù)據(jù)生成
還是以支付業(yè)務為例,用戶選擇支付方式完成支付后,落庫核心的兩張業(yè)務表:訂單表和交易表。一個訂單會對應多筆交易(每選擇一種支付方式生成一筆交易,一筆訂單可以使用多個支付方式嘗試支付),其實還會產(chǎn)生其他表,比如收貨地址表等。
二、獲取數(shù)據(jù)
通常使用第三方工具如ETL將業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽?。‥xtract)、清洗轉換(Transform)之后加載(Load)到數(shù)據(jù)倉庫的過程,數(shù)據(jù)呈現(xiàn)在BI的數(shù)據(jù)源。
三、數(shù)據(jù)建模
所有數(shù)據(jù)進到數(shù)倉以后,需要根據(jù)實際想要看的業(yè)務數(shù)據(jù)進行數(shù)據(jù)建模,建模后的數(shù)據(jù)呈現(xiàn)在數(shù)據(jù)集。數(shù)據(jù)集作為數(shù)據(jù)源和可視化展示的中間環(huán)節(jié),承接數(shù)據(jù)源的輸入,并為可視化展示輸出數(shù)據(jù)表。
1. 構建數(shù)據(jù)模型
數(shù)據(jù)建模是什么含義呢?
底層的業(yè)務數(shù)據(jù)表其實很多,幾十張上百張都有,但到了業(yè)務數(shù)據(jù)分析階段,當需要分析的數(shù)據(jù)存儲在不同的表,可以通過數(shù)據(jù)關聯(lián),把多個表連接起來,形成模型進行數(shù)據(jù)分析。
比如上述的業(yè)務底層訂單表到了數(shù)據(jù)分析階段衍生的訂單表字段發(fā)生變化,name 和 city 是從業(yè)務地址表取來的數(shù)據(jù)。
總的來說,數(shù)據(jù)模型是完全面向數(shù)據(jù)分析的業(yè)務場景形成的新表。以支付業(yè)務為例,我構建的數(shù)據(jù)模型有:用戶表、訂單表和交易表。
2. 設計維度和度量指標
對數(shù)據(jù)字段可以進行下一步分類:
- 維度(Dimensions)
- 度量(Measures)
在統(tǒng)計學中,單一數(shù)據(jù)字段可以被分為離散和連續(xù)。離散通常是維度,比如城市名稱、用戶名字,特征是有限數(shù)量的值;連續(xù)通常是度量,比如銷量、利潤或成功率,特征是不可羅列,可能為任一數(shù)值。維度和度量中有許多灰色區(qū)域,比如金額,可以做維度,也可以做度量。
在上述訂單表中,device、city 等是維度,對order_id 計數(shù)的總訂單數(shù)、對status = success 計數(shù)的成功訂單數(shù)是度量。
度量可以再分原子度量和派生度量。
原子度量指從維度里直接獲取到,上表中的總訂單數(shù)和成功訂單數(shù)。
派生度量并不能直接從數(shù)據(jù)表中獲取,而需要基于已有數(shù)據(jù)進行加工處理得到,上表中的訂單成功率是成功訂單數(shù)/總訂單數(shù)得到。
四、數(shù)據(jù)分析
有了維度和度量的概念后,接著引入聚合概念。對于數(shù)據(jù)分析來說,往往關心的并不是最底層一行一行的的明細數(shù)據(jù),更注重分析數(shù)據(jù)的角度,關心的是數(shù)據(jù)的總體特征。
聚合,簡單講就是數(shù)據(jù)源里的多行數(shù)據(jù)按照一定的標準計算成一個數(shù)據(jù),不管數(shù)據(jù)集里有1行還是多行,視圖里的數(shù)據(jù)都是聚合后的結果,一行數(shù)據(jù)也是要聚合的,當然一行數(shù)據(jù)聚合的結果是一樣的。實際上,維度為數(shù)據(jù)聚合提供依據(jù),而度量是依據(jù)維度聚合得到的結果。
配置了聚合計算的計算字段,將根據(jù)配置的維度自動進行聚合運算。
如:
- 求和:SUM([字段])
- 計數(shù):COUNT([字段])
- 計數(shù)去重:COUNT(DISTINCT [字段])
- 求平均值:AVG([字段])
表述的業(yè)務含義為時間周圍為2021.3.1 ~ 2021.3.15 范圍內(nèi)pc端的訂單成功率為0.5。
計算過程:根據(jù)created_at=2021.3.1 ~ 2021.3.15 和device =pc ,SUM([總訂單數(shù)])= 2,SUM([成功訂單數(shù)])=1,SUM([成功訂單數(shù)])/SUM([總訂單數(shù)])=1/2=0.5。
Quick BI 提供電子表格和儀表盤兩種可視化工具做以上分析。
電子表格:
儀表盤:
通過可視化的圖標去分析數(shù)據(jù),找出機會點或者異常。
五、數(shù)據(jù)應用
通過可視化的圖表去分析數(shù)據(jù),找出機會點或者異常??梢哉f,前面1、2、3、4 所有的工作都在為了第5部分數(shù)據(jù)應用上。
數(shù)據(jù)從用戶中來,通過一系列的數(shù)據(jù)沉淀、處理和分析找出機會點做決策再回到用戶中去,提升用戶體驗,帶動業(yè)務增長,此即數(shù)據(jù)驅動業(yè)務。
六、結語
本篇文章介紹了分析數(shù)據(jù)的數(shù)據(jù)框架拆解、數(shù)據(jù)處理加工過程。
但是海量數(shù)據(jù)怎么看,看哪些?度量指標應該怎么設計,度量指標中什么是業(yè)務的北極星指標等此文還沒提到。
接下來文章將會介紹數(shù)據(jù)指標體系搭建和數(shù)據(jù)分析的一些方法,也是整個數(shù)據(jù)分析體系中最核心的內(nèi)容。
#專欄作家#
花開不敗,微信公眾號:涵小仙女,人人都是產(chǎn)品經(jīng)理專欄作家。文藝女青年一枚,白天工作,晚上碼字,愛美、愛跑步、愛旅行,愿我手寫我心,余生不將就。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協(xié)議
點贊
這純粹是盜用了人家quick bi的思路,全篇就是講別人的東西!
要是能總結寫出來,那就是自己的東西了,有何不妥嗎?
寫的很清晰了,剛好最近有個報表用了quickbi
燈塔工廠
燈塔工廠
數(shù)據(jù)應用求更新
文章寫的真好,給作者點贊
內(nèi)容深入淺出,適合新手閱讀