你真的懂數(shù)據(jù)分析嗎?4個方面深入了解數(shù)據(jù)分析

0 評論 4316 瀏覽 71 收藏 17 分鐘

“大數(shù)據(jù)”、“數(shù)據(jù)驅(qū)動”這些詞匯,對沉浮在互聯(lián)網(wǎng)的廠工們來說并不陌生,隔著屏幕,一邊在源源不斷地生產(chǎn)數(shù)據(jù),一邊在緊鑼密鼓地收集解讀數(shù)據(jù)。這些數(shù)據(jù)是奇妙的,它可以讓人更加直觀、清晰地認識世界,也可以指導人更加理智地做出決策。

數(shù)據(jù)分析目的有倆:

  1. 挖掘問題,定位原因,對癥下藥
  2. 驗證假設(shè),提供必要的數(shù)據(jù)支持

不能為了做數(shù)據(jù)分析而做,這是互聯(lián)網(wǎng)小白甚至是白銀段位產(chǎn)品汪也會犯的錯誤,你可能聽到過這樣的對話:

產(chǎn)品汪:“我們想看看跟貼用戶里有多少是高活用戶?”

幾招過后,不想拉扯的數(shù)據(jù)分析師靈魂一問,“就先假設(shè)一個數(shù),占比60%,你下一步的策略是什么?”

產(chǎn)品汪束手不及,瞪圓無辜的大眼,啞語。

此次談判失敗。

如果你只是想要一個值(日常指標監(jiān)控不算在內(nèi)),可以先假定,然后看看自己是否有進一步解決問題的思路,如果沒有,說明這個問題你還沒有想清楚,就不必大費周章做數(shù)據(jù)分析了,請給數(shù)據(jù)分析師減負。

數(shù)據(jù)流轉(zhuǎn)/分析流程:

一、指標&指標體系

“好數(shù)據(jù)勝過大數(shù)據(jù)”,不要用裝滿數(shù)字的高壓水槍把團隊沖垮,那什么是好數(shù)據(jù)?

9個字簡單概括:比率、比較性、簡單易懂。

  1. 比率:避免“拋開劑量談毒性是耍流氓”的情況,在有一定統(tǒng)計學意義的統(tǒng)計量上看轉(zhuǎn)化率,如看頁面轉(zhuǎn)化率比單純看頁面訪問PV更有意義;看點擊率比單純看文章推薦量更有意義;
  2. 比較性:數(shù)據(jù)可以橫向、縱向、環(huán)比等,能比較的數(shù)據(jù)才有意義;
  3. 簡單易懂:如字。

不同的商業(yè)模式有不同的數(shù)據(jù)指標,熱門的模式大致可以分為以下幾類:

  1. 電子商務(wù),如亞馬遜、淘寶;
  2. 移動應(yīng)用,如王者榮耀,今日頭條;
  3. 媒體網(wǎng)站,如騰訊新聞網(wǎng)頁版。

移動應(yīng)用以新聞資訊app為例(如今日頭條、網(wǎng)易新聞、騰訊視頻等),簡單闡述其指標體系。

宏觀指標(水池理論)

我們把活躍用戶當做一個活躍的蓄水池,每天每月有新的水進來(水的來源和水質(zhì)都不同,有付費發(fā)行、免費發(fā)行、回流等),也有部分水流出(流失率),沒有流出的水暫時停留在水池里,這一出一進維持著蓄水池的水量,也就是我們常提到的DAU/WAU/MAU。

流入>流出,看漲;流入<流出,看跌,道理淺顯易懂。

產(chǎn)品發(fā)展期間,增長負責人也許會有擔憂(特別是創(chuàng)業(yè)團隊):“新增能夠抵過流失嗎?”

我們用水池理論來做一道數(shù)學題,已知數(shù)據(jù):現(xiàn)存量用戶500w,月平均上線率60%,月回流8%,月流失率20%,日活目標增率6%,即6個月后的日活目標是709w,請計算這半年每日發(fā)行量需達到多少?

(備注:以上數(shù)據(jù)僅作理論說明,不做實際參考)

1月月發(fā)行=預(yù)期增長+本月流失-本月回流=500/60%*6%+500/60%*20%-500/60%*8%=150(w)

1月日發(fā)行=月發(fā)行/30=150/30=5(w)

假設(shè)發(fā)行投入穩(wěn)定(即日發(fā)行相同,發(fā)行增率為0),如果日活要達到709w,那月回流率或月平均上線率要提高多少或者月流失率要降低多少?假設(shè)月流失率和月平均上線率均降低1%時,發(fā)行需要多提高多少才能維持目標?

日常數(shù)學題,以此類推。這是一種理想狀態(tài)下的數(shù)據(jù)預(yù)估,實際情況要復(fù)雜得多,例如還包括活動營銷、版本迭代的影響等。但對這些數(shù)據(jù)了然于心才能避免瞎子打靶的盲目行動。

幾個指標之間的關(guān)系你應(yīng)該了解,例如:

  1. 月發(fā)行=月流失+月期望增加-月回流
  2. 月流失=上月月活*本月月流失率
  3. 月期望增加=上月月活*(1+增長率)
  4. 回流率=回流的流失用戶/日活用戶
  5. 月平均上線率=(上線1天的人數(shù)*1+上線2天的人數(shù)*2+…上線30天的人數(shù)*30)/(30日獨立用戶*30)
  6. 其他

微觀指標:

二、數(shù)據(jù)分析

基于了解了以上指標體系,怎么做數(shù)據(jù)分析?

  1. 了解現(xiàn)狀
  2. 關(guān)注趨勢
  3. 目標驅(qū)動

數(shù)據(jù)分析大致分為兩類。一種是后驗分析:無非是某個指標漲了/跌了,“某個指標”可以代入日活、留存率、流失率等。

原因分析兩條路走:內(nèi)部因素和外部因素,內(nèi)部因素可能是版本迭代導致的功能缺失不可用、體驗變差、統(tǒng)計錯誤或者推薦策略修改等等;

外部因素區(qū)分突發(fā)短暫的因素和長期潛移默化的因素,前者如突發(fā)新聞、節(jié)假日、發(fā)行改變、特別習俗等,后者可能是設(shè)備、網(wǎng)絡(luò)、國家政策、頭部網(wǎng)站的變化等等。

關(guān)注關(guān)鍵時間點,用排除法從廣到窄層層收網(wǎng)找出差異點,提出大概率事件的假設(shè)。

另一種是先驗分析,如擬降低無點擊用戶占比,分析無點擊用戶的行為特征和興趣標簽,這類分析根據(jù)不同業(yè)務(wù)有不同的側(cè)重點。

數(shù)據(jù)分析過程強調(diào)1個思維2個指標(敲黑板,劃重點了)。

1. 漏斗分析思維

漏斗思維在日常工作中很常見,運用漏斗分析的思維,便于環(huán)環(huán)監(jiān)控,查漏補缺,對癥下藥。日常流量漏斗應(yīng)用廣:

推薦召回排序漏斗:

(以上數(shù)據(jù)僅做模型示意,不做實際參考)

打車軟件漏斗模型:

移動頁面營銷流量漏斗:

(以上數(shù)據(jù)僅做模型示意,不做實際參考)

以H5營銷活動為例,以下是漏斗中各環(huán)節(jié)指標,逐級遞減。

  1. 曝光:評估觸達多少用戶;
  2. 曝光點擊率:評估物料優(yōu)質(zhì)程度;
  3. 成功加載率:loading環(huán)節(jié)會損失多少用戶,判斷是否存在性能問題;
  4. 各頁面/按鈕參與率:評估各互動環(huán)節(jié)設(shè)計是否合理,UI是否清晰明了等;
  5. 病毒傳播系數(shù):自傳播的可能性,綜合評估獲客成本。

根據(jù)不同業(yè)務(wù)需求,以上指標還能細拆,如總訪問中關(guān)注不同渠道的流量,如區(qū)分微信、微博、端內(nèi)流量,方便評估渠道質(zhì)量,按需投放。

2. 北斗星指標

即“在任何時候抬起頭看,他都在你前進的道路上”。北斗星指標是讓團隊聚力,少走彎路的一個指導性指標(也是KPI完成度的依據(jù)),正因如此,制定一個正確的北斗星指標非常關(guān)鍵,因為他回答了現(xiàn)階段最重要的問題。

如某服務(wù)供應(yīng)商,有一個指標高于其他指標:凈增加,這個指標有助于快速發(fā)現(xiàn)退訂量高的日子并尋找問題;餐飲業(yè)關(guān)注前一天人工成本占毛收入的比例,為了得要一個優(yōu)秀的數(shù)值,你不得不推進人均消費和人力成本。

產(chǎn)品發(fā)展的不同階段會有不同北斗指標,但每個階段關(guān)注一個北斗指標即可,不貪多。

3. 虛擬指標

虛擬1:注重PV、UV等“量級”類的指標,忽略轉(zhuǎn)化率。

某圖片網(wǎng)站的日均訪問人數(shù)訪問次數(shù)過百萬,但同時跳出率也高達75%,實際留下消費的用戶寥寥無幾。

某新聞app某頻道日均訪問十幾萬,無刷新無點擊用戶占比85%,實際有消費的用戶僅有幾萬。

這種注意力轉(zhuǎn)移時常會變成寫匯報的“故意”技巧,“轉(zhuǎn)化不好量級來湊”。制定正確的數(shù)據(jù)指標,避開虛榮指標,數(shù)據(jù)指標之間的耦合現(xiàn)象也值得注意,例如轉(zhuǎn)化率和購買所需時間,病毒傳播系數(shù)和病毒傳播周期。

虛擬2:相對值和絕對值,只選其一。

新上架的某工具類app,DAU增長500%,實質(zhì)原始基數(shù)只有20人,增長500%即增長至120人

相對值和絕對值,避重就輕就是耍流氓。

虛擬3:關(guān)注某指標下的全量用戶,忽略真實有意義的用戶行為。

某買賣二手書app一開始關(guān)注每月賣家人數(shù)、上傳商品數(shù)量、賣家人均上傳商品數(shù)量,數(shù)據(jù)很漂亮;若以月為單位關(guān)注一個月內(nèi)有活躍的商家、一周內(nèi)有搜索曝光次數(shù)大于3次的商品數(shù)量,就會發(fā)現(xiàn)趨勢并不樂觀。

“有效行為”可能含義豐富,需要尋找有意義的用戶行為模式和機遇,虛擬數(shù)據(jù)的噪音會掩蓋原本你應(yīng)該要面對和解決的問題。

除了1個思維2個指標,了解數(shù)據(jù)瓶頸(也稱“天花板”)和同行大盤,能讓你把精力和財力花在刀刃上。如,某CEO對8%的流失率心煩意亂,和同行溝通后發(fā)現(xiàn)8%已經(jīng)是一個較低值,他便改變了關(guān)注點,“流失率維持即可,精力放在其他指標”。

三、數(shù)據(jù)采集

常見的數(shù)據(jù)采集有以下四個渠道:

  1. 行為數(shù)據(jù)(埋點)
  2. 流量數(shù)據(jù)(JS采集或第三方,如Google Analytics、百度統(tǒng)計)
  3. 業(yè)務(wù)數(shù)據(jù)(運營后臺)
  4. 外部數(shù)據(jù)(第三方或爬蟲)

to C的產(chǎn)品如騰訊新聞,產(chǎn)品汪最常接觸的是行為埋點數(shù)據(jù),埋點展開說是長篇幅的技術(shù)統(tǒng)計學(詳見下一篇推送);品牌推廣、H5營銷PR常關(guān)注流量數(shù)據(jù);關(guān)注訂單成交的運營喵日常跑后臺數(shù)據(jù);競品分析外部數(shù)據(jù)爬起來。

四、數(shù)據(jù)清洗

數(shù)據(jù)清洗根據(jù)不同的業(yè)務(wù)場景有不同的標準,主要是一些空值、異常值的處理,使數(shù)據(jù)得出的結(jié)論可靠可信。

栗子1:取非0數(shù)據(jù)時要排除null。

…… where click !=0 or click not null or ……

栗子2:統(tǒng)計時長(duration)相關(guān)行為時,過高或過低的時長為異常值,假定>=10 ms 和 <=10000000 ms 的閱讀行為有效行為。

select date, itemid, count(itemid) as rec, sum(isexposure) as exposure, sum(case when duration>=10 and duration<10000000 then isread else 0 end) as click, sum(case when duration>=10 and duration<10000000 then duration else 0 end)/1000 as read_time from all_user_active_info ……

栗子3:記錄用戶點擊歷史時,排除停留時長<=1s的點擊。

排除虛假點擊,讓記錄的用戶數(shù)據(jù)更貼近用戶的真實意圖,提高推薦策略的準確性。

其他

數(shù)據(jù)分析重在思維,可能有人會問“我需要學習獲取數(shù)據(jù)、分析數(shù)據(jù)的工具技能嗎”?

如果你在UC、騰訊這類大廠工作,一群兢兢業(yè)業(yè)的BI工程師會將苦澀難懂的數(shù)據(jù)可視化,你只要懂得提需求+善用“篩選”功能即可得到你想要的數(shù)據(jù);

如果你在中小公司工作,Excel要玩得溜的同時,學點SQL和Python總沒錯,不然你可能會面臨“取一個數(shù)據(jù)要排期一兩周”的尷尬。

學習一些基礎(chǔ)的工具技能,例如在Python嘗試用pearsonr(x, y)分析各項指標的相關(guān)性,用SQL percentile(BIGINT col, p)引發(fā)對不同分位點的思考,對思維益處多多且效率提高不少(Skill:Excel->SQL->Python)。做一個數(shù)據(jù)驅(qū)動的產(chǎn)品汪,如獲武林秘訣。

結(jié)語

Accenture的首席科學家肖爾·斯瓦米納坦說:“科學是純粹經(jīng)驗主義和不帶偏見的,但是科學家不是??茖W家是客觀和機械的,但是科學家不是。科學是客觀和機械的,但是它同樣重視那些有創(chuàng)造力、直觀思考、能夠轉(zhuǎn)變觀念的科學家?!?/p>

注重數(shù)據(jù)善用數(shù)據(jù)的同時,避免唯數(shù)據(jù)論,畢竟它是驗證直覺、提高效率少走彎路的手段而已。

在互聯(lián)網(wǎng)+時代,“你的用戶用每次點擊、瀏覽、喜歡、分享和購買都會留下一條灑滿數(shù)字面包屑的軌跡,這條軌跡從他們第一次聽說你開始,到永遠流失那天結(jié)束”。

突然覺得生活在這個時代從事著互聯(lián)網(wǎng)工作(推薦產(chǎn)品+數(shù)據(jù)分析)很幸福,“熟悉的陌生人”的無聲交流,讓事情一點點變好,就暫且拋開數(shù)據(jù)泄露數(shù)據(jù)利用這種惱人的話題吧。

備注:部分引用來自[美]埃里克·萊斯 編著的《精益數(shù)據(jù)分析》,進階級的數(shù)據(jù)分析推薦閱讀。

 

本文由 @張小喵Miu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!