數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之分析方法
本文作者將與你分享三種數(shù)據(jù)分析方法:常規(guī)分析、統(tǒng)計(jì)模型分析以及自建模型分析。掌握這三種分析思路,就能解決大部分分析需求,并根據(jù)分析需求固化為數(shù)據(jù)產(chǎn)品。
很多人覺得,做數(shù)據(jù)產(chǎn)品經(jīng)理就沒有必要掌握數(shù)據(jù)分析相關(guān)技能了,終于可以遠(yuǎn)離了枯燥的數(shù)據(jù)分析工作。如果真這么覺得,那么就大錯(cuò)特錯(cuò)了,一個(gè)好的數(shù)據(jù)產(chǎn)品經(jīng)理,不僅要有產(chǎn)品sense,還要有好的分析思路,因?yàn)橐粋€(gè)數(shù)據(jù)產(chǎn)品需求大部分都是由分析需求固化而來的。很多時(shí)候,數(shù)據(jù)產(chǎn)品和分析是分不開的,一個(gè)好的數(shù)據(jù)產(chǎn)品經(jīng)理,要掌握常用的數(shù)據(jù)分析框架和方法,才能使做出來的數(shù)據(jù)產(chǎn)品讓數(shù)據(jù)分析師和業(yè)務(wù)人員使用更順手,更貼近業(yè)務(wù)。
在進(jìn)行數(shù)據(jù)分析之前,一般都會(huì)先想一下分析框架和分析方法,數(shù)據(jù)分析方法一般有常規(guī)分析、統(tǒng)計(jì)模型分析以及自建模型分析。掌握這三種分析思路,就能解決大部分分析需求,并根據(jù)分析需求固化為數(shù)據(jù)產(chǎn)品。下面重點(diǎn)講一下這三個(gè)分析方法。
1、常規(guī)分析
其實(shí)很多公司80%的分析需求都是可以通過常規(guī)分析解決,很多分析師一般把業(yè)務(wù)相關(guān)數(shù)據(jù)從hive或者mysql中導(dǎo)入到excel,然后在excel中通過簡(jiǎn)單的表格、線圖等方式來簡(jiǎn)單直觀的分析數(shù)據(jù)。常規(guī)分析經(jīng)常會(huì)用到同環(huán)比分析法和ABC分析法,即分析對(duì)比趨勢(shì)和分析占比情況。
同環(huán)比分析應(yīng)用到數(shù)據(jù)產(chǎn)品中常見的有業(yè)務(wù)周、月、日?qǐng)?bào)等,例如,拿很多互聯(lián)網(wǎng)公司都關(guān)注的核心指標(biāo)DAU(日活躍用戶數(shù)),周報(bào)里一般都會(huì)對(duì)比DAU的周環(huán)比變化,如果上漲或者下跌的比較大的話,就要進(jìn)一步查找分析業(yè)務(wù)原因。
同比:某個(gè)周期的時(shí)段與上一個(gè)周期的相同時(shí)段比較,如今年的6月比去年的月,本周的周一比上周的周一等等。同比增長(zhǎng)率=(本期數(shù)-同期數(shù))/同期數(shù)×100%。
環(huán)比:某個(gè)時(shí)段與其上一個(gè)時(shí)長(zhǎng)相等的時(shí)段做比較,比如本周環(huán)比上周等等。環(huán)比增長(zhǎng)率=(本期數(shù)-上期數(shù))/上期數(shù)×100%。
至于ABC分析法,一般是以某一指標(biāo)為對(duì)象,進(jìn)行數(shù)量分析,以該指標(biāo)各維度數(shù)據(jù)與總體數(shù)據(jù)的比重為依據(jù),按照比例大小順序排列,并按照一定的比重或累計(jì)比重標(biāo)準(zhǔn),將各組成部分分為ABC三類。舉一個(gè)通俗易懂的例子,經(jīng)過長(zhǎng)期的觀察發(fā)現(xiàn):美國80%的人只掌握了20%的財(cái)產(chǎn),而另外20%的人卻掌握了全國80%的財(cái)產(chǎn),而且很多事情都符合該規(guī)律。于是可以應(yīng)用此規(guī)律在業(yè)務(wù)上,通過合理分配時(shí)間和力量到A類-總數(shù)中的少數(shù)部分,將會(huì)得到更好的結(jié)果。當(dāng)然忽視B類和C類也是危險(xiǎn)的,但是它確實(shí)得到與A類相對(duì)少得多的注意。
舉一個(gè)比較簡(jiǎn)單的例子,在分析支付訂單量的數(shù)據(jù)中,對(duì)各個(gè)城市的支付訂單量做ABC分析法進(jìn)一步分析,如圖1所示,發(fā)現(xiàn)武漢、杭州、上海等地的支付訂單量占比很大,這樣就可以在運(yùn)營活動(dòng)中進(jìn)一步關(guān)注占比比較高的城市,重點(diǎn)支持下這部分城市的活動(dòng)推廣。
圖1 各城市支付訂單量占比情況
2、統(tǒng)計(jì)模型分析
當(dāng)掌握了很大的數(shù)據(jù)量,希望在數(shù)據(jù)中挖掘出更多信息的時(shí)候,一般都可以應(yīng)用成熟的模型進(jìn)行比較深入的分析,例如,經(jīng)常會(huì)面對(duì)如下的業(yè)務(wù)場(chǎng)景:
- 預(yù)測(cè)產(chǎn)品在未來一年內(nèi)的日活用戶數(shù)會(huì)按什么趨勢(shì)發(fā)展,預(yù)估DAU;
- 上線了某個(gè)營銷活動(dòng),預(yù)估活動(dòng)效果怎么樣,用戶參與度情況;
- 對(duì)現(xiàn)有用戶進(jìn)行細(xì)分,到底哪一類用戶才是目標(biāo)用戶群;
- 一些用戶購買了很多商品后,哪些商品同時(shí)被購買的幾率高。
針對(duì)于第一個(gè)案例,要用到回歸分析,可以理解成幾個(gè)自變量通過加減乘除或者比較復(fù)雜的運(yùn)算得出因變量,例如預(yù)估DAU,因變量是DAU,和他有關(guān)的自變量有新增用戶、老用戶、老用戶留存、回流用戶等,然后根據(jù)歷史數(shù)據(jù),通過回歸分析擬合成一個(gè)函數(shù),這樣就可以根據(jù)未來可能的自變量,進(jìn)一步得出因變量?,F(xiàn)在常用的回歸分析主要有線性和非線性回歸、時(shí)間序列等。
舉個(gè)簡(jiǎn)單的例子,通過之前的業(yè)務(wù)支付訂單量要預(yù)測(cè)未來的訂單量情況作參考,在排除其他因素干擾的情況下,可以通過簡(jiǎn)單的線性回歸根據(jù)支付訂單量的歷史值,進(jìn)一步擬合出未來90的支付訂單量曲線情況,如下圖2所示。
圖2 ?線性回歸預(yù)測(cè)支付訂單量
針對(duì)第二個(gè)案列,根據(jù)以往活動(dòng)的數(shù)據(jù),分析活動(dòng)的各個(gè)影響因素在滿足什么情況時(shí)才會(huì)產(chǎn)生我們想要的效果,并可以根據(jù)有活動(dòng)時(shí)和沒有上線活動(dòng)時(shí)的各項(xiàng)數(shù)據(jù)輸入到系統(tǒng)中,這個(gè)函數(shù)就會(huì)根據(jù)判斷活動(dòng)效果會(huì)與哪些因素有關(guān),目前常用的分類分析方法有:決策樹、貝葉斯、KNN、神經(jīng)網(wǎng)絡(luò)等。
關(guān)于第三個(gè)案例,可以用聚類分析,細(xì)分市場(chǎng)、細(xì)分用戶群里都屬于聚類問題,這樣更方便了解用戶的具體特征,從而針對(duì)性的做一些營銷等,常見的聚類分析一般有K均值聚類、分布估計(jì)聚類等。
關(guān)于聚類分析,最常用的就是對(duì)用戶進(jìn)行分類,首先,要選取聚類變量,要盡量使用對(duì)產(chǎn)品使用行為有影響的變量,但是還是要注意這些變量要在不同研究對(duì)象上有明顯差異,這些變量之間又不存在高度相關(guān),例如,年齡、性別、學(xué)歷等。然后,把變量對(duì)應(yīng)的數(shù)據(jù)輸入到模型中,選擇一個(gè)合適的分類數(shù)目,一般會(huì)選拐點(diǎn)附近的幾個(gè)類別作為分類數(shù)目,如下圖3。接下來,要觀察各類別用戶在各變量上的表現(xiàn),找出不同類別用戶區(qū)別去其他用戶的重要特征,選取最明顯的幾個(gè)特征,最后進(jìn)行聚類處理。
圖3 R2曲線
關(guān)于第四個(gè)案例,要用到關(guān)聯(lián)分析,在電商中的應(yīng)用場(chǎng)景比較大,最經(jīng)典的案例當(dāng)屬啤酒與尿不濕的搭配銷售,常用的關(guān)聯(lián)分析有購物籃分析、屬性關(guān)聯(lián)分析等。
做關(guān)聯(lián)分析一般要理解頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則兩個(gè)概念,頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一塊兒的物品的集合,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強(qiáng)的關(guān)系。
下面用一個(gè)例子來說明這兩種概念:例如圖4,給出了某個(gè)雜貨店的交易清單。
圖4 訂單交易情況
頻繁項(xiàng)集是指那些經(jīng)常出現(xiàn)在一起的商品集合,圖中的集合{葡萄酒,尿布,豆奶}就是頻繁項(xiàng)集的一個(gè)例子。從這個(gè)數(shù)據(jù)集中也可以找到諸如尿布->葡萄酒的關(guān)聯(lián)規(guī)則,即如果有人買了尿布,那么他很可能也會(huì)買葡萄酒。
另外,為了評(píng)估關(guān)聯(lián)分析的效果和可信性,定義了可信度或置信度這兩個(gè)概念。規(guī)則{尿布}?{啤酒}的可信度被定義為”支持度({尿布,啤酒})/支持度({尿布})”,由于{尿布,啤酒}的支持度為3/5,尿布的支持度為4/5,所以”尿布?啤酒”的可信度為3/4。這意味著對(duì)于包含”尿布”的所有記錄,我們的規(guī)則對(duì)其中75%的記錄都適用。
3、自建模型分析
當(dāng)以上兩種分析方法都不能滿足業(yè)務(wù)的分析需求時(shí),這時(shí)候就需要自建模型進(jìn)行分析,例如每個(gè)公司的業(yè)務(wù)模式都不太一樣,當(dāng)要分析用戶在生命周期產(chǎn)生的價(jià)值(LTV)時(shí),就需要根據(jù)自己的業(yè)務(wù)模式進(jìn)行自建模型分析,對(duì)于一般依靠廣告營收的公司,LTV會(huì)與用戶活躍天數(shù)和Arpu(每用戶平均收入)值有關(guān),而Arpu值方面,每個(gè)公司都有自己的廣告營收模式,所以Arpu值細(xì)分下去都是不太一樣的。自建模型是為了滿足業(yè)務(wù)需求,將各個(gè)指標(biāo)靈活自由組合,從而保證分析的有效性和針對(duì)性。
具體來看,定義LTV=平均活躍天數(shù)*Arpu值=平均活躍天數(shù)*(指標(biāo)1* 參數(shù)1 + 指標(biāo)2* 參數(shù)2 + 指標(biāo)3 * 參數(shù)3+……),其實(shí),處了平均活躍天數(shù)需要預(yù)測(cè)外,后面的幾個(gè)指標(biāo)的值都比較明確,直接輸入固定值就可以。
平均活躍天數(shù)預(yù)測(cè)方式:
圖5 留存率曲線
圖6 DAU曲線
如上圖5和6的所示根據(jù)實(shí)際留存率和實(shí)際ArpuDau進(jìn)行截?cái)嗵鞌?shù)內(nèi)平均活躍天數(shù)預(yù)測(cè):
(1)INPUT /每日實(shí)際留存數(shù),OUTPUT/beta(α,β)曲線,預(yù)測(cè)哪一天就根據(jù)beta曲線返回對(duì)應(yīng)值【預(yù)測(cè)非線性擬合,起始點(diǎn)和終點(diǎn)權(quán)重較大】
對(duì)beta曲線目前分為三個(gè)partition:
- 樂觀預(yù)估:因ArpuDau持續(xù)上漲導(dǎo)致波動(dòng)過大,輸出值過大。
- 穩(wěn)健預(yù)估:為保證輸出值穩(wěn)定平滑,進(jìn)行l(wèi)og導(dǎo)數(shù)限制。
- 當(dāng)前平均預(yù)估:在穩(wěn)健預(yù)估無法輸出有效值時(shí)采用此預(yù)估方法,根據(jù)當(dāng)前留存和Arpu值作為重點(diǎn),對(duì)未來進(jìn)行預(yù)估。
(2)ArpuDau根據(jù)實(shí)際情況按公式進(jìn)行每日計(jì)算,一段時(shí)間后Arpu值趨于穩(wěn)定。
(3)LTV公式= ∑(留存beta1*Arpu1+留存beta2*Arpu2+….+留存betak*Arpuk),可簡(jiǎn)單理解為∑留存beta*∑ArpuDau
k值由模型調(diào)用者決定,660天LTV預(yù)估同樣可由模型調(diào)用者進(jìn)行修改調(diào)整。
其實(shí),以上的分析方法和思路,數(shù)據(jù)產(chǎn)品經(jīng)理只需要掌握基本的20%就能解決80%的問題,剩下的20%的問題,可以交給更專業(yè)的數(shù)據(jù)分析師們?nèi)ソ鉀Q,當(dāng)然,多學(xué)一些分析方法,對(duì)以后的數(shù)據(jù)工作還是很有幫助的。畢竟,數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析是分不開的,都是基于數(shù)據(jù)需求解決一定問題出發(fā)的,選擇什么方法去解決問題,還是需要具體深入到業(yè)務(wù)中去。
相關(guān)閱讀
數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之BI建設(shè)
本文由 @徐鵬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pexels,基于 CC0 協(xié)議
同比跟環(huán)比說的跟找不同似的
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營》終于上線啦!
本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營等人群。
課程會(huì)從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺(tái)的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識(shí)體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺(tái)等實(shí)際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!
樓主文章中的圖表用的是什么工具啊
入門選手,能加個(gè)微信不
作用不大
hi,看到你的分享很棒,騰訊在尋找優(yōu)秀的數(shù)據(jù)產(chǎn)品經(jīng)理,求聯(lián)系,微信號(hào):andymincao,謝謝
微信是多少?。糠奖慵觽€(gè)微信唄:2659644553
是嘛是嘛,會(huì)給一些福利試用BDP更多功能嘛? ??