細(xì)分十一步,助你構(gòu)建完整的數(shù)據(jù)運營體系
數(shù)據(jù)運營需要掌握哪些技能?怎樣構(gòu)建屬于自己的數(shù)據(jù)運營體系?本文作者用十多年的工作經(jīng)驗,助你一步一步完善數(shù)據(jù)運營體系。
未來30年數(shù)據(jù)將成為生產(chǎn)資料,計算會是生產(chǎn)力,互聯(lián)網(wǎng)是一種生產(chǎn)關(guān)系。如果我們不數(shù)據(jù)化,不和互聯(lián)網(wǎng)相連,那么會比過去30年不通電顯得更為可怕。未來30年,互聯(lián)網(wǎng)將不再是互聯(lián)網(wǎng)公司的互聯(lián)網(wǎng),互聯(lián)網(wǎng)是所有人的互聯(lián)網(wǎng)。如果說過去20年互聯(lián)網(wǎng)從無到有,那么未來30年,互聯(lián)網(wǎng)將“從有到無”,這個“無”是無處不在的“無”,沒有人能夠離開網(wǎng)絡(luò)而存在。
——馬云,第四屆世界互聯(lián)網(wǎng)大會
在我的18年的互聯(lián)網(wǎng)行業(yè)工作經(jīng)歷中,很大一部分時間的工作是數(shù)據(jù)運營,從QQ秀到Y(jié)Y語音,再到迅雷,都經(jīng)歷了產(chǎn)品數(shù)據(jù)運營的流程優(yōu)化、平臺構(gòu)建、分析應(yīng)用等過程,親歷了數(shù)據(jù)運營在產(chǎn)品成長中發(fā)揮的重要作用。
不少人對數(shù)據(jù)運營的理解,局限于數(shù)據(jù)統(tǒng)計、原因分析等,其實這些只是數(shù)據(jù)運營工作的一小部分,數(shù)據(jù)最終是為產(chǎn)品服務(wù)的,數(shù)據(jù)運營,重點在運營,數(shù)據(jù)是載體。
數(shù)據(jù)運營是做什么的?個人的理解是:
推動團(tuán)隊明確產(chǎn)品目標(biāo),定義產(chǎn)品數(shù)據(jù)指標(biāo),創(chuàng)建數(shù)據(jù)上報通道和規(guī)則流程,高效的推動實現(xiàn)數(shù)據(jù)需求,觀測產(chǎn)品數(shù)據(jù),做好數(shù)據(jù)預(yù)警,分析數(shù)據(jù)變化原因,根據(jù)分析結(jié)果進(jìn)行產(chǎn)品迭代和運營,為產(chǎn)品決策提供依據(jù),用數(shù)據(jù)驅(qū)動產(chǎn)品和組織成長,達(dá)成組織目標(biāo)。
通俗點說,數(shù)據(jù)運營搞清楚以下5個問題:
1. 我們要做什么?——目標(biāo)數(shù)據(jù)制訂;
2. 現(xiàn)狀是什么?——行業(yè)分析,產(chǎn)品數(shù)據(jù)報表輸出;
3. 數(shù)據(jù)變化的原因?——數(shù)據(jù)預(yù)警,數(shù)據(jù)變化的原因分析;
4. 未來會怎樣?——數(shù)據(jù)預(yù)測;
5. 我們應(yīng)該做什么?——決策與數(shù)據(jù)的產(chǎn)品應(yīng)用。
大致梳理了一下數(shù)據(jù)運營需要掌握的技能:
上面的這些技能概念較多,其實最基本的就是,先學(xué)好統(tǒng)計學(xué),再深入進(jìn)行業(yè)務(wù)實踐,熟練掌握分析工具,例如最常用的Excel,再多學(xué)一個數(shù)據(jù)挖掘工具,個人使用的是SPSS。
SPSS的功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等。SPSS統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等。
工具不難學(xué),重要的是學(xué)習(xí)統(tǒng)計學(xué),知道不同場景選用什么分析方法,如何進(jìn)行分析結(jié)果的解讀和應(yīng)用。
后來,我把自己數(shù)據(jù)運營工作經(jīng)歷整理了一份企業(yè)構(gòu)建數(shù)據(jù)運營體系的層級圖:
如何才能構(gòu)建一個完整的產(chǎn)品數(shù)據(jù)運營體系?我根據(jù)自己的工作實踐經(jīng)驗進(jìn)行了梳理和總結(jié),整個過程可以分為如下的11步,供大家參考。
第一步,制訂產(chǎn)品目標(biāo)
這是數(shù)據(jù)運營的起點,也是產(chǎn)品上線運營后進(jìn)行評估的標(biāo)準(zhǔn),以此形成閉環(huán)。
制訂目標(biāo)絕不能拍腦袋,可以根據(jù)業(yè)務(wù)發(fā)展、行業(yè)發(fā)展、競品分析、往年產(chǎn)品發(fā)展走勢、產(chǎn)品轉(zhuǎn)化規(guī)律等綜合計算得出。制訂目標(biāo)常用SMART原則來衡量。
1. S代表具體(Specific)
指工作指標(biāo)要具體可評,不能籠統(tǒng)。例如我們制定YY語音基礎(chǔ)體驗的產(chǎn)品目標(biāo),如果是提升產(chǎn)品體驗,則不夠具體,每個人的理解不一致,當(dāng)時我們的基礎(chǔ)產(chǎn)品目標(biāo)則是提升新用戶次日留存,則非常具體。
2. M代表可度量(Measurable)
指績效指標(biāo)是數(shù)量化或者行為化的,驗證這些績效指標(biāo)的數(shù)據(jù)或者信息是可以獲得的;提升新用戶次日留存率,則需要給出具體的數(shù)值。
3. A代表可實現(xiàn)(Attainable)
指績效指標(biāo)在付出努力的情況下可以實現(xiàn),避免設(shè)立過高或過低的目標(biāo);新注冊用戶的次日留存率,也不是拍腦袋得出的,當(dāng)時我們基于YY新用戶次日留存率的歷史數(shù)據(jù)和游戲用戶的新注冊用戶留存率的行業(yè)參考數(shù)值,制訂了一個相對有挑戰(zhàn)性的目標(biāo),從新注冊用戶次日留存率從25%提升到35%。
4. R代表相關(guān)性(Relevant)
是與工作的其它目標(biāo)是相關(guān)聯(lián)的;績效指標(biāo)是與本職工作相關(guān)聯(lián)的;新用戶的次日留存率,和用戶行為息息相關(guān),例如用戶對語音工具的認(rèn)可程度,用戶對YY平臺的內(nèi)容喜好程度等,所以新用戶的次日留存和產(chǎn)品的性能、內(nèi)容受歡迎程有較強的相關(guān)性。
5. T代表有時限(Time-bound)
注重完成目標(biāo)的特定期限。
產(chǎn)品目標(biāo)可以這樣制訂:在2013年12月31日前,將YY語音新注冊用戶的次日留存率從25%提升到35%。
新用戶次日留存率的提升,意味著更多用戶的活躍轉(zhuǎn)化,帶動整個用戶活躍數(shù)量的增長。
這里需要注意,需要洞察目標(biāo)背后的本質(zhì),不能唯數(shù)據(jù)論,例如我做過的提高YY語音新注冊用戶留存率的項目,如果只是看留存率的數(shù)據(jù)變化,是很容易達(dá)到的。
記得當(dāng)時我用的一個方法是用戶分類,把不同渠道、不同行為的用戶進(jìn)行分類,發(fā)現(xiàn)有部分垃圾新用戶大大影響了整體留存率數(shù)據(jù),這部分用戶很多是機器注冊產(chǎn)生,并非真正的用戶,剔除掉這部分用戶,留存數(shù)據(jù)高了很多,但這不能說,我們就完成了任務(wù)。因為這個目標(biāo)的背后,實際是需要獲得活躍用戶的增長,新用戶留存率,只是一個數(shù)據(jù)體現(xiàn),所以不能只看新用戶留存率這個單一指標(biāo),必須從提高新用戶注冊數(shù)量、有效用戶留存、用戶活躍、付費轉(zhuǎn)化等多個指標(biāo)來衡量工作價值。
第二步,定義產(chǎn)品數(shù)據(jù)指標(biāo)
沿著上面的目標(biāo)制訂,就需要考慮數(shù)據(jù)指標(biāo),上門的案例,我們給出的目標(biāo)是新用戶留存率,做好了新用戶留存率,需要去判斷這個數(shù)據(jù)指標(biāo)的實現(xiàn)是否真的促進(jìn)了整個產(chǎn)品活躍用戶的增長。
產(chǎn)品數(shù)據(jù)指標(biāo)是反應(yīng)產(chǎn)品健康發(fā)展的具體的數(shù)值,我們需要對數(shù)據(jù)指標(biāo)給出明確定義,還包括數(shù)據(jù)上報方法、計算公式等。
例如上文的次日留存率,可以定義為:次日留存率是一個比率,分母是當(dāng)天新注冊并在當(dāng)天登錄YY客戶端的YY帳戶數(shù),分子是分母當(dāng)中在第二天再次登錄YY客戶端的YY帳戶數(shù)。
注意這里的細(xì)節(jié),第一天和第二天,需要有明確的時間點,例如0點到24點,計算為一天;問題來了,一個新用戶在第一天的23點注冊并登錄YY客戶端,到第二天的凌晨1點下線;按照上面的定義,這個用戶或許將不會被記錄為次日留存用戶,因為這里沒有定義清楚數(shù)據(jù)上報細(xì)節(jié)。
定義是第二天再次登錄YY客戶端,上面案例的用戶在第二天是沒有登錄行為的,但他確實是連續(xù)兩天都在登錄狀態(tài)的用戶。
所以針對這個定義,需要補充細(xì)節(jié):用戶登錄狀態(tài),如果是5分鐘進(jìn)行一次心跳包的上報,那么這位新用戶就可以被上報為第二天的登錄狀態(tài)用戶,如果在0點5分之前下線之后,持續(xù)到第二天的24點,仍未有登錄狀態(tài),那么將不被記錄為留存用戶。
我們根據(jù)產(chǎn)品目標(biāo)來選擇數(shù)據(jù)指標(biāo),例如網(wǎng)頁產(chǎn)品,經(jīng)常用PV、UV、崩失率、人均PV、停留時長等數(shù)據(jù)進(jìn)行產(chǎn)品度量。定義產(chǎn)品指標(biāo)體系,需要產(chǎn)品、開發(fā)等各個團(tuán)隊達(dá)成共識,數(shù)據(jù)指標(biāo)的定義是清晰的,并且有據(jù)可查,不會引起數(shù)據(jù)解讀的理解差異。
產(chǎn)品在不同生命周期,關(guān)注的數(shù)據(jù)指標(biāo)側(cè)重點也會不同,下表大致列出了一些各個階段需要重點關(guān)注的指標(biāo),除了常見的用戶指標(biāo)、收入指標(biāo),我們還必須重視技術(shù)層面的性能指標(biāo)。
好的數(shù)據(jù)指標(biāo),有五個要點可供參考:
(1)能夠反映用戶需求的滿足、產(chǎn)品核心價值以及發(fā)展趨勢。這些指標(biāo)變好了能說明公司是在往好的方向上發(fā)展。
(2)好的數(shù)據(jù)指標(biāo)是可比較的。比較在不同的時間段,用戶群體,競爭產(chǎn)品之間的表現(xiàn),可以更好的洞察產(chǎn)品的實際走向。
(3)易懂、可控。很容易地理解、記住,方便統(tǒng)計。
(4)好的數(shù)據(jù)指標(biāo)多數(shù)時候是一個比率。
(5)指標(biāo)隨業(yè)務(wù)而進(jìn)化。不同階段的關(guān)鍵性指標(biāo)應(yīng)該是隨著業(yè)務(wù)的變化而變化的。
第三步,構(gòu)建產(chǎn)品數(shù)據(jù)指標(biāo)體系
在數(shù)據(jù)指標(biāo)提出的基礎(chǔ)上,我們按照產(chǎn)品邏輯進(jìn)行指標(biāo)的歸納整理,使之條理化。
新用戶的次日留存率是我們訂制的一個核心目標(biāo),但實際上,只看次日留存率還是不夠的,還需要綜合考察影響用戶留存率的多種因素,才能更準(zhǔn)確的了解產(chǎn)品的健康發(fā)展。如圖1所示,是常用的一種指標(biāo)體系,包含:用戶新增、用戶活躍、付費、其他數(shù)據(jù)。
圖1 互聯(lián)網(wǎng)產(chǎn)品常用數(shù)據(jù)指標(biāo)體系
在我們做YY語音客戶端產(chǎn)品的時候,會用到下面的指標(biāo)體系,包括:賬號體系、關(guān)系鏈數(shù)據(jù)、狀態(tài)感知數(shù)據(jù)、溝通能力等四大方面。具體指標(biāo)有:好友的個數(shù)分布、觀看頻道節(jié)目的時長、IM聊天時長、個人狀態(tài)的切換與時長等,如圖2所示:
圖2 IM即時通訊產(chǎn)品數(shù)據(jù)指標(biāo)體系
第四步,提出產(chǎn)品數(shù)據(jù)需求
產(chǎn)品指標(biāo)體系的建立不是一蹴而就的,產(chǎn)品經(jīng)理根據(jù)產(chǎn)品發(fā)展的不同階段,有所側(cè)重的進(jìn)行數(shù)據(jù)需求的提出,一般的公司都會有產(chǎn)品需求文檔的模板,方便產(chǎn)品和數(shù)據(jù)上報開發(fā)、數(shù)據(jù)平臺等部門同事溝通,進(jìn)行數(shù)據(jù)建設(shè)。
創(chuàng)業(yè)型中小企業(yè),產(chǎn)品數(shù)據(jù)的需求提出到上報或許就是1-2人的事情,但同樣建議做好數(shù)據(jù)文檔的建設(shè),例如數(shù)據(jù)指標(biāo)的定義,數(shù)據(jù)計算邏輯等。
圖3是我在YY語音客戶端團(tuán)隊建立的基礎(chǔ)產(chǎn)品數(shù)據(jù)需求實現(xiàn)流程。其實在大多數(shù)時候,并不需要這么一個數(shù)據(jù)需求流程,只是當(dāng)時我們在數(shù)據(jù)需求剛剛開始進(jìn)行規(guī)范化,數(shù)據(jù)需求評審過程,也是培訓(xùn)過程,讓更多同事有數(shù)據(jù)意識,到后面,數(shù)據(jù)需求是融入到產(chǎn)品需求流程的。
圖3 YY事業(yè)部基礎(chǔ)產(chǎn)品數(shù)據(jù)需求實現(xiàn)流程圖(施行)
常見的數(shù)據(jù)上報需求,有兩類:
1. 標(biāo)準(zhǔn)協(xié)議上報,例如按鈕點擊上報;
2. 自定義協(xié)議上報。
(1)標(biāo)準(zhǔn)協(xié)議上報數(shù)據(jù)需求范例
表1 標(biāo)準(zhǔn)協(xié)議上報數(shù)據(jù)需求范例模板
(2)自定義協(xié)議上報數(shù)據(jù)需求范例
表2 自定義協(xié)議上報數(shù)據(jù)需求范例模板
報名名稱:YY事業(yè)部——基礎(chǔ)產(chǎn)品組——游戲直播運營日報。
第五步,上報數(shù)據(jù)
這個步驟就是開發(fā)根據(jù)產(chǎn)品經(jīng)理的數(shù)據(jù)需求,按照數(shù)據(jù)上報規(guī)范,完成上報開發(fā),將數(shù)據(jù)上報到數(shù)據(jù)服務(wù)器。
上報數(shù)據(jù)的關(guān)鍵是數(shù)據(jù)上報通道的建設(shè),原來在騰訊工作時候,沒有體會到這個環(huán)節(jié)的艱辛,因為數(shù)據(jù)平臺部門已經(jīng)做了完備的數(shù)據(jù)通道搭建,開發(fā)按照一定規(guī)則,使用統(tǒng)一的數(shù)據(jù)SDK進(jìn)行數(shù)據(jù)上報就可以了。
后來在YY,屬于發(fā)展型公司,則是從上報通道開始進(jìn)行建設(shè),也讓我得到更多鍛煉提升的機會。其中很關(guān)鍵的一個環(huán)節(jié),就是數(shù)據(jù)上報測試,曾經(jīng)因為該環(huán)節(jié)的測試資源沒到位,造成不必要的麻煩。
很多創(chuàng)業(yè)公司沒有自己的數(shù)據(jù)平臺,可以利用第三方的數(shù)據(jù)平臺:網(wǎng)頁產(chǎn)品,可以使用百度統(tǒng)計(#baidu.com);移動端產(chǎn)品,可以使用友盟(www.umeng.com)、TalkingData(www.talkingdata.com)等平臺。
例如下表,就是頁面流量數(shù)據(jù)上報的發(fā)送函數(shù)send_web_pv,源于迅雷哈勃數(shù)據(jù)平臺規(guī)范。
表3 頁面流量數(shù)據(jù)上報的發(fā)送函數(shù)send_web_pv
下表是某直播做APP數(shù)據(jù)上報的埋點范例。(數(shù)據(jù)埋點,就是在功能邏輯中添加統(tǒng)計邏輯)。
表4 某直播APP數(shù)據(jù)上報范例
目前也有無埋點的數(shù)據(jù)上報方式,參見這篇文章《揭開GrowingIO無埋點的神秘面紗》。
第六-八步,數(shù)據(jù)采集與接入、存儲、調(diào)度與運算
每一步都是一門學(xué)問,例如采集數(shù)據(jù)涉及接口創(chuàng)建,要考慮數(shù)據(jù)字段的拓展性,數(shù)據(jù)采集過程中的ETL數(shù)據(jù)清洗流程,客戶端數(shù)據(jù)上報的正確性校驗等;數(shù)據(jù)存儲與調(diào)度、運算,在大數(shù)據(jù)時代,更是很有挑戰(zhàn)性的技術(shù)活。
1. 數(shù)據(jù)的采集與接入
ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。
ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。
下圖是產(chǎn)品數(shù)據(jù)體系的一個常見流程圖,數(shù)據(jù)采集、存儲、運算,通常就在圖中的數(shù)據(jù)中心完成。
圖4 數(shù)據(jù)體系流程
確認(rèn)完數(shù)據(jù)上報之后,接下來幾個事情就比較偏技術(shù)化了。首先需要上報的數(shù)據(jù)通過什么樣的方式采集和存儲到我們的數(shù)據(jù)中心。
數(shù)據(jù)采集分為兩步,第一步從業(yè)務(wù)系統(tǒng)上報到服務(wù)器,這部分主要是通過cgi或者后臺server,通過統(tǒng)一的logAPI調(diào)用之后,匯總在logServer中進(jìn)行原始流水?dāng)?shù)據(jù)的存儲。當(dāng)這部分?jǐn)?shù)據(jù)量大了之后,需要考慮用分布式的文件存儲來做,外部常用的分布式文件存儲主要是HDFS。這里就不細(xì)展開。
圖5 原始數(shù)據(jù)上報存儲到文件的架構(gòu)圖
數(shù)據(jù)存儲到文件之后,第二步就進(jìn)入到ETL的環(huán)節(jié),ETL就是指通過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)把日志從文本中,基于分析的需求和數(shù)據(jù)緯度進(jìn)行清洗,然后存儲在數(shù)據(jù)倉庫中。
以騰訊為例子:
騰訊大數(shù)據(jù)平臺現(xiàn)在主要從離線和實時兩個方向支撐海量數(shù)據(jù)接入和處理,核心的系統(tǒng)包括TDW、TRC和TDbank。
圖6 騰訊數(shù)據(jù)平臺系統(tǒng)
騰訊數(shù)據(jù)平臺的數(shù)據(jù)收集、分發(fā)、預(yù)處理和管理工作,都是通過一個TDBank的平臺來實現(xiàn)的。整個平臺主要解決在大數(shù)據(jù)量下面數(shù)據(jù)收集和處理的量大、實時、多樣的問題。通過數(shù)據(jù)接入層、處理層和存儲層這樣的三層架構(gòu)來統(tǒng)一解決接入和存儲的問題。
(1)接入層
接入層可以支持各種格式的業(yè)務(wù)數(shù)據(jù)和數(shù)據(jù)源,包括不同的DB、文件格式、消息數(shù)據(jù)等。數(shù)據(jù)接入層會將收集到的各種數(shù)據(jù)統(tǒng)一成一種內(nèi)部的數(shù)據(jù)協(xié)議,方便后續(xù)數(shù)據(jù)處理系統(tǒng)使用。
(2)處理層
接下來處理層用插件化的形式來支持多種形式的數(shù)據(jù)預(yù)處理過程。對于離線系統(tǒng)來說,一個重要的功能是將實時采集到的數(shù)據(jù)進(jìn)行分類存儲,需要按照某些維度(比如某個key值+時間等維度)進(jìn)行分類存儲;同時存儲文件的粒度(大小/時間)也是需要定制的,使離線系統(tǒng)能以指定的的粒度來進(jìn)行離線計算。對于在線系統(tǒng)來說,常見的預(yù)處理過程如數(shù)據(jù)過濾、數(shù)據(jù)采樣和數(shù)據(jù)轉(zhuǎn)換等。
(3)數(shù)據(jù)存儲層
處理后的數(shù)據(jù),使用HDFS作為離線文件的存儲載體。保證數(shù)據(jù)存儲整體上是可靠的,然后最終把這部分處理后的數(shù)據(jù),入庫到騰訊內(nèi)部的分布式數(shù)據(jù)倉庫TDW。
圖7 TDW架構(gòu)圖
TDBank是從業(yè)務(wù)數(shù)據(jù)源端實時采集數(shù)據(jù),進(jìn)行預(yù)處理和分布式消息緩存后,按照消息訂閱的方式,分發(fā)給后端的離線和在線處理系統(tǒng)。
圖8 TDBank數(shù)據(jù)采集與接入系統(tǒng)
TDBank構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同數(shù)據(jù)源解耦,為離線計算TDW和在線計算TRC平臺提供數(shù)據(jù)支持。目前通過不斷的改進(jìn),將以前Linux+HDFS的模式,轉(zhuǎn)變?yōu)榧?分布式消息隊列的模式,將以前一天才能處理的消息量縮短到2秒鐘!
從實際應(yīng)用來看,產(chǎn)品在考慮數(shù)據(jù)采集和接入的時候,主要要關(guān)心幾個緯度的問題:
- 多個數(shù)據(jù)源的統(tǒng)一,一般實際的應(yīng)用過程中,都存在不同的數(shù)據(jù)格式來源,這個時候,采集和接入這部分,需要把這些數(shù)據(jù)源進(jìn)行統(tǒng)一的轉(zhuǎn)化。
- 采集的實時高效,由于大部分系統(tǒng)都是在線系統(tǒng),對于數(shù)據(jù)采集的時效性要求會比較高。
- 臟數(shù)據(jù)處理,對于一些會影響整個分析統(tǒng)計的臟數(shù)據(jù),需要在接入層的時候進(jìn)行邏輯屏蔽,避免后面統(tǒng)計分析和應(yīng)用的時候,由于這部分?jǐn)?shù)據(jù)導(dǎo)致很多不可預(yù)知的問題。
2. 數(shù)據(jù)的存儲與計算
完成數(shù)據(jù)上報和采集和接入之后,數(shù)據(jù)就進(jìn)入存儲的環(huán)節(jié),繼續(xù)以騰訊為例。
在騰訊內(nèi)部,有個分布式的數(shù)據(jù)倉庫用來存儲數(shù)據(jù),內(nèi)部代號叫做TDW,它支持百PB級數(shù)據(jù)的離線存儲和計算,為業(yè)務(wù)提供海量、高效、穩(wěn)定的大數(shù)據(jù)平臺支撐和決策支持。基于開源軟件Hadoop和Hive進(jìn)行構(gòu)建,并且根據(jù)公司數(shù)據(jù)量大、計算復(fù)雜等特定情況進(jìn)行了大量優(yōu)化和改造。
從對外公布的資料來看,TDW基于開源軟件hadoop和hive進(jìn)行了大量優(yōu)化和改造,已成為騰訊最大的離線數(shù)據(jù)處理平臺,集群各類機器總數(shù)5000臺,總存儲突破20PB,日均計算量超過500TB,覆蓋騰訊公司90%以上的業(yè)務(wù)產(chǎn)品,包含廣點通推薦,用戶畫像,數(shù)據(jù)挖掘和各類業(yè)務(wù)報表等,都是通過這個平臺來提供基礎(chǔ)能力。
圖8 騰訊TDW分布式數(shù)據(jù)倉庫
圖9 TDW業(yè)務(wù)示意圖
從實際應(yīng)用來看,數(shù)據(jù)存儲這部分主要考慮幾個問題:
- 數(shù)據(jù)安全性,很多數(shù)據(jù)是不可恢復(fù)的,所以數(shù)據(jù)存儲的安全可靠永遠(yuǎn)是最重要的。一定要投入最多的精力來關(guān)注。
- 數(shù)據(jù)計算和提取的效率,做為存儲源,后面會面臨很多數(shù)據(jù)查詢和提取分析的工作,這部分的效率需要確保。
- 數(shù)據(jù)一致性,存儲的數(shù)據(jù)主備要保證一致性。
這一步的關(guān)鍵,企業(yè)要構(gòu)建自己的私有數(shù)據(jù)平臺,就是找到有數(shù)據(jù)平臺開發(fā)經(jīng)驗的架構(gòu)師、工程師,事半功倍,當(dāng)然,如果是中小企業(yè),直接用云產(chǎn)品吧,效率更高。
第九步:獲取數(shù)據(jù)
就是產(chǎn)品經(jīng)理,數(shù)據(jù)分析人員從數(shù)據(jù)系統(tǒng)獲得數(shù)據(jù)的過程,常見的方式是數(shù)據(jù)報表和數(shù)據(jù)提取。
報表的格式,一般會在數(shù)據(jù)需求階段明確,尤其是有積累的公司,通常會有報表模板,照著填入指標(biāo)就好了。強大一些的數(shù)據(jù)平臺,則可以根據(jù)分析需要,自助的選擇字段(表頭)進(jìn)行自助報表的配置和計算生成。
下面是做數(shù)據(jù)報表設(shè)計的幾個原則:
1. 提供連續(xù)周期的查詢功能
(1)報表要提供查詢的起始時間,可以查看指定時間范圍內(nèi)的數(shù)據(jù)。忌諱只有一個時間點,無法看數(shù)據(jù)的趨勢。
(2)對一段時間范圍內(nèi)的數(shù)據(jù)能夠分段或匯總,能夠?qū)Σ煌A段進(jìn)行比較。
2. 查詢條件與維度相匹配
(1)有多少個維度,就提供多少個對應(yīng)的查詢條件。盡量滿足每個維度都能分析。
(2)查詢條件要提供開、合,以及具體值的過濾功能。既能看總體,又能看明細(xì),還要能看單一。
(3)查詢條件的順序,盡量與維度的順序?qū)?yīng),最好按從大到小的層次。
3. 圖表與數(shù)據(jù)要一致
(1)圖表顯示的趨勢,要與相應(yīng)的數(shù)據(jù)一致,避免數(shù)據(jù)有異議;
(2)有圖就必須有數(shù)據(jù),但是,有數(shù)據(jù)可以沒有圖;
(3)圖表內(nèi)的指標(biāo)不要太多,并且指標(biāo)間的差距不要太大。
4. 報表要單一
(1)一張報表,只做一份分析功能,多個功能盡量拆到不同的表報中;
(2)在報表中盡量不要有跳轉(zhuǎn);
(3)報表只提供查詢功能。
看幾張常用報表,WEB產(chǎn)品的流量報表,來自百度,關(guān)注PV、UV、新訪客比率、跳出率、平均訪問時長等。
專門說一下跳出率,這個數(shù)據(jù)反應(yīng)了用戶進(jìn)入網(wǎng)站的著陸頁(不一定是首頁)價值,是否可以吸引用戶進(jìn)行一次點擊,如果用戶達(dá)到著陸頁,沒有任何點擊,則跳出率增大。
圖10 百度統(tǒng)計的網(wǎng)頁數(shù)據(jù)報表
再看友盟數(shù)據(jù)平臺提供的產(chǎn)品留存率數(shù)據(jù)報表,通常關(guān)注的留存率有:1天后留存、7天后留存、30天后留存。
圖11 友盟的留存數(shù)據(jù)報表
數(shù)據(jù)提取,在做產(chǎn)品運營中,是很常見的需求,例如提取某一批銷量較好的商品及其相關(guān)字段,提取某一批指定條件的用戶等。同樣,功能比較完備的數(shù)據(jù)平臺,會有數(shù)據(jù)自助提取系統(tǒng),不能滿足自助需求,則需要數(shù)據(jù)開發(fā)寫腳本進(jìn)行數(shù)據(jù)提取。
第十步:觀測和分析數(shù)據(jù)
這里主要是數(shù)據(jù)變化的監(jiān)控和統(tǒng)計分析,通常我們會對數(shù)據(jù)進(jìn)行自動化的日報表輸出,并標(biāo)識異動數(shù)據(jù),數(shù)據(jù)的可視化輸出很重要。
數(shù)據(jù)分析常用于:了解產(chǎn)品現(xiàn)狀,了解發(fā)展趨勢,發(fā)現(xiàn)問題,認(rèn)清用戶,營銷推廣。
常用的軟件是EXCEL和SPSS,可以說是進(jìn)行數(shù)據(jù)分析的基本技能,以后再分享個人在實際工作中對這兩款軟件的使用方法和技巧。需要注意的是,在進(jìn)行數(shù)據(jù)分析之前,先進(jìn)行數(shù)據(jù)準(zhǔn)確性的校驗,判斷這些數(shù)據(jù)是否是你想要的,例如從數(shù)據(jù)定義到上報邏輯,是否嚴(yán)格按照需求文檔進(jìn)行,數(shù)據(jù)的上報通道是否會有數(shù)據(jù)丟包的可能,建議進(jìn)行原始數(shù)據(jù)的提取抽樣分析判斷數(shù)據(jù)準(zhǔn)確性。
數(shù)據(jù)解讀在這個環(huán)節(jié)至關(guān)重要,同一份數(shù)據(jù),由于產(chǎn)品熟悉度和分析經(jīng)驗的差異,解讀結(jié)果也大不一樣,因此產(chǎn)品分析人員,必須對產(chǎn)品和用戶相當(dāng)了解。
絕對數(shù)值通常難以進(jìn)行數(shù)據(jù)解讀,通常都是通過比較,才更能表達(dá)數(shù)據(jù)含義。
例如某產(chǎn)品上線后的第一周,日均新增注冊10萬人,看起來數(shù)據(jù)不錯,但是如果這款產(chǎn)品是YY語音推出的新產(chǎn)品,并且通過YY彈窗消息進(jìn)行用戶觸達(dá),每天千萬次的用戶曝光,僅僅帶來10萬新增,則算不上是較好的產(chǎn)品數(shù)據(jù)。
圖13 通過比較更清晰表達(dá)數(shù)據(jù)含義
縱向比較,例如分析YY語音新注冊用戶的數(shù)據(jù)變化,那么可以和上周同期、上月同期、去年同期進(jìn)行對比,是否有相似的數(shù)據(jù)變化規(guī)律。
橫向比較,同樣是YY語音新用戶注冊數(shù)據(jù)的變化,可以從漏斗模型進(jìn)行分析,從用戶來源的不同渠道去看每個渠道的轉(zhuǎn)化率是否有變化,例如最上層漏斗,用戶觸達(dá)渠道有無哪個數(shù)據(jù)有較大變化,哪個渠道的某個環(huán)節(jié)有轉(zhuǎn)化率的數(shù)據(jù)變化。還可以進(jìn)行不同業(yè)務(wù)的橫向比較,例如YY語音新增注冊數(shù)據(jù)、多玩網(wǎng)流量數(shù)據(jù)、YY游戲新增注冊用戶數(shù)據(jù)進(jìn)行對比,查找數(shù)據(jù)變化原因。
縱橫結(jié)合對比,就是把多個數(shù)據(jù)變化的同一周期時間段曲線進(jìn)行對比,例如YY新增注冊用戶、多玩網(wǎng)的流量數(shù)據(jù)、YY游戲新增注冊用戶的半年數(shù)據(jù)變化,三條曲線同時進(jìn)行對比,找出某個數(shù)據(jù)異常的關(guān)鍵節(jié)點,再查找運營日志,看看有無運營活動的組織、有無外部事件的影響、有無特殊日子的影響因素。
數(shù)據(jù)分析結(jié)果的輸出,通常采用直觀的可視化展現(xiàn)方式,選擇一種合理的圖表,使得分析結(jié)果更直觀。
推薦兩個實用的可視化工具:
百度圖說:https://tushuo.baidu.com
文字云圖:https://wordart.com
自定義圖片生成個性化文字云圖。
關(guān)于文字云圖的攻略文章:
文字云圖攻略(二):自定義圖形做個性文字云圖
第十一步:產(chǎn)品評估與數(shù)據(jù)應(yīng)用
這是數(shù)據(jù)運營閉環(huán)的終點,同時也是新的起點,數(shù)據(jù)報表絕不是擺設(shè),也不是應(yīng)付領(lǐng)導(dǎo)的提問,而是切實的為產(chǎn)品優(yōu)化和運營的開展服務(wù),正如產(chǎn)品人員的績效,不僅僅是看產(chǎn)品項目是否按時完成,按時發(fā)布,更是要持續(xù)進(jìn)行產(chǎn)品數(shù)據(jù)的觀測分析,評估產(chǎn)品健康度,同時將積累的數(shù)據(jù)應(yīng)用到產(chǎn)品設(shè)計和運營環(huán)節(jié),例如亞馬遜的個性化推薦產(chǎn)品,例如QQ音樂的猜你喜歡,例如淘寶的時光機,例如今日頭條的推薦閱讀等等。數(shù)據(jù)產(chǎn)品應(yīng)用,大致可以分為以下幾類:
(1)以效果廣告為代表的精準(zhǔn)營銷
推薦周期短,實時性要求高;用戶短期興趣和即時行為影響力大;投放場景上下文和訪問人群特性。
產(chǎn)品案例:谷歌、Facebook、微信朋友圈。
下圖是微信的用戶數(shù)據(jù)定向能力,可以從地域、性別年齡、手機、婚戀、學(xué)歷等多維度進(jìn)行用戶精準(zhǔn)定位:
微信朋友圈廣告,雖然很多人說買不起,但很多時候是你想不想買,隨著數(shù)據(jù)積累,廣告會越來越精準(zhǔn)。
(2)以音頻、視頻推薦為代表的內(nèi)容推薦
長期興趣的累積影響力大;時段和熱點事件;多維度內(nèi)容相關(guān)性很重要。
產(chǎn)品案例:Youtube、網(wǎng)易云音樂、抖音、QQ音樂
下圖是抖音給我推薦的小姐姐、馬云、風(fēng)景,大體符合我這個40歲大叔、互聯(lián)網(wǎng)從業(yè)者、旅游愛好者的喜歡。
(3)以電商推薦為代表的購物推薦
長期+短期興趣+即時行為綜合;最貼近現(xiàn)實,季節(jié)與用戶生活信息很關(guān)鍵;追求下單與成交,支付相關(guān)。
產(chǎn)品案例:亞馬遜、淘寶、京東。
下圖是淘寶給我的推薦,大致符合一個男性用戶、家有小朋友、喜歡戶外運動的用戶的產(chǎn)品推薦。
總結(jié)
最后,一張圖小結(jié)數(shù)據(jù)運營11步:
圖14 數(shù)據(jù)運營11步
從制訂產(chǎn)品目標(biāo)到最后基于目標(biāo)進(jìn)行產(chǎn)品評估與運營優(yōu)化,形成數(shù)據(jù)運營閉環(huán)。這個流程和規(guī)范,需要各個部門都能統(tǒng)一意識,每個產(chǎn)品終端都能按照規(guī)范流程將數(shù)據(jù)統(tǒng)一上報,建立公司級的統(tǒng)一數(shù)據(jù)中心,進(jìn)行數(shù)據(jù)倉庫建設(shè),才有可能將數(shù)據(jù)價值最大化,讓數(shù)據(jù)成為生產(chǎn)力。
再從組織落地方面小結(jié)產(chǎn)品數(shù)據(jù)運營體系構(gòu)建,可以從以下五大要素進(jìn)行考慮:
(1)人:專職的數(shù)據(jù)運營同事
專職的專業(yè)的產(chǎn)品同事,負(fù)責(zé)建立產(chǎn)品數(shù)據(jù)體系的流程化、標(biāo)準(zhǔn)化,沉淀經(jīng)驗,推動體系的持續(xù)優(yōu)化發(fā)展;專職的專業(yè)的開發(fā)同事,負(fù)責(zé)數(shù)據(jù)上報,報表開發(fā),數(shù)據(jù)庫開發(fā)維護(hù)等工作,保證產(chǎn)品數(shù)據(jù)體系的開發(fā)實現(xiàn)。
(2)數(shù)據(jù)后臺:全面系統(tǒng)的數(shù)據(jù)倉庫
有一個專門的統(tǒng)一數(shù)據(jù)倉庫記錄自己產(chǎn)品的特殊個性數(shù)據(jù),共性數(shù)據(jù)充分利用數(shù)據(jù)平臺部公用接口獲取,共享數(shù)據(jù)源,充分降低成本。
(3)數(shù)據(jù)前臺:固化數(shù)據(jù)體系展現(xiàn)平臺
需要專業(yè)的報表開發(fā)同事, 體系化思考報表系統(tǒng),靈活迭代執(zhí)行,而不是簡單的承接報表需求,造成報表泛濫。
(4)工作規(guī)范:需求實現(xiàn)流程化
就是前面描述的11步構(gòu)建產(chǎn)品數(shù)據(jù)體系的流程和方法,其中的數(shù)據(jù)需求把握好兩點,一是固化需求開發(fā)流程化,二是臨時需求工具化。
(5)工作產(chǎn)出:數(shù)據(jù)應(yīng)用
常規(guī)的數(shù)據(jù)工作就是各種數(shù)據(jù)分析,輸出日報、周報、月報;基于數(shù)據(jù)分析基礎(chǔ)上進(jìn)行決策依據(jù)提供。進(jìn)行數(shù)據(jù)產(chǎn)品開發(fā),例如精準(zhǔn)推薦、用戶生命周期管理等產(chǎn)品策劃。
以上內(nèi)容是我多年工作實踐的小結(jié),在此也感謝很多和我共事過的數(shù)據(jù)工作同事給了很多幫助:恭偉、暢波、春哥、夏聰、宇聞、志華、敬宓、小衛(wèi)、堅裕等。
#專欄作家#
Blues,微信公眾號:BLUEMIDOU,人人都是產(chǎn)品經(jīng)理專欄作家,迅雷產(chǎn)品總監(jiān),原YY語音、騰訊高級產(chǎn)品經(jīng)理。具有十年產(chǎn)品經(jīng)驗,多年產(chǎn)品講師經(jīng)驗。著名自媒體人,WeMedia自媒體聯(lián)盟成員,十佳自媒體人之一。擅長產(chǎn)品策劃、產(chǎn)品運營、數(shù)據(jù)分析、用戶研究、行業(yè)分析等。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
你想和Blues老師有更多關(guān)于進(jìn)階產(chǎn)品的面對面學(xué)習(xí)交流嗎?
在【產(chǎn)品總監(jiān)修煉之道】,Blues老師和其他三位來自騰訊、百度操盤過億級產(chǎn)品用戶的老師,將和你面對面分享高階產(chǎn)品系統(tǒng)知識,為你搭建產(chǎn)品總監(jiān)必備能力框架…….
想了解更多詳情?立即戳>>http://996.pm/z4bLB
也快可以聯(lián)系KK進(jìn)行咨詢哦~微信/TEL:13043462422
PS:除了咨詢問題,還能領(lǐng)取【產(chǎn)品總監(jiān)課程學(xué)習(xí)筆記】! ??
餐飲類app運營方案
怎么突然變白了,看不了了
我也是
又看到Blues老師了,厲害
謝謝分享,寫的很有指導(dǎo)意義,從源到果闡述問題,思路,方法。受教了!
面向一般運營有點深了,不過很有指導(dǎo)意義,謝謝。
很棒
太厲害了,看不懂??
經(jīng)驗豐富??
這個牛逼
真的是大師級別的
感謝!梳理得很清楚,謝謝!!
這么好的干貨 看到就是賺到啊
寫的很詳細(xì),感謝
干貨滿滿,謝謝!~