數(shù)據(jù)分析之前知道這 7 件事,少花 80% 時間

0 評論 3738 瀏覽 15 收藏 19 分鐘

編輯導語:在進行數(shù)據(jù)分析前,需要耗費不少的時間在數(shù)據(jù)的清洗過程中。那么,有什么方法可以提高數(shù)據(jù)清洗的效率?作者通過總結自己的工作經歷,分享了在數(shù)據(jù)分析之前你需要了解的7件事情,希望對你有所啟發(fā)。

寫在前面

在進行數(shù)據(jù)分析之前,常常需要耗費大量的心力在對數(shù)據(jù)的清洗過程,比如,需要針對缺失數(shù)據(jù)、重復數(shù)據(jù)或錯誤數(shù)據(jù)等等進行預處理。還有很多小伙伴,在沒想好想要獲取哪些數(shù)據(jù)來驗證何種假設的情況下,就貿然開展采集工作。這些都是在進入數(shù)據(jù)分析環(huán)節(jié)前,非常重要但很容易被忽略的問題。

如前美國首席數(shù)據(jù)科學家 DJ Patil 所說:“不過分的說:任何數(shù)據(jù)項目中 80% 的工作都在采集清理數(shù)據(jù)?!?/p>

為了更好的避免這類問題的出現(xiàn),在開展數(shù)據(jù)分析之前,需要圍繞在“問題的具體化描述”、“確立假設”中進行深入的剖析,這個時期的“慢即是快”。如果無法正確地定義問題、合理地拆解問題、抓住關鍵問題,后續(xù)的環(huán)節(jié)都是徒勞。

所以,正確的問題是指引你找到可靠解決的路標,而高質量的數(shù)據(jù)是數(shù)據(jù)分析的基石。我依據(jù)實際工作中的經歷,梳理了數(shù)據(jù)分析前你要知道的 7 件事,希望對你有所啟發(fā)。

以下,Enjoy~

通過本文,你可以了解:

  1. 5W1H 讓問題具體化
  2. 將商業(yè)思考拆解成可量化的數(shù)字
  3. 從假設出發(fā)采集數(shù)據(jù)
  4. 什么是第一、二、三方數(shù)據(jù)?
  5. 哪些是可以直接利用的數(shù)據(jù)?
  6. 結構化和非結構化數(shù)據(jù)有什么不同?
  7. 你采集的是好數(shù)據(jù)嗎?

一、5W1H 讓問題具體化,清晰需要采集什么數(shù)據(jù)

在所有的研究工作開始之前,厘清目標問題是什么,這是整個研究的核心。運用 5W1H (who -誰、when-時間、where-地點、what-什么事、why-為什么發(fā)生、how-如何發(fā)生),針對問題進行提問,有助于把問題具體化。

? 某預約管理 SaaS 公司:

  • Who:客戶是誰?- 線下服務業(yè)商戶Why:商戶為什么需要?- 有服務資源配置需求
  • Where:商戶在哪里使用?- 網頁、商戶小程序、線下門店等
  • When:商戶使用的階段?- 商戶的生命周期
  • What:商戶使用工具來做什么事?- 管理消費者預約動態(tài)
  • How:商戶怎么使用?- 注冊賬號 > 授權小程序 > 上架服務 > 發(fā)布小程序 > 銷售服務 > 核銷服務

以「某SaaS公司今年在線預約管理產品續(xù)費率下降」為背景思考應對策略,「續(xù)費率下降」只是問題呈現(xiàn)出來的結果,不能就這個結果設想解決方案,應該先思考,背后造成這個結果的原因有哪些可能,以及為什么。

如果你認為主要的原因是「商戶的員工不能迅速上手使用」,那么在經過上面分析后,可以重新整理為「是否因為在上手階段(when)缺少對商戶的使用指導(what),導致商戶不續(xù)費?」,讓問題更加具體。

通過具體的問題,才能運用數(shù)據(jù)分析來回答問題。當你懷疑「缺乏使用指導」與「續(xù)費率」有關時,就可以去觀察和收集客戶服務或客戶成功部門,在上手階段指導次數(shù)、工單提交次數(shù)等指標。

接著進行分析比較,觀察兩者走勢:比方從折線圖觀察,是否指導次數(shù)增加、老客戶的續(xù)費率也跟著增加?或者,即使指導次數(shù)增加,續(xù)費率率也沒有太大差異,藉此驗證假設是否正確。

二、將商業(yè)思考拆解成可量化的數(shù)字

數(shù)據(jù)分析的基礎功夫,來自于正確的問題。在提出問題時,要抱持著讓「問題」更具體、明確化的精神,試著將腦海中想到的問題,拆解成可量化的信息,培養(yǎng)數(shù)字導向的思維。

最近續(xù)費率下降,怎么辦?

1)最近:是哪段時期?與去年比,或與上個月、上星期比?

2)續(xù)費率:整體續(xù)費率,或者特定產品線續(xù)費率?還是增值模塊續(xù)費率?

3)下降:同業(yè)續(xù)費率變化程度為何?下降幅度是多少?

4)怎么辦:哪個部門、哪個環(huán)節(jié)可以做哪些改善?

可能是商戶缺乏指導很難上手使用。

1)商戶:指的是多大比例的商戶?是流失的客群嗎?還是特定行業(yè)的商戶?

2)缺乏指導:在什么階段缺乏指導?是缺乏圖文類型、視頻類型還是人工客服類型的指導?

3)很難:是和其他 SaaS 工具相比嗎?還是和預約類的工具比?還是超過 30 分鐘就算久?

4)上手使用:指的是完成服務上架?還是完成小程序發(fā)布?還是消費者到店核銷才算上手使用?還是營銷、推廣、拓客?

三、從假設出發(fā)采集數(shù)據(jù)

“大膽假設,小心求證”,是進行數(shù)據(jù)分析研究的基本模式。很多時候,有了假設需要進行求證的過程中,現(xiàn)有數(shù)據(jù)可能無法提供所需視角厘清問題,或者數(shù)據(jù)相對有限,需要采集新維度數(shù)據(jù)。又或者收集的樣本存在異常,不一定在一次分析就能找到其中的關聯(lián)。

哪怕做了分析后發(fā)現(xiàn)原假設與問題不存在關聯(lián),這也是一種有效的分析,畢竟你排除了一種可能,對于你進行假設的修改,逼近核心問題都是有助益的。一次就把問題解決,需要依賴的不僅僅是專業(yè)的知識儲備,有的時候運氣也是很重要的因素。

《簡單用數(shù)據(jù),做出好決策》表示,很多人以為,觀察現(xiàn)有數(shù)據(jù)就能能提出假設,但最佳來源是在業(yè)務一線的人,比如,產品經理、客服與銷售人員。因為他們是在決策方針之下,實際行動的人。

在進行假設確立前,最好能號召到所有利害關系人,召開頭腦風暴會議,分享他們認為什么原因會造成目前的狀況,在這個階段,目標是要產生出好幾個可能的假設。

四、什么是第一、二、三方數(shù)據(jù)?

在《普華永道全零售調查》報告中指出,與其他國家消費者相比,中國消費者更多地通過各種數(shù)字化方式與零售商進行互動。和其他國家的消費者一樣的是,中國消費者也展現(xiàn)出了非線性的消費行為,在各種渠道之間不斷切換以尋求便利性、一致性,增加選擇面和可及性。

在復雜商業(yè)環(huán)境中,企業(yè)采集數(shù)據(jù)的方式不能像從前只記錄自己手中的數(shù)據(jù)。在原本各直營渠道的互動數(shù)據(jù)整合、存儲和分析的基礎上,還要觀察消費者在合作渠道中的消費行為,以及在其他渠道中是否展現(xiàn)出對品牌的興趣,才能清楚掌握用戶畫像。更了解消費者,才有機會對客戶進一步細分,提供個性化解決方案。

這些類型的數(shù)據(jù),就是數(shù)據(jù)分析中常提到的第一方、第二方與第三方數(shù)據(jù)。

1)第一方數(shù)據(jù)。是企業(yè)直接從消費者采集而來的數(shù)據(jù),此類數(shù)據(jù)具備高度精確性和相關性,但通常缺乏規(guī)模。

一般會包括客戶關系數(shù)據(jù),聯(lián)絡資料、手機號碼、電子郵箱等,也包括用戶在網站或應用程序上的行為數(shù)據(jù),訪問時間、頻率與停留時間,以及社交媒體數(shù)據(jù)、客戶反饋等。

2)第二方數(shù)據(jù)。是與合作伙伴交換、彼此共用的第一方數(shù)據(jù)。此類可以彌補第一方數(shù)據(jù)無法獲得的信息和見解,由于數(shù)據(jù)來源多元,數(shù)據(jù)也更具備解釋力。

比如,你把產品上架到淘寶、京東等電商平臺,你可以通過店鋪平臺提供的管理后臺觀察客戶在電商平臺上的購買數(shù)據(jù),如客戶特性、購買產品組合等等,以此優(yōu)化自身產品。簡單說就是合作對象給你提供的二手數(shù)據(jù)。

3)第三方數(shù)據(jù)。是從外部獲得的數(shù)據(jù)來源(可以是免費或付費獲得),非數(shù)據(jù)原始采集者。此類數(shù)據(jù)在企業(yè)想要擴展目標客群時,可以提供非常重要的參考意見。

一般會包括像是投放網絡廣告,取得潛在消費者對品牌的關注數(shù)據(jù),購買現(xiàn)成的數(shù)據(jù)庫,或者在統(tǒng)計局或行研報告免費下載等等。從各方采集可以補充第一、第二方數(shù)據(jù),但用戶畫像也相對不精準。

五、哪些是我可以直接利用的數(shù)據(jù)?

現(xiàn)在物聯(lián)網的快速發(fā)展,很多基礎數(shù)據(jù)采集工作無須經由人工,通過機器設定采集任務就可以自動記錄,如此長時間的沉淀就會產生海量的數(shù)據(jù)。比如,iPhone 記錄每日 App 使用量、Wacth 記錄心率和睡眠、信用卡記錄消費、滴滴記錄打車情況等等。

對于企業(yè)來說,可以根據(jù)自己的業(yè)務需要,進行常規(guī)的數(shù)據(jù)自動化采集計劃,長時間監(jiān)測消費者的喜好和消費行為數(shù)據(jù)。

  • 像有些商家會在門店出、入口安裝攝像頭,消費者在進、出店的瞬間,攝像頭就已經及時抓拍消費者并自動生成一個新的 ID,記錄消費者進、出店的時間。
  • 同時還可以記錄消費者進店頻次、消費總額、客單價、常購商品等信息。
  • 還有企業(yè)開給客戶的發(fā)票明細,清楚記載消費者的購買時間、會員等級、產品項目與類別、結賬方式等。

這類型常規(guī)數(shù)據(jù),基本可以直接使用。也可以與其他數(shù)據(jù)進行交叉比對,洞察理解消費者的重要信息。

另外,在《用數(shù)字做決策的思考術》一書中,將采集數(shù)據(jù)的方法分為采集世界上既存數(shù)據(jù)與世界上尚不存在的數(shù)據(jù)。搜尋既存數(shù)據(jù),可以透過網絡、數(shù)據(jù)庫與研究報告,再藉由具有產業(yè)經驗的人過濾值得信賴的信息。若沒有相關人員,可以參考官方機構或學術資料,作為分析依據(jù)。

至于搜尋不存在的數(shù)據(jù),就需要透過親身觀察與詢問,像是直接觀察消費者的購買行為、詢問消費者對于新口味的滿意度,也可以通過焦點訪談、發(fā)放問卷的形式了解客戶的聲音(VoC)。

六、結構化和非結構化數(shù)據(jù)有什么不同?

區(qū)別于采集數(shù)據(jù)的原始歸屬,在數(shù)據(jù)采集到統(tǒng)一的集成數(shù)據(jù)管理平臺(DMP)后,可以采用“企業(yè)內部和外部”、“結構化與非結構化” 4 種組合進行數(shù)據(jù)類型區(qū)分,識別數(shù)據(jù)的可用性。

1)企業(yè)內部的結構化數(shù)據(jù)。是指企業(yè)自有、可用數(shù)值量化表現(xiàn)的數(shù)據(jù)。比如今年總營收 = 30萬、客單價 = 700元/人、整體退貨率 = 7% 等等。

2)企業(yè)內部的非結構化數(shù)據(jù)。一般表現(xiàn)為視頻、音頻、圖片、圖像、文檔、文本等文件系統(tǒng)中的信息,屬于難以單純用數(shù)值量化表達的信息,需要經過整理才能分門別類。比如,包含業(yè)務銷售經驗、客戶常見問題等等。

3)外部的結構化數(shù)據(jù)。這些數(shù)據(jù)同樣具備用數(shù)值量化表現(xiàn),差別是企業(yè)并不直接擁有這些數(shù)據(jù)。比如,在百度投放廣告的曝光量、在知乎發(fā)布文章的閱讀量等等。

4)外部的非結構化數(shù)據(jù)。這些數(shù)據(jù)一般以企業(yè)主體的名義在其他平臺運營過程中產生。比如,在淘寶平臺上商品的評價、微博上用戶的評論、產品的口碑、用戶自行錄制的開箱視頻等等。

七、你收集的是好數(shù)據(jù)嗎?

在統(tǒng)計學里,數(shù)據(jù)分為內部效度和外部效度,前者指數(shù)據(jù)能否反應研究領域的狀況,即是否具有內部代表性;后者是指能否把結果推論到其他人或其他環(huán)境中,也就是研究結果的普遍性。唯有數(shù)據(jù)具有內外部效度,才代表數(shù)據(jù)采集過程正確,而且適用在其他領域。

1) 缺乏內部效度

新品發(fā)布時,只調查營銷部門的想法。

應調查各業(yè)務單位,并依照部門人數(shù)比例,隨機抽取調查意見。

2)缺乏外部效度

新品上市后無法滿足客戶期待。

留意在內部調查時,是否具備足夠多元性。

數(shù)據(jù)不怕少,主要怕不好。

在日常收集數(shù)據(jù)的過程中,有時候需要數(shù)據(jù)具備時效性,過時的數(shù)據(jù)無法驗證新時期的問題。有時候會因為隱私問題或者收集渠道問題,會收集到不完整的數(shù)據(jù),條件允許就需要想辦法補全。

對于量性可以采取策略性補值,比如,平均數(shù)。如果數(shù)據(jù)樣本足夠大,亦可選擇直接刪除。但在數(shù)據(jù)樣本規(guī)模小,且屬于稀缺數(shù)據(jù)的情況下,就要想盡一些辦法利用。

還有采集到不規(guī)則或異質性的數(shù)據(jù)時,需要謹慎甄別,先從采集統(tǒng)計口徑切入,了解具體數(shù)據(jù)的定義和計算方法,要不結果會產生極大的差異,導致決策失誤。

寫在最后

在數(shù)據(jù)分析的語境中,保持客觀、批判性的視角是開始工作的必要條件。通過找到正確的問題,恰當?shù)乇硎鰡栴}、理解這些結果與業(yè)務的關系以及推導結論的研究過程和假設,是落地分析工作的充分條件。

藉由數(shù)據(jù)采集前多方面保障數(shù)據(jù)的真實性、有效性、時效性和一致性,可以在真正進入分析階段時,有更大可能性找到問題表征背后的“推手”。

還是那句話,前期的“慢即是快”,在數(shù)據(jù)分析之前,多思考,不厭其煩的假設、驗證、修正,自然會找到數(shù)字背后真正的意義。

所以,開始數(shù)據(jù)分析前,先問問自己:

  1. 我清楚理解問題了嗎?
  2. ?我把問題拆解成可量化的數(shù)字了嗎?
  3. ?我想要驗證哪些假設?
  4. ?我可以從哪里獲取數(shù)據(jù)?
  5. ?我可以怎么歸類數(shù)據(jù)?
  6. ?我可以怎么處理結構化程度不同的數(shù)據(jù)?
  7. ?我采集的數(shù)據(jù)是好數(shù)據(jù)嗎?

#專欄作家#

龍國富,公眾號:龍國富,人人都是產品經理專欄作家,人因工程碩士。致力于終身學習和自我提升,分享用戶研究、客戶體驗、服務科學等領域資訊,觀點和個人見解。

本文原創(chuàng)發(fā)布于人人都是產品經理,未經授權,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!