如何運行數(shù)據(jù)可視化項目

0 評論 4059 瀏覽 10 收藏 12 分鐘

編輯導讀:產(chǎn)品每天都會產(chǎn)生海量的數(shù)據(jù),將這雜亂的數(shù)據(jù)用圖表或者動畫等可視化的方式展現(xiàn)出來,提升可讀性。那么,如何運行一個數(shù)據(jù)可視化項目呢?本文作者從自身工作經(jīng)歷出發(fā),對此進行分析,希望對你有幫助。

每個數(shù)據(jù)可視化項目都始于需求,無論需求來自問題還是決策,每個項目都有特定的流程。首先,每個項目都需要數(shù)據(jù)進行可視化。在每個數(shù)據(jù)可視化項目中,都需要考慮許多因素來最大程度地降低風險并確保項目成功。

本文將解釋其中的許多概念以及可用于特定類型業(yè)務的一些用例。探索的關鍵主題之一是風險,因為在決定使用哪些數(shù)據(jù)以及特定圖表類型如何最好地表征數(shù)據(jù)時,最小化風險是一個關鍵因素。除了風險之外,團隊還可能面臨與數(shù)據(jù)無關的某些限制。需要考慮團隊中的人員和技能,因為這可能會限制可視化可以呈現(xiàn)給哪些受眾。

在設計數(shù)據(jù)分析項目時,我們常常想知道首先從哪里開始?從數(shù)據(jù)收集、清理、探索、分析和可視化,需要做很多工作才能獲得對業(yè)務可操作且有利可圖的洞察力。

步驟 1:了解業(yè)務問題

在項目開始時,重點是清楚了解工作的整體范圍、業(yè)務目標、利益相關者正在尋求的信息、他們希望你使用的分析類型以及關鍵的可交付成果。在開始分析之前定義這些元素很重要,因為它有助于提供更好的洞察力。此外,一開始就搞清楚很重要,因為在項目完成之前可能沒有另一個提問的機會。

步驟 2:了解數(shù)據(jù)集

此階段從初始數(shù)據(jù)收集開始,然后進行數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)探索等活動,以發(fā)現(xiàn)對數(shù)據(jù)的初步見解,或檢測有趣的子集以形成隱藏信息的假設。我們可以使用多種工具來理解數(shù)據(jù)。根據(jù)數(shù)據(jù)集的大小,我們可以使用 Excel 來管理可管理的數(shù)據(jù)集,或者使用更嚴格的工具,如 R、Python、Alteryx、Tableau Prep 或 Tableau Desktop 來探索和準備數(shù)據(jù)以供進一步分析。

要記住的關鍵事項是確定關鍵變量以研究數(shù)據(jù)、查找錯誤(遺漏的數(shù)據(jù)、邏輯上沒有意義的數(shù)據(jù)、重復的行,甚至拼寫錯誤)或任何需要修改的缺失變量所以我們可以正確地清理數(shù)據(jù)。

重要的是要注意,在企業(yè)/業(yè)務環(huán)境中工作時,讓對源系統(tǒng)具有敏銳知識的人員(例如 DBA)參與進來會有所幫助,他們可以幫助理解和提取數(shù)據(jù)。

步驟 3:數(shù)據(jù)準備

一旦組織了數(shù)據(jù)并確定了所有關鍵變量,我們就可以開始清理數(shù)據(jù)集。在這里,我們將處理缺失值(替換為均值、刪除行或替換為最符合邏輯的值)、創(chuàng)建新變量以幫助對數(shù)據(jù)進行分類并刪除重復項。數(shù)據(jù)準備任務可能會執(zhí)行多次,并且沒有任何規(guī)定的順序。在此步驟之后,最終數(shù)據(jù)集已準備好輸入建模工具進行進一步分析。

從業(yè)務角度來看,在整個數(shù)據(jù)準備過程中,需要不斷加深對數(shù)據(jù)結構、內(nèi)容、關系和派生規(guī)則的理解。必須驗證數(shù)據(jù)是否處于可用狀態(tài),并且可以管理其缺陷,并了解將其轉(zhuǎn)換為用于報告和可視化的有用數(shù)據(jù)集需要什么。在這種情況下,利用數(shù)據(jù)剖析可以幫助探索企業(yè)源系統(tǒng)中的實際內(nèi)容和關系。數(shù)據(jù)分析可以像編寫一些 SQL 語句一樣簡單,也可以像專用工具一樣復雜。例如,Tableau 的數(shù)據(jù)準備是用于分析小型項目數(shù)據(jù)的絕佳工具。對于企業(yè),很多ETL供應商提供了多種工具,可以根據(jù)業(yè)務的需要和預算進行選擇。

步驟 4:建模

在這一步中,我們將使用各種建模技術來測試數(shù)據(jù)并尋找給定目標的答案。通常,同一數(shù)據(jù)挖掘問題類型有多種技術,對數(shù)據(jù)形式有一些特定要求。常見模型包括線性回歸、決策樹和隨機建模等。

步驟 5:驗證

一旦我們完成構建模型(或多個模型)并進行最終部署,就必須徹底評估模型并審查構建模型所執(zhí)行的步驟,以確保其正確實現(xiàn)業(yè)務目標。模型是否正常工作?數(shù)據(jù)是否需要更多清洗?你找到客戶想要回答的結果了嗎?如果沒有,可能需要再次執(zhí)行前面的步驟。

在此步驟中,關鍵是確定問題、定義、轉(zhuǎn)換規(guī)則和數(shù)據(jù)質(zhì)量挑戰(zhàn),并將其記錄下來以備將來參考。從商業(yè)角度來看,這樣的文檔對于未來的用戶很有用。維護問題列表并驗證數(shù)據(jù)驗證期間面臨的新問題可以顯著提高項目質(zhì)量,并有助于擴大未來改進的范圍并定義業(yè)務的基礎設施需求。

步驟 6:可視化

模型的創(chuàng)建通常不是項目的結束。即使模型的目的是增加對數(shù)據(jù)的了解,也需要以對客戶有用的方式組織和呈現(xiàn)派生的信息。根據(jù)要求,此步驟可以像生成報告一樣簡單,也可以像實施可重復的數(shù)據(jù)評分(例如段分配)或數(shù)據(jù)挖掘過程一樣復雜。

在許多情況下,數(shù)據(jù)可視化對于將你的發(fā)現(xiàn)傳達給客戶至關重要。并非所有客戶都精通數(shù)據(jù),而 EasyV、Tableau 等交互式可視化工具對于向客戶說明你的結論非常有用,能夠用你的數(shù)據(jù)講故事,有助于向客戶解釋你的發(fā)現(xiàn)的價值。

與任何其他項目一樣,清楚地確定業(yè)務目標很重要。將流程分解為多個步驟將確保我們?yōu)榭蛻籼峁┳詈玫目山桓冻晒?/p>

第 7 步:文檔

數(shù)據(jù)可視化項目中步驟的一個重要補充是文檔。與課堂上完成的項目類似,該文檔應簡要描述項目、數(shù)據(jù)來源、數(shù)據(jù)概況和質(zhì)量、數(shù)據(jù)的局限性或在數(shù)據(jù)使用過程中出現(xiàn)的情況、引入的關鍵轉(zhuǎn)換和模型及其影響或有用性,提高可視化質(zhì)量。最后,本文檔還應注意在處理數(shù)據(jù)或創(chuàng)建可在未來解決的特定可視化時遇到的問題。

數(shù)據(jù)可視化項目流程概述:

在啟動任何項目之前,最重要的是讓合適的參與者參與進來。這些參與者可以是委托數(shù)據(jù)可視化項目的企業(yè)主或?qū)⒎e極使用數(shù)據(jù)可視化的主要利益相關者。業(yè)務代表的參與對于首先確定項目需求并實現(xiàn)需求和成功定義的共同點最為重要。參與和協(xié)作極大地增加了由此產(chǎn)生的可視化解決業(yè)務需求的可能性。同樣,組織的數(shù)據(jù)用戶也應該參與其中,尤其是在討論他們負責管理的數(shù)據(jù)時。創(chuàng)建數(shù)據(jù)可視化應該是一個高度迭代和動態(tài)的過程。

從數(shù)據(jù)可視化中尋找洞察力:

可視化能夠發(fā)現(xiàn)模式和洞察力,這些模式和洞察力可能是已知的和顯而易見的,也可能是新的和出乎意料的。人們應該尋求可用于講故事的見解,而不僅僅是期望可視化本身來說明一個故事。洞察力可以代表不同的事物,例如故事的開頭或數(shù)據(jù)中的錯誤,因此,為了確保從數(shù)據(jù)和可視化中找到洞察力的有效方法,以下步驟很有幫助并且可以重復。

1.可視化允許對數(shù)據(jù)集進行獨特的處理,并且可以通過多種不同的方式完成,例如圖表、表格、地圖和圖形。例如,轉(zhuǎn)發(fā)的信息應該提供有助于查看者做出商業(yè)決策的寶貴見解。帳戶規(guī)劃領域的領導者喬恩·斯蒂爾 (Jon Steel) 對查看和理解數(shù)據(jù)表示以下看法:“在廣告公司的背景下,規(guī)劃人員與其他人一樣查看相同信息并看到不同內(nèi)容的能力是無價的。他們需要能夠獲取各種信息,將其隨機排列,并以新的模式重新排列,直到出現(xiàn)有趣的東西。”良好的數(shù)據(jù)可視化不僅能傳達可操作的信息,還能幫助您看到其他人可能看不到的東西。

2.分析和解釋所看到的。在此步驟中,問自己以下問題:我可以在這張圖片中看到什么?是我的預期嗎?有什么有趣的圖案嗎?這在數(shù)據(jù)上下文中意味著什么?這些問題不僅可以幫助你在可視化中找到意義,而且還可以向你表明,盡管可視化看起來不錯,但可視化并沒有告訴你與數(shù)據(jù)相關的任何內(nèi)容。

3.記錄見解和步驟。這一步的記錄可以在你查看數(shù)據(jù)之前開始。通常,我們在開始使用數(shù)據(jù)集之前對數(shù)據(jù)集有期望和假設,并且選擇特定數(shù)據(jù)是有原因的。這些想法可以被記錄下來,讓我們能夠識別我們的先入之見,并通過找到我們預期的東西來降低誤讀數(shù)據(jù)的風險。文檔是最關鍵但也是最容易被跳過的步驟。文檔提供了創(chuàng)建圖表的上下文,從而消除了查看多組圖表時可能出現(xiàn)的任何混淆。記錄時需要注意的一些事項包括: 為什么我創(chuàng)建了這個圖表?我對數(shù)據(jù)做了什么來創(chuàng)建它?這張圖表告訴我什么?

4.轉(zhuǎn)換數(shù)據(jù)集。此步驟允許探索更多模式和發(fā)現(xiàn)。根據(jù)先前步驟形成的見解,可能會出現(xiàn)更多有關數(shù)據(jù)或發(fā)現(xiàn)的問題,并且可能需要進一步檢查或分析。這可以通過諸如縮放(將數(shù)據(jù)點聚合為單個組)、過濾和異常值去除等轉(zhuǎn)換來完成。

 

本文由 @阿木木 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!