以【丁香醫(yī)生新冠肺炎疫情地圖】為例,拆解數(shù)據(jù)分析5步法
從疫情爆發(fā)到現(xiàn)在,你是不是也跟我一樣,每天起床都要點(diǎn)開(kāi)丁香醫(yī)生,看一下疫情最新情況?截止現(xiàn)在,丁香醫(yī)生疫情地圖被瀏覽27億次。如此火爆的背后,丁香醫(yī)生的項(xiàng)目有沒(méi)有借鑒性呢?本文以疫情地圖為例,來(lái)講講數(shù)據(jù)分析師做項(xiàng)目的思路。
我將項(xiàng)目分析總結(jié)為五步法:數(shù)據(jù)收集、定義問(wèn)題、數(shù)據(jù)清洗、數(shù)據(jù)分析、輸出報(bào)告。今天我將對(duì)每一步進(jìn)行業(yè)務(wù)上的拆解。
數(shù)據(jù)分析五步法
一、定義問(wèn)題
分析的重中之重是定義問(wèn)題。這個(gè)項(xiàng)目的需求是什么?想達(dá)到的效果是什么?
丁香醫(yī)生想做一款實(shí)時(shí)更新疫情數(shù)據(jù)的產(chǎn)品,方便用戶了解實(shí)時(shí)疫情動(dòng)態(tài)。
那用戶是誰(shuí)?用戶最關(guān)心什么?
丁香醫(yī)生的用戶是老百姓,咱老百姓最關(guān)心的呢,是今天又確診多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向發(fā)展……
依照《精益數(shù)據(jù)分析》提出的“第一關(guān)鍵指標(biāo)法”,我們提煉出關(guān)鍵指標(biāo):確診人數(shù)、疑似人數(shù)、死亡人數(shù)、治愈人數(shù)。
關(guān)鍵指標(biāo)
同時(shí),咱老百姓除了想知道整個(gè)疫情發(fā)展,也很關(guān)心自己城市的情況,因此將關(guān)鍵指標(biāo)按省份、城市細(xì)分。疫情地圖就包含了全國(guó)確診人數(shù)熱力圖,各省、各市的關(guān)鍵指標(biāo)。
各省份、城市關(guān)鍵指標(biāo)
二、數(shù)據(jù)采集
數(shù)據(jù)真實(shí)可信是數(shù)據(jù)分析的前提。丁香醫(yī)生的數(shù)據(jù)來(lái)源于國(guó)家衛(wèi)健委、各省市衛(wèi)健委、各省市政府、港澳臺(tái)等官方渠道,來(lái)源權(quán)威。
咱們數(shù)據(jù)分析師日常怎么收集數(shù)據(jù)呢?
- 內(nèi)部數(shù)據(jù):天天需要。公司把數(shù)據(jù)存放在自家服務(wù)器或阿里云等第三方平臺(tái),通過(guò)SQL獲取。
- 外部數(shù)據(jù):也很重要,較難獲取。可以用國(guó)家統(tǒng)計(jì)局、中國(guó)人民銀行等公布的數(shù)據(jù);使用第三方數(shù)據(jù)庫(kù),如萬(wàn)德、國(guó)泰安、銳思等數(shù)據(jù)庫(kù)下載數(shù)據(jù);或使用爬蟲(chóng),爬到自己想要的數(shù)據(jù)。
三、數(shù)據(jù)清洗
數(shù)據(jù)清洗幾乎占用數(shù)據(jù)分析師80%的時(shí)間。在這里,丁香醫(yī)生主要涉及去重和口徑一致。
(1)去重
上面收集來(lái)的數(shù)據(jù),各個(gè)渠道會(huì)不會(huì)重復(fù)統(tǒng)計(jì)呢?比如國(guó)家衛(wèi)健委、省衛(wèi)健委和省政府公布的數(shù)據(jù)中,肯定有重復(fù)部分,需要我們?nèi)サ糁貜?fù)值。
丁香醫(yī)生也曾重復(fù)統(tǒng)計(jì)過(guò),導(dǎo)致新增確診人數(shù)變多,不過(guò)很快糾正了。
(2)口徑一致
報(bào)表上線后,口徑變化是大忌。2月12日,確診口徑由單一核酸檢測(cè),新加入臨床診斷,確診人數(shù)大增,一下多了1萬(wàn)多人。
如果是數(shù)據(jù)分析師隨意調(diào)整統(tǒng)計(jì)口徑,那就要背鍋?zhàn)呷肆?;如果是老板要改口徑,?shù)據(jù)分析師就得想想該怎么妥善處理了。
丁香醫(yī)生是怎么做的呢?
當(dāng)日確診人數(shù)爆增,丁香醫(yī)生用虛線表示增長(zhǎng),并且右上方備注“臨床診斷病例的影響”。這樣做既反映了真實(shí)情況,也解釋了因統(tǒng)計(jì)口徑變化,導(dǎo)致數(shù)據(jù)異常增長(zhǎng)。
口徑變化導(dǎo)致的激增
四、數(shù)據(jù)分析
數(shù)據(jù)收集和清洗是基本能力,數(shù)據(jù)分析才是核心競(jìng)爭(zhēng)力。
我們?cè)谒伎加檬裁粗笜?biāo)來(lái)做分析時(shí),可以參考《精益數(shù)據(jù)分析》里,關(guān)于“什么是好的數(shù)據(jù)指標(biāo)”的總結(jié):
- 好的數(shù)據(jù)指標(biāo)是比較性的(較昨日、新增疑似、新增確診……);
- 好的數(shù)據(jù)指標(biāo)是簡(jiǎn)單易懂的(確診、死亡、治愈……);
- 好的數(shù)據(jù)指標(biāo)是一個(gè)比率(病死率=死亡人數(shù)/確診人數(shù)、治愈率=治愈人數(shù)/確診人數(shù));
- 好的數(shù)據(jù)指標(biāo)會(huì)改變行為(通過(guò)新增確診走勢(shì),了解疫情是否正在緩解,指定方針)。
由于丁香醫(yī)生疫情地圖產(chǎn)品,只向大家展現(xiàn)客觀數(shù)據(jù),沒(méi)有輸出具體的主觀結(jié)論。但我們?nèi)匀豢梢愿鶕?jù)丁香醫(yī)生的指標(biāo)的和圖表,對(duì)疫情發(fā)展情況作出判斷。
1. 趨勢(shì)變化
由新增趨勢(shì)圖,可以看到,新增確診病例在2月12日修改統(tǒng)計(jì)口徑后,逐漸下降,新增疑似病例在2月5日后逐漸下降。
由現(xiàn)存疑似、確診趨勢(shì)圖,可以看到,現(xiàn)存確診病例從1月19日-2月12日,呈陡峭的直線上升,在2月16日到達(dá)峰值以后,逐漸下降,現(xiàn)存疑似在2月8日到達(dá)峰值后逐漸下降。
全國(guó)疫情新增、現(xiàn)存趨勢(shì)圖
因?yàn)楹笔亲顕?yán)重的受災(zāi)區(qū),會(huì)嚴(yán)重拉高其他省市的數(shù)據(jù),因此需要特殊對(duì)待。
湖北新增確診病例2月12日暴增1.5萬(wàn)以后,逐漸下跌,最近幾日都維持在新增400人的水平,非湖北新增確診病例在2月3日之前劇烈增長(zhǎng),2月3日武漢及周邊城市封城、大家不外出聚集以后,逐漸下降,最近幾日維持在兩位數(shù)甚至個(gè)位數(shù)。
湖北、非湖北新增趨勢(shì)圖
2. 比率
知道了每天的新增情況,咱老百姓還關(guān)心,這個(gè)新型冠狀肺炎厲不厲害,死亡率高不高啊?
丁香醫(yī)生針對(duì)這一需求,又設(shè)計(jì)了病死率趨勢(shì)圖和治愈率趨勢(shì)圖。同樣由于湖北是集中爆發(fā)區(qū),將湖北和非湖北分別對(duì)待。
病死率、治愈率趨勢(shì)圖
五、輸出報(bào)告
終于到了輸出環(huán)節(jié),丁香醫(yī)生最新的版本做得非常好,我們以后做可視化產(chǎn)品時(shí),完全可以借鑒板塊的劃分。
全國(guó)關(guān)鍵指標(biāo)、較昨日變化情況、分省市統(tǒng)計(jì)關(guān)鍵指標(biāo)、變化趨勢(shì)、病死率和治愈率等。老百姓關(guān)注的點(diǎn)幾乎都涵蓋在里面。
丁香醫(yī)生疫情地圖版本也是一步步迭代來(lái),我們來(lái)看一下修改前,和修改后的對(duì)比圖。
修改前后對(duì)比圖1,增加了更多指標(biāo)和環(huán)比數(shù)據(jù)
初版地圖,只有當(dāng)日累計(jì)數(shù)值,修改后增加了“較昨日”的變化數(shù)據(jù);初版只包含確診、疑似、死亡和治愈4個(gè)指標(biāo),修改后增加了現(xiàn)存確診、現(xiàn)存疑似、現(xiàn)存重癥等指標(biāo)。
修改前后對(duì)比圖2,數(shù)據(jù)表格化,維度進(jìn)一步細(xì)分
修改前,按省份的關(guān)鍵指標(biāo)沒(méi)有細(xì)分到城市,我們其實(shí)更關(guān)心自己城市的數(shù)據(jù)。修改后采用折疊的形式,閱讀舒適度非常好。
修改前后對(duì)比圖3,不同數(shù)量級(jí)指標(biāo)分圖展示
初版將確診、疑似、死亡和治愈放到一起,由于確診和死亡人數(shù)不在一個(gè)數(shù)量級(jí),導(dǎo)致死亡人數(shù)的趨勢(shì)無(wú)法直觀表達(dá)出來(lái),修改后將新增、現(xiàn)存、死亡和治愈分別列出,更能各自反映變化趨勢(shì)。
報(bào)告首先呈現(xiàn)的一定是大家最關(guān)心的結(jié)論(確診、疑似、死亡、治愈),其次是對(duì)結(jié)果的拆解分析,包含指標(biāo)的拆解(現(xiàn)存確診=昨日確診+新增確診-昨日死亡-昨日治愈)和維度(按省市拆關(guān)鍵指標(biāo))的拆分兩方面,最后才可能加上一些個(gè)人分析(疫情什么時(shí)候會(huì)變好)。
本文總結(jié)
“疫情地圖案例”基本符合數(shù)據(jù)分析五步法的套路。
數(shù)據(jù)分析一定要在數(shù)據(jù)準(zhǔn)確的基礎(chǔ)上進(jìn)行,數(shù)據(jù)分析=80%清洗+20%分析。
從權(quán)健到疫情地圖,丁香醫(yī)生抓熱點(diǎn)聲名大噪的故事值得小伙伴借鑒。
初版的體系搭建、報(bào)告輸出、可視化展示都是不成熟的,需要進(jìn)行多輪迭代。
作者:小曾曾; 公眾號(hào):曾哥數(shù)據(jù)分析
本文由 @小曾曾 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
先收藏