統(tǒng)計數(shù)據(jù)背后的真相 — 讀《How to lie with statistics》
![](http://image.woshipm.com/wp-files/img/34.jpg)
在當今互聯(lián)網(wǎng)普及的社會中,幾乎每一個人都會和統(tǒng)計數(shù)字接觸,例如各種經(jīng)濟數(shù)據(jù)、證券信息、房地產(chǎn)投資可行性報告、公司財務報告、以及與互聯(lián)網(wǎng)相關的各種頁面數(shù)據(jù)點擊量、網(wǎng)頁流量、用戶量統(tǒng)計、用戶趨勢分析報告等;數(shù)據(jù)分析正在以從未想象過的方式影響著我們的生活;然而大量的統(tǒng)計數(shù)據(jù)、統(tǒng)計資料由于主、客觀的原因被濫用,很難起到描述事實、傳遞信息的作用,相反,往往還對讀者形成誤導,與此同時帶來的問題是越來越多的人員會通過數(shù)據(jù)造假來蒙蔽對數(shù)據(jù)知識不是特別了解的人員,從而達到他們背后的目的;所以當我們在面對這些真假難分的數(shù)據(jù)時,我們又該如何去鑒別?
在之前讀過的《How to lie with statistics》一書中提到當我們接觸一個統(tǒng)計資料時,提5個簡單的問題可分辨大部分的統(tǒng)計資料,分別是:誰說的,他是如何知道的,遺漏了什么,是否有人偷換了概念以及這個資料有意義嗎。
誰說的?
經(jīng)常會遇到利用數(shù)據(jù)圖表進行問題說明的情況,這時我們往往會關注于這些數(shù)據(jù)到底是什么意思而忽略這些數(shù)據(jù)的來源和它的時效性。當遇到數(shù)據(jù)的來源是某權威人士、權威機構時,這些話往往是為了掩蓋真實的資料來源。有些數(shù)據(jù)圖表雖然確實引用了權威的數(shù)據(jù),但是很有可能的是別有用心的只截取了其中的一部分數(shù)據(jù),雖然數(shù)據(jù)是權威可信的,但結論卻是自己加的,以偏概全的結果是得到與原來數(shù)據(jù)完全相反的結論。另外當在問數(shù)據(jù)來源時,一定要補上問一句這是什么時候的數(shù)據(jù)了;數(shù)據(jù)是非常具有時效性的,如果用之前的數(shù)據(jù)來解釋當前的現(xiàn)象,也會造成錯誤的結論。
比如下面這兩個圖表是前后相隔半年針對圖片軟件使用情況所做的調(diào)查,可以看到變化很大;假如我們也要做一款全新的圖片軟件,參考這兩張不同時間的調(diào)查圖表可能會導致產(chǎn)品定位的截然不同。
所以當我們在看到一個統(tǒng)計圖表的時候,首先要想這個圖表是從哪里來的,是什么時候的圖表,我們應該問一句:“誰說的?”接著我們應該接著我們還應追加第二個問題:他是如何知道的?
他是如何知道的?
主要是看這些數(shù)據(jù)是怎么得到的,也就是調(diào)查的樣本是否足夠大,樣本是否有偏,調(diào)查的人群是否涵蓋了所有的用戶。
下面是兩張針對播放器用戶所做的亮點功能調(diào)查,一個是樣本量100的結果,一個是樣本量2000的結果,在樣本量不一樣時結果差異會很大。
在互聯(lián)網(wǎng)產(chǎn)品設計中,還有一個比較常見的問題是,當遇到一個設計或者一個功能不確定時,往往會直接詢問周圍同事的建議,可這并不能代表整個用戶,導致結果的偏差。
還有比如在一款新產(chǎn)品發(fā)布時,經(jīng)常會做產(chǎn)品的可用性測試,得到的結論是一半的用戶在某個功能的操作上存在問題,也許會覺得問題挺嚴重,實際可能是50%背后一共測試了兩個用戶,其中有一個用戶遇到了問題。
是否遺漏了什么?
也就是看對結論有影響的因素是否都列舉出來。比如說,調(diào)查表明公司的員工平均月薪是2萬,調(diào)查涵蓋了公司所有員工,外界一看,哇,該公司的員工工資好高啊,其實背后的原始數(shù)據(jù)沒有紕漏出來,該公司有100個員工,總經(jīng)理的工資是100萬,而剩下的員工平均工資是1萬,一平均,就說該公司的平均月薪是2萬。
比如在做一次競品之間的滿意度調(diào)查時發(fā)現(xiàn)自己產(chǎn)品的滿意度明顯高于競爭產(chǎn)品,大家看了都覺得很開心,但是卻忽略了調(diào)查的方法,實際上該調(diào)查的對象都是最常使用自己產(chǎn)品的用戶,那結果肯定是不言而喻。
再說滿意度的問題,如果針對自己的用戶進行了產(chǎn)品的滿意度調(diào)查,結果是85分(百分制),可能覺得產(chǎn)品還不錯,可是缺少了和競品的比較,85分到底是怎樣一個水平,不得而知,實際情況是競品用戶的滿意度都是在90分以上。下面兩張分別是只有自己產(chǎn)品的滿意度和有競品滿意度的圖表,效果截然不同。
是否偷換了概念?
在看統(tǒng)計資料時,從收集原始資料到得出結論的整個過程,是否存在著概念的偷換。比如在收集數(shù)據(jù)時問題問的是可支配收入,下結論說的是收入;問題問的是使用過什么產(chǎn)品,結論說是經(jīng)常使用什么產(chǎn)品;實際調(diào)查只針對某幾項因素,下結論時卻不加定語限制,讓人覺得是整體的情況描述,就似現(xiàn)在國內(nèi)大學排名,不同機構采用不同的指標排出不同的結果,實際公布時對采用的指標只字不提,結果往往誤導和迷惑讀眾。
給我印象深刻的是在2008年奧運會結束后四大門戶網(wǎng)站都對外稱自己在奧運會期間的報道取得了第一,讓網(wǎng)友摸不著頭腦的同時也讓業(yè)界疑慮叢生。其實導致這種結果的第一個原因是不同公司排名所采用的指標不一樣,指標分別有“用戶訪問量”、“網(wǎng)頁流量”、“平均每位用戶停留時間”、“訪問速度”、“冠軍訪談數(shù)量”等,這樣四大門戶都可以對外聲稱在奧運報道上取得了第一;第二個原因是引用的數(shù)據(jù)源不一樣,導致數(shù)據(jù)上的差異,甚至不同公司引用同一家調(diào)研公司的數(shù)據(jù)都是不一樣的,摘錄其中一段調(diào)研公司的解釋:“新浪、搜狐用的是我們兩次不同的調(diào)查數(shù)據(jù),這兩次調(diào)查的城市范圍、方法等都不一樣,兩方面數(shù)據(jù)結果根本沒有可比性。新浪公布的那個結果是我們在國內(nèi)128個城市采取計算機輔助電話訪問的調(diào)查結果,而搜狐公布的那份結果是我們在北京、上海、廣州、青島、南京5個重要城市采取街訪方式的調(diào)查結果。那5個最重要的城市和其他128個城市的網(wǎng)絡普及率、人對網(wǎng)絡的偏好都不一樣,數(shù)據(jù)結果反映的東西肯定也不同”,普通網(wǎng)民在關注到“第一”的同時會去關注這些背后的數(shù)據(jù)嗎?
另外就是同一個數(shù)據(jù),但是圖表的基準值、刻度等不一樣,也會導致圖表表達出的效果截然不同,比如下面兩個圖,左邊第一眼給人的感覺是2名用戶之間的上網(wǎng)時長差異不大,而右邊這個給人的感覺是差異非常大。
這個資料有意義嗎?
許多統(tǒng)計資料在我們一眼就能看出是有誤的。比如前一陣因為BT事件,一調(diào)查機構宣稱:在他們隨機調(diào)查的100位網(wǎng)友中,有87.53%的網(wǎng)友支持封殺BTchina;有時在對用戶進行分類時,對于分類結果,分成的各個類別的用戶是否都能在現(xiàn)實中找到對應的人群,或者說周圍認識的每一個人是否都能找到屬于自己的類別,這都是一眼能夠看出是否有意義的。
最后再舉一個最常見但也最經(jīng)常被誤導的兩個例子:
很多人在學生時代肯定都聽過老師有過這樣的計算:離某某考試還有1個月時間,扣去一天8小時共10天的睡眠時間,扣去一天約4小時共5天的進餐活動等時間,再扣掉每周兩天共8天的雙休日,這時余下的學習時間就只剩7天了,這時一聽都覺得很緊張,但是感覺沒有這么短啊,其實是我們被老師忽悠了;一個產(chǎn)品開發(fā)項目計劃本來總時長是1個月,后來因為某種變更,需求規(guī)劃時間要增加15%,界面設計時間要增加20%,開發(fā)的時間要增加10%,測試時間要增加5%,則總時間要增加50%?實際總時間增加肯定不到20%。
在這個信息爆炸的時代,統(tǒng)計本是一個通過數(shù)據(jù)揭露本質(zhì)的有力工具,但遺憾的是,統(tǒng)計未必能夠揭示真實,有時候還可能成為假象的幫兇。當我們面對生活中形形色色的統(tǒng)計數(shù)據(jù)時,還要多保持一些理智和清醒,并要有所保留地看待問題。因為“如果一個人以種種肯定的立論開始,他必將終止于各種懷疑;但如果他愿意抱著懷疑的態(tài)度開始,那么他必將獲得肯定的結論?!?br /> (本文出自Tencent CDC Blog,轉(zhuǎn)載時請注明出處)
- 目前還沒評論,等你發(fā)揮!