產(chǎn)品分析之統(tǒng)計學(xué)悖論

5 評論 10238 瀏覽 55 收藏 9 分鐘

在做產(chǎn)品分析時,統(tǒng)計結(jié)果截然相反,是何種原因引起的呢?這種情況該如何應(yīng)對呢?

近期面試聊到了產(chǎn)品分析時統(tǒng)計結(jié)果截然相反時,分析人員變成了熱鍋上的螞蟻,手足無措。這到底是什么引起的呢?早在1951年性別歧視的案子中就發(fā)現(xiàn)了這種相悖的統(tǒng)計結(jié)果。

最典型的例子:?1973年加利福尼亞大學(xué)伯克利分校性別歧視案的例子:

大家從表格里可以看到,如果只看整體錄取率,那么男生的錄取率是44%,女生的是30%。

但加利福尼亞大學(xué)伯克利分校的統(tǒng)計學(xué)教授 Peter Bickel 后來發(fā)現(xiàn),如果按照院系分類,女生實際上比男生的錄取率還高一些。

一、細(xì)節(jié)和整體趨勢完全不同

辛普森悖論(Simpson’s paradox):當(dāng)你把數(shù)據(jù)拆開細(xì)看的時候,細(xì)節(jié)和整體趨勢完全不同的現(xiàn)象。

我們簡化上述表格,發(fā)現(xiàn)悖論是由于基數(shù)產(chǎn)生的影響——男生在學(xué)院1和學(xué)院2的分布和女生的分布截然相反引起的。

在日常分析工作也經(jīng)常存在這樣的現(xiàn)象,經(jīng)常在兩端分析時,大都以為兩端作為拆分對比,如iOS、Android投放廣告的轉(zhuǎn)化率分析中,通過兩端的轉(zhuǎn)化率可以得到結(jié)論1,但將iOS、Android按照網(wǎng)頁版本、移動版本拆分后會得到完全相反的結(jié)論:

結(jié)論1: iOS的總體轉(zhuǎn)化率低于Android。

  • 基于此可以得到的結(jié)論是該批次廣告不適合iOS平臺;
  • iOS平臺需要做在轉(zhuǎn)化過程中需要做進(jìn)一步的漏斗分析以便優(yōu)化。

結(jié)論2: 網(wǎng)頁版本iOS的轉(zhuǎn)換率高于Android,且移動端iOS的 轉(zhuǎn)化率也高于Android。

  • 基于此可以得到的結(jié)論是該批次廣告不適合Android平臺;
  • Android平臺需要做在轉(zhuǎn)化過程中需要做進(jìn)一步的漏斗分析以便優(yōu)化。

如果沒有辯證的結(jié)合多個維度分析該數(shù)據(jù)表現(xiàn),則會被誤導(dǎo),在錯誤的方向上投入更多的精力,甚至是完全相反的決策。

二、相關(guān)分析中,整體相關(guān)性和組間相關(guān)性相反。

假設(shè)我們有每周運動小時屬于兩組患者(50歲以下、50歲以上的患者)患病風(fēng)險的對比數(shù)據(jù)。以下為兩組患者患病可能性的散點圖:

由下圖(x軸是運動小時數(shù)、y軸是風(fēng)險)可以得到的結(jié)論是:患病風(fēng)險與運動小時數(shù)呈負(fù)相關(guān)。

將2組數(shù)據(jù)合并后,得到的結(jié)論是:患病風(fēng)險與運動小時數(shù)呈正相關(guān)。與分組結(jié)論皆然相反。

原因是:患病幾率是由多種因素引起的,年齡比運動時間的影響程度更大。在分析運動時間與發(fā)病幾率時,忽略了年齡等其他因素——而進(jìn)一步拆分后,會得到完全不同的結(jié)論。

先前恰巧有通過相關(guān)性分析來探討變量與留存、回訪間的關(guān)系。

不同停留時長的用戶在留存上面的表現(xiàn),發(fā)現(xiàn)停留時長越長的用戶留存以及回訪現(xiàn)象越不好,這和app使用基本認(rèn)知相反;

而結(jié)合用戶用戶行為深度分析發(fā)現(xiàn),用戶行為越深留存以及回訪現(xiàn)象越好。相比籠統(tǒng)的停留時長(包括app使用時長、后臺時長),用戶行為深度對用戶留存以及回訪影響更大,其相關(guān)表現(xiàn)也更符合真實的現(xiàn)象。

數(shù)據(jù)分析相比數(shù)據(jù)挖掘、深度學(xué)習(xí),最大的優(yōu)勢就是可解釋性,得到的結(jié)論需要多結(jié)合場景、用戶屬性思考,是否看到了數(shù)據(jù)的全貌。

三、AB測試中細(xì)分結(jié)果和整體結(jié)果相悖

AB測試中細(xì)分結(jié)果和整體結(jié)果相悖則要小心了……來看下面這個例子:

通過A、B兩種療法結(jié)石的治愈率來看哪一種療法更好。

基于大結(jié)石、小結(jié)石,A療法都比B療法要好;但匯總結(jié)果卻是B療法比A療法要好。無法判斷那個療法更好。

你應(yīng)該看了本文的第一個例子,可以發(fā)現(xiàn)A、B療法在不同類型的結(jié)石中基數(shù)差異引起了問題。

在兩個組內(nèi)不同類型的結(jié)石中基數(shù)差異可能是由第三中因素引起的,如該例子因為醫(yī)生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機(jī)分配患者的時候,讓 A 組里面大結(jié)石病歷要多,而 B 組里面小結(jié)石病歷要多。

更重要的問題是,很有可能影響患者康復(fù)率的最重要因素并不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因為 A 組病人里重病患者多,并不是因為 A 組病人采用 A 療法。

如果將A療法都比B療法可以等價為ab測試的對照組和實驗組,則會發(fā)現(xiàn)這個case就是活生生的ab測試結(jié)果數(shù)據(jù),并且匯總結(jié)果中兩組存在明顯差異,欣喜若狂的上線實驗,但上線后整體數(shù)據(jù)結(jié)果表現(xiàn)并不理想。

所以,這一組不成功的 A/B 測試,問題出在試驗流量分割的不科學(xué),主要是因為流量分割忽略了一個重要的“隱藏因素”,也就是病情輕重。正確的試驗實施方案,兩組試驗患者里,重病患者的比例應(yīng)該保持一致。

理想的ab測試實質(zhì)是控制變量分析法,不同組(實驗組、對照組)之間,僅在實驗方案上存在差異,在其他的表征上(包括用戶屬性、行為屬性上都不存在差異)。

四、如何避免辛普森悖論

當(dāng)前權(quán)威的統(tǒng)計學(xué)家沒有給出一個確切有效的解決方式,因為悖論往往涉及到了業(yè)務(wù)層面的分類,告訴我們不能僅以統(tǒng)計數(shù)字來推導(dǎo)準(zhǔn)確的因果關(guān)系??傮w分析時需要結(jié)合多維度、屬性、場景來分析,仔細(xì)地研究分析各種影響因素,不要籠統(tǒng)概括地、淺嘗輒止地看問題。

在做數(shù)據(jù)分析的時,一定要遵循數(shù)據(jù)分析的目的——通過數(shù)據(jù)分析的手段來解釋問題、現(xiàn)象,且勿唯“數(shù)據(jù)”論。

附錄:

總結(jié)悖論的時候,參考了很多文章,非常感謝每一篇文章的講解:

《辛普森悖論》

《淺談A/B測試?yán)锍R姷男疗丈U?,企業(yè)決策者必看》

《數(shù)據(jù)分析必須警惕的坑:辛普森悖論》

《辛普森悖論?如何解?一招搞定!》

 

本文由 @cecil 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 之前看到一句話說的是,數(shù)據(jù)分析是最大的謊言,我感覺其實就是對數(shù)據(jù)分析不到位導(dǎo)致的,如何才能確保自己的分析是對的呢

    回復(fù)
  2. 這么好的文章居然收藏點贊不多,估計能看懂的人估計不多。多數(shù)人還是只喜歡看不需要動腦子的流水賬。

    來自江蘇 回復(fù)
    1. 你這也要動腦子?

      來自北京 回復(fù)
  3. 話題挺好的,但是確定里面有些數(shù)字沒寫錯么還有正負(fù)相關(guān)性。。

    來自江蘇 回復(fù)
    1. 第二組的相關(guān)性應(yīng)該是正相關(guān),看得仔細(xì)。晚上修改更新

      回復(fù)