提高產(chǎn)品假設(shè)及決策質(zhì)量的方法——因果推斷
產(chǎn)品經(jīng)理的核心價(jià)值在于決策,正確的決策能夠引導(dǎo)產(chǎn)品在正確的方向上。那么如何借助于“因果推斷”的一些方法,在已有數(shù)據(jù)的基礎(chǔ)上構(gòu)建準(zhǔn)實(shí)驗(yàn),并依據(jù)相應(yīng)的數(shù)據(jù)分析結(jié)論去提升事前決策的質(zhì)量呢?本文進(jìn)行了總結(jié),希望對(duì)你有所啟發(fā)。
產(chǎn)品經(jīng)理的核心價(jià)值在于決策力,科學(xué)合理的決策將指引業(yè)務(wù)前行在正確的方向上,而一旦有所偏離或不斷低質(zhì)量重復(fù)性嘗試則會(huì)讓業(yè)務(wù)停留在原地轉(zhuǎn)圈。因此,在整個(gè)工作流中, 最為關(guān)鍵的其實(shí)是第一步,即如何在事前提高決策的質(zhì)量和正確概率,后面的步驟按照既有流程執(zhí)行也能保證較高質(zhì)量的交付。
那么如何借助于“因果推斷”的一些方法,在已有數(shù)據(jù)的基礎(chǔ)上構(gòu)建準(zhǔn)實(shí)驗(yàn),并依據(jù)相應(yīng)的數(shù)據(jù)分析結(jié)論去提升事前決策的質(zhì)量呢?
一、因果關(guān)系與歸因偏誤
首先,我們需要了解因果關(guān)系。因果關(guān)系是當(dāng)其他控制變量不變,因某個(gè)特定解釋變量的變化而引起被解釋變量變化的關(guān)系。倘若我們要對(duì)去探究我們所關(guān)注的變量的因果關(guān)系,其實(shí)可以拆解為兩個(gè)子問(wèn)題:其一,界定因果關(guān)系:X和Y誰(shuí)是因、誰(shuí)是果?;其二,衡量因果效應(yīng)大小:這種影響有多大?
在正式論述如何去界定因果并估計(jì)因果效應(yīng)之前,我們現(xiàn)來(lái)看一個(gè)例子認(rèn)識(shí)歸因過(guò)程中的常見(jiàn)偏誤并基于此去理解該如何去做因果推斷。假設(shè)我們?yōu)榱搜芯磕撤?wù)對(duì)GMV的貢獻(xiàn),數(shù)據(jù)里活躍用戶和非活躍用戶,各組里都有使用過(guò)該服務(wù)或沒(méi)有使用過(guò)該服務(wù)的用戶,詳細(xì)數(shù)據(jù)如下所示:
由上表可知,活躍用戶使用過(guò)該服務(wù)的用戶累計(jì)GMV平均比未使用過(guò)該服務(wù)的用戶高1000元,非活躍用戶使用過(guò)該服務(wù)的用戶累計(jì)GMV平均比未使用過(guò)該服務(wù)的用戶高500元,但從整體來(lái)看,使用過(guò)該服務(wù)的用戶累計(jì)GMV反而比未使用過(guò)該服務(wù)的用戶低123元。
細(xì)分人群構(gòu)成來(lái)看,在現(xiàn)有數(shù)據(jù)中未使用過(guò)該服務(wù)的用戶主要是活躍用戶,而使用過(guò)該服務(wù)的用戶主要是非活躍用戶,兩組間人群構(gòu)成存在差異。也就是說(shuō)總體數(shù)據(jù)的比較結(jié)果并未對(duì)個(gè)體活躍程度進(jìn)行控制,因而造成服務(wù)使用效果的評(píng)價(jià)中混入了活躍程度的影響。
從上例中,我們不能根據(jù)直觀數(shù)據(jù)簡(jiǎn)單通過(guò)正負(fù)相關(guān)去推導(dǎo)因果關(guān)系:因?yàn)闀?huì)存在可觀測(cè)或不可觀測(cè)的混淆變量對(duì)因果解釋造成偏差。因此,因果推斷最主要的思路就是需要控制混淆變量。
控制混淆變量的最理想的方式即采用隨機(jī)對(duì)照實(shí)驗(yàn),因?yàn)殡S機(jī)分配使得干擾項(xiàng)條件均值獨(dú)立于解釋變量,即解釋變量與任何其他可能的混淆變量都不相關(guān),這種情況下解釋變量與被解釋變量之間不會(huì)存在混淆路徑,二者的相關(guān)性能直接反映因果關(guān)系。但出于種種原因,如時(shí)效性、費(fèi)用成本、操作性困難等原因,我們可能不會(huì)有理想實(shí)驗(yàn)條件,只能通過(guò)既有的觀察性數(shù)據(jù)去推斷,這時(shí)候就需要使用計(jì)量方法去幫助我們做出因果推斷。
二、因果推斷的計(jì)量方法
以下將簡(jiǎn)要介紹4種常用的因果推斷計(jì)量方法
2.1 匹配法
基本原理:對(duì)于接受處置的個(gè)體,找到可觀測(cè)特征相同的未被處置的個(gè)體,通過(guò)比較他們的觀測(cè)結(jié)果的差異,達(dá)到估計(jì)處置效應(yīng)的目標(biāo)。
成立假設(shè):
- 條件獨(dú)立假設(shè):給定可觀測(cè)特征后,潛在結(jié)果獨(dú)立于處置狀態(tài);
- 共同支撐域條件:給定可觀測(cè)特征 Xi= x,個(gè)體接受處置的概率大于0并小于1。用于確保同時(shí)存在處置組和控制組
方法及操作步驟:匹配法主要可分為直接匹配法和傾向得分匹配法兩種。直接匹配法:根據(jù)可觀測(cè)的特征值直接匹配;如果可觀測(cè)特征只包含少數(shù)幾個(gè)非連續(xù)變量,可進(jìn)行直接匹配,但當(dāng)可觀測(cè)特征維度增加時(shí),要在多維進(jìn)行直接匹配就存在操作性困難;傾向得分匹配法:通過(guò)函數(shù)關(guān)系將多維變量變換為一維的傾向得分(propensity score)之后,再根據(jù)傾向得分進(jìn)行匹配。
傾向得分匹配操作步驟:第一步:估計(jì)傾向得分(首先,確定模型-Probit/Logit;其次,選擇納入模型的變量);
第二步:匹配前均衡檢驗(yàn):根據(jù)匹配得分將樣本分為若干區(qū)間,保證每個(gè)區(qū)間里處置組和控制組的平均傾向性得分相同,并檢驗(yàn)每個(gè)區(qū)間內(nèi),處置組和控制組的特征變量是否均衡;
第三步:評(píng)估共同支撐域條件,考慮使用有共同支撐域的樣本;
第四步:選擇匹配方法(分塊匹配法、近鄰匹配法、卡尺匹配法、半徑匹配法、核匹配法);
第五步:匹配后均衡檢驗(yàn):確定匹配樣本后檢驗(yàn)處置組和控制組變量是否均衡;
第六步:根據(jù)條件期望公式計(jì)算處置效應(yīng)。
2.2 雙重差分法
方法概述:尋找自然發(fā)生的實(shí)驗(yàn)或者現(xiàn)有的觀察數(shù)據(jù)根據(jù)反事實(shí)推斷框架建構(gòu)實(shí)驗(yàn)條件,尋找良好控制的對(duì)照組的準(zhǔn)實(shí)驗(yàn)。在干預(yù)前后都有實(shí)驗(yàn)組、對(duì)照組面板數(shù)據(jù)的情況下,通常采用雙重差分法估計(jì)這類干預(yù)項(xiàng)目的因果效應(yīng)。
基本原理:利用實(shí)驗(yàn)組和對(duì)照組的變動(dòng)趨勢(shì)差異來(lái)衡量因果效應(yīng),即用干預(yù)后兩組被解釋變量之差減去干預(yù)前兩組被解釋效應(yīng)之差來(lái)反應(yīng)由被解釋變量干預(yù)后由此變量所帶來(lái)的效應(yīng)大小。
成立假設(shè):
- 共同趨勢(shì)假設(shè):沒(méi)有解釋變量干預(yù),對(duì)照組和實(shí)驗(yàn)組的自然變動(dòng)趨勢(shì)保持一致;
- 共同支撐域假設(shè):給定可觀測(cè)特征 Xi= x,個(gè)體接受處置的概率大于0并小于1。用于確保同時(shí)存在處置組和控制組。
方法及操作如上圖所示:首先,計(jì)算第一重差分,即自然趨勢(shì)差異——干預(yù)前實(shí)驗(yàn)組被解釋變量均值-干預(yù)前對(duì)照組被解釋變量均值;其次,計(jì)算第二重差分,即干預(yù)后差異——干預(yù)后實(shí)驗(yàn)組被解釋變量均值-干預(yù)后對(duì)照組被解釋變量均值。最后,計(jì)算雙重差分——干預(yù)后差異-自然趨勢(shì)差異。
2.3 斷點(diǎn)回歸法
斷點(diǎn)回歸(regression discontinuity design):是一種研究非隨機(jī)實(shí)驗(yàn)?zāi)墙咏S機(jī)實(shí)驗(yàn)數(shù)據(jù)的方法,適用于研究某類特定社會(huì)科學(xué)事件的因果,這些事件的特點(diǎn)是,個(gè)體是否受到事件的影響,取決于其某個(gè)可觀測(cè)特征的連續(xù)變量是否大于給定的臨界值。
而由于該變量在臨界值兩側(cè)是連續(xù)的, 因此個(gè)體針對(duì)該連續(xù)變量的取值落入該臨界點(diǎn)任意一側(cè)是隨機(jī)發(fā)生的,即不存在人為操控使得個(gè)體落入某一側(cè)的概率更大, 則在臨界值附近構(gòu)成了一個(gè)準(zhǔn)自然實(shí)驗(yàn)。如下圖所示,我們可根據(jù)某一連續(xù)變量的臨界值去劃分出是否接受過(guò)解釋變量影響的兩組人群,并根據(jù)其在被解釋變量的值的差異去計(jì)算解釋變量所帶來(lái)的效應(yīng)大小。
操作步驟:第一步,用散點(diǎn)圖顯示解釋變量和被解釋變量關(guān)系;
第二步,在散點(diǎn)圖基礎(chǔ)上,進(jìn)一步去除散點(diǎn)噪音,采用多項(xiàng)式回歸或分區(qū)均值擬合的方式對(duì)數(shù)據(jù)進(jìn)行“平滑擬合”并繪制關(guān)系圖。
第三步,進(jìn)行斷點(diǎn)回歸模型基本假設(shè)檢驗(yàn):檢驗(yàn)解釋變量的概率分布連續(xù)性及個(gè)體特征變量連續(xù)性;
第四步,計(jì)算斷點(diǎn)處置效應(yīng):采用全局多項(xiàng)式回歸或局部多項(xiàng)式回歸的方法來(lái)估計(jì)被解釋變量在斷點(diǎn)處的跳躍程度的大小及顯著性。
2.4 工具變量法
基本原理:核心思路是通過(guò)工具變量“清理”解釋變量,將解釋變量中與干擾項(xiàng)相關(guān)的部分剔除,僅保留與干擾項(xiàng)不相關(guān)的部分去估計(jì)解釋變量對(duì)被解釋變量的因果影響。
如下圖所示,在因果推斷過(guò)程中,常常會(huì)遇見(jiàn)與解釋變量和被解釋變量均相關(guān)的不可觀測(cè)變量,如“好勝心”對(duì)“教育水平”和“職業(yè)收入”。
在此種情景下,有D到Y(jié)的因果路徑,也有干擾項(xiàng)E所帶來(lái)的混淆路徑,因此需要截?cái)唷?/p>
工具變量的整體思路是引入一個(gè)用于剔除被解釋變量中與干擾項(xiàng)相關(guān)的部分。如上圖所示,工具變量Z將原有解釋變量D分為與干擾項(xiàng)不相關(guān)的D’和與干擾項(xiàng)相關(guān)的V,從而讓D’獨(dú)立于干擾項(xiàng),可采用D’到Y(jié)的系數(shù)β作為解釋變量D對(duì)于被解釋變量Y的因果效應(yīng)值。而要充當(dāng)工具變量,需要具備如下兩個(gè)前提條件:1.外生性:工具變量和干擾項(xiàng)不相關(guān);2.相關(guān)性:工具變量和解釋變量相關(guān)。
操作步驟:第一步、定義研究問(wèn)題,描述機(jī)制并設(shè)置基本模型,對(duì)基本模型進(jìn)行OLS回歸,得到初步結(jié)果。第二步、尋找有效的工具變量:并利用原理、理論或常識(shí)證明變量的相關(guān)性和外生性。第三步、使用工具變量對(duì)模型進(jìn)行估計(jì),同時(shí)進(jìn)行必要的統(tǒng)計(jì)檢驗(yàn)(解釋變量?jī)?nèi)生性檢驗(yàn)-HAUSMAN檢驗(yàn)/工具變量相關(guān)性、外生性檢驗(yàn))。第四步、將工具變量估計(jì)結(jié)果與OLS結(jié)果進(jìn)行對(duì)比,理解結(jié)果為何有差異。
綜上,在沒(méi)有實(shí)驗(yàn)條件或在既往數(shù)據(jù)中,也可通過(guò)因果推斷的方法去提高決策判斷力,保證產(chǎn)品交付質(zhì)量。
本文由 @鯉魚(yú)說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!