產(chǎn)品測試過程中,T檢驗的實踐運用(一)
大學(xué)的統(tǒng)計學(xué)知識,你是否還記得?本文作者將用最精煉的語言和簡單的案例,讓你能夠快速將T檢驗運用到實戰(zhàn)當(dāng)中。因此不用糾結(jié)過多的統(tǒng)計學(xué)理論而不能自拔,知道怎么運用即可。
作為一個產(chǎn)品經(jīng)理,在經(jīng)過一系列坎坷將需求方案落地后,判斷方案效果的好壞就是一個非常重要的步驟了,在產(chǎn)品大范圍發(fā)布前,我們通常要進(jìn)行小樣本量的范圍測試;這些測試我們也可以分為線上和線下。實體產(chǎn)品通常會邀請顧客到店體驗產(chǎn)品,收集用戶反饋;互聯(lián)網(wǎng)產(chǎn)品大部分公司會設(shè)計一個簡單的線上測試方案,通過觀察用戶行為數(shù)據(jù)來判斷方案的效果,在成本允許的情況下,做線下用戶測試同樣是非常必要的。
那么,對于樣本量較低的測試方案,如何判斷產(chǎn)品效果的好壞?如果你邀請了10個用戶來體驗?zāi)愕漠a(chǎn)品,10個用戶反饋給你的信息都很棒,那么你的產(chǎn)品就一定能滿足大部分目標(biāo)客戶的需求嗎?在你糾結(jié)的時候,不要著急,T檢驗就可以用來實戰(zhàn)了,這種簡單而常用的檢驗方法線上線下兩者通吃,本系列將通過三個例子讓你完全了解T檢驗的實戰(zhàn)方式。
如果你已經(jīng)把大學(xué)的統(tǒng)計學(xué)知識忘記的差不多了,別擔(dān)心,筆者將用最精煉的語言和簡單的案例讓你能夠快速將T檢驗運用到實戰(zhàn)當(dāng)中,不用糾結(jié)過多的統(tǒng)計學(xué)理論而不能自拔,知道怎么運用即可。
你需要了解的2個關(guān)鍵的前置知識點:
- ?T檢驗的升級版其實是Z檢驗,T檢驗只是Z檢驗的替代版,但是80%的情況下我們會使用T檢驗,因為Z檢驗的使用前提是總體均值已知,但是這個條件在如今情況下幾乎是不可能的,(比如全國人民的平均身高,你需要每個人都量一遍嗎?)。在總體均值未知,樣本量較小的情況下(一般是樣本量<30,但這需要根據(jù)樣本來自的總體大小而定),我們還是使用T檢驗。
- Z檢驗與T檢驗方法能夠使用的最重要的前提是一個定理→ 中心極限定理:假設(shè)我們從一個總體里抽取一定數(shù)量的樣本,計算此樣本的均值,然后重復(fù)100次抽取,那么畫出這些樣本均值的分布將會是正態(tài)的。正是因為這個定理,我們的T檢驗適用于任何總體。
OK,暫且補(bǔ)充這兩個知識點,不過已經(jīng)交代了為何我們能夠使用T檢驗,以及使用T檢驗的原因,如果一直補(bǔ)充前置知識將會是個無限循環(huán)(好比做一個凳子需要木頭,要木頭需要斧子,要斧子需要鐵。。。),如果下面步驟中有未知名詞或者未知概念,Google一下即可,接下來我們將具體講解T檢驗的運用。
T檢驗分為三種:單樣本T檢驗,獨立樣本T檢驗,相依樣本T檢驗,今天我們將講解第一個,單樣本T檢驗。
單樣本T檢驗:(One-Sample t-test)
與他的名稱一樣,單樣本T檢驗就是我們只有一個樣本。
假設(shè)樣本均值為,總體的均值為μ,我們想知道,這個樣本來自的總體是否與具有這個均值的總體顯著不同?
一般的單樣本T檢驗的步驟如下:
1. 提出問題,設(shè)定0假設(shè)和對立假設(shè)
0假設(shè)是指我們假設(shè)此樣本與總體無顯著不同;一般為X = μ
對立假設(shè)可以根據(jù)實際情況定為三種:
- 我們假設(shè)此樣本與總體有顯著不同?!佴?/li>
- 我們假設(shè)此樣本比總體均值要高?!荭?/li>
- 我們假設(shè)此樣本比總體均值要低。<μ
2.?確定樣本均值和樣本標(biāo)準(zhǔn)偏差
其中為每個樣本的值,N為樣本數(shù)。
不用擔(dān)心,大部分?jǐn)?shù)據(jù)處理工具都能直接算出這個值,(比如excel,python的numpy庫中std()函數(shù))
3. 確定均值標(biāo)準(zhǔn)誤差SEM
(n為樣本個數(shù))
標(biāo)準(zhǔn)誤差用來衡量抽樣誤差,標(biāo)準(zhǔn)誤差越小,表明樣本統(tǒng)計量與總體參數(shù)的值越接近,樣本對總體越有代表性,用樣本統(tǒng)計量推斷總體參數(shù)的可靠度越大。
4. 確定95%/99%置信水平下t臨界值
至于選擇95%還是99%置信水平,需要根據(jù)實際情況進(jìn)行選擇,一般來說,數(shù)值越大,精度越高,95%已經(jīng)能滿足絕大部分?jǐn)?shù)據(jù)要求。對于t臨界值的確定,我們需要用到T表格,T表格鏈接(參考百度文庫https://wenku.baidu.com/view/c010cdc22cc58bd63186bd84.html)。
如何使用T表格?我們需要根據(jù)自由度與顯著性水平兩個值進(jìn)行查詢,一般自由度df = n – 1 ,根據(jù)第一步設(shè)置的對立假設(shè),確定為單尾檢驗還是雙尾檢驗,然后根據(jù)95%/99%置信水平求得顯著性水平。
5. 確定t值
t值求解公式:
6. 得出結(jié)論
根據(jù)求出的t值與t臨界值進(jìn)行對比,根據(jù)t值所在區(qū)域判斷是否拒絕0假設(shè),接受對立假設(shè)。
7. 確定Cohen’s d(可選)
Cohen’s d等于(樣本均值 – 總體均值)/樣本的標(biāo)準(zhǔn)偏差,它反映的是樣本均值和總體均值之間存在多少個標(biāo)準(zhǔn)偏差。
8. 確定95%/99%置信區(qū)間(可選)
置信區(qū)間公式:
置信區(qū)間確定了此樣本所在的總體均值所在范圍。
具體案例
此案例為定性數(shù)據(jù)定量化的案例之一。
假設(shè)我們現(xiàn)在要判斷一款產(chǎn)品的用戶體驗如何,用戶體驗這個概念比較主觀,我們需要將定性的數(shù)據(jù)進(jìn)行定量化處理。
我們一般的用戶體驗分為以下5種:
- 感官體驗:呈現(xiàn)給用戶視聽上的體驗,強(qiáng)調(diào)舒適性。
- 交互體驗:呈現(xiàn)給用戶操作上的體驗,強(qiáng)調(diào)易用/可用性。
- 情感體驗:呈現(xiàn)給用戶心理上的體驗,強(qiáng)調(diào)友好性。
- 瀏覽體驗:呈現(xiàn)給用戶瀏覽上的體驗,強(qiáng)調(diào)吸引性。
- 信任體驗:呈現(xiàn)給用戶的信任體驗,強(qiáng)調(diào)可靠性。
我們針對每一種體驗分別給予0-10,10個評分等級,針對每種體驗給予自己主觀的打分,之后算出五個分?jǐn)?shù)的平均得分。
例如我們的一個目標(biāo)用戶的體驗得分如下:
分?jǐn)?shù)段 ? ? ? ? ? ? 得分
感官體驗 ? ? ? ? ?0-10 ??????4
交互體驗 ? ? ? ? ?0-10 ??????7
瀏覽體驗 ? ? ? ? ?0-10 ??????6
情感體驗 ? ? ? ? ?0-10 ??????7
信任體驗 ? ? ? ? ?0-10 ??????8
平均得分 ? ? ? ? ?6.4
我們邀請28個目標(biāo)用戶,事先與其溝通好每種體驗的正確體驗方式,得出了28人的體驗平均得分樣本:
6.2,5.3,8.7,7.4,5.2,6.9,8.3,4.4,7.8,6.5,5.9,5.3,5.4,7.5,7.4,4.3,8.5,6.9,6.4,4.7,8.7,6.4,9.2,6.3,4.7,6.5,5.4,7.1
我們假設(shè)用戶體驗的行業(yè)及格平均分的標(biāo)準(zhǔn)為6分。
那么,我們提出的問題是,此產(chǎn)品的用戶體驗平均得分是否超過行業(yè)及格標(biāo)準(zhǔn)分?
1. 提出問題,設(shè)定0假設(shè)和對立假設(shè)
(1)0假設(shè)
此產(chǎn)品的用戶體驗平均得分等于行業(yè)及格平均分。
(2)對立假設(shè)
此產(chǎn)品的用戶體驗平均得分大于行業(yè)及格平均分。
2. 確定樣本的均值和樣本標(biāo)準(zhǔn)偏差
根據(jù)樣本數(shù)據(jù)我們求得:
3. 確定SEM(均值標(biāo)準(zhǔn)誤差)
4. 確定95%的置信水平下t臨界值
自由度 ?
因為我們設(shè)置的對立假設(shè)為,所以此檢驗為單尾檢驗,根據(jù)95%置信水平查詢T表格得:
t臨界 = 1.703
5. 確定t值
6. 得出結(jié)論
根據(jù)t值與t臨界值之間的關(guān)系,我們拒絕0假設(shè),我們可以判斷此產(chǎn)品的用戶體驗及格,并且此產(chǎn)品的用戶體驗平均得分大于行業(yè)及格平均分。
7. 確定95%置信區(qū)間
根據(jù)公式:
我們算出95%置信區(qū)間為(6.13,6.96),也就是說此產(chǎn)品如果計算所有用戶的用戶體驗平均得分,那么評分的總體均值大概會落在6.13~6.96之間。
至此我們完成了一個定性數(shù)據(jù)定量化的簡單案例,有了這個數(shù)據(jù),我們可以更加直觀的對產(chǎn)品的用戶體驗做出判斷,這就是單樣本T檢驗的應(yīng)用案例之一。
下期我們將會講解接下來的兩種檢驗方法:獨立樣本T檢驗,相依樣本T檢驗。
歡迎拍磚。
本文由 @白子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
測試用例
這里我有幾個疑惑。。。
單樣本t檢驗公式,底部為什么不是n-1?
感覺這里應(yīng)該進(jìn)行雙尾t檢驗,表明平均分高是因為總體高而不是個別高分?jǐn)?shù)拉高了總體。。。
優(yōu)秀 謝謝