產(chǎn)品測試過程中,T檢驗的實踐運用(一)

3 評論 15555 瀏覽 45 收藏 13 分鐘

大學(xué)的統(tǒng)計學(xué)知識,你是否還記得?本文作者將用最精煉的語言和簡單的案例,讓你能夠快速將T檢驗運用到實戰(zhàn)當(dāng)中。因此不用糾結(jié)過多的統(tǒng)計學(xué)理論而不能自拔,知道怎么運用即可。

作為一個產(chǎn)品經(jīng)理,在經(jīng)過一系列坎坷將需求方案落地后,判斷方案效果的好壞就是一個非常重要的步驟了,在產(chǎn)品大范圍發(fā)布前,我們通常要進(jìn)行小樣本量的范圍測試;這些測試我們也可以分為線上和線下。實體產(chǎn)品通常會邀請顧客到店體驗產(chǎn)品,收集用戶反饋;互聯(lián)網(wǎng)產(chǎn)品大部分公司會設(shè)計一個簡單的線上測試方案,通過觀察用戶行為數(shù)據(jù)來判斷方案的效果,在成本允許的情況下,做線下用戶測試同樣是非常必要的。

那么,對于樣本量較低的測試方案,如何判斷產(chǎn)品效果的好壞?如果你邀請了10個用戶來體驗?zāi)愕漠a(chǎn)品,10個用戶反饋給你的信息都很棒,那么你的產(chǎn)品就一定能滿足大部分目標(biāo)客戶的需求嗎?在你糾結(jié)的時候,不要著急,T檢驗就可以用來實戰(zhàn)了,這種簡單而常用的檢驗方法線上線下兩者通吃,本系列將通過三個例子讓你完全了解T檢驗的實戰(zhàn)方式。

如果你已經(jīng)把大學(xué)的統(tǒng)計學(xué)知識忘記的差不多了,別擔(dān)心,筆者將用最精煉的語言和簡單的案例讓你能夠快速將T檢驗運用到實戰(zhàn)當(dāng)中,不用糾結(jié)過多的統(tǒng)計學(xué)理論而不能自拔,知道怎么運用即可。

你需要了解的2個關(guān)鍵的前置知識點:

  1. ?T檢驗的升級版其實是Z檢驗,T檢驗只是Z檢驗的替代版,但是80%的情況下我們會使用T檢驗,因為Z檢驗的使用前提是總體均值已知,但是這個條件在如今情況下幾乎是不可能的,(比如全國人民的平均身高,你需要每個人都量一遍嗎?)。在總體均值未知,樣本量較小的情況下(一般是樣本量<30,但這需要根據(jù)樣本來自的總體大小而定),我們還是使用T檢驗。
  2. Z檢驗與T檢驗方法能夠使用的最重要的前提是一個定理→ 中心極限定理:假設(shè)我們從一個總體里抽取一定數(shù)量的樣本,計算此樣本的均值,然后重復(fù)100次抽取,那么畫出這些樣本均值的分布將會是正態(tài)的。正是因為這個定理,我們的T檢驗適用于任何總體。

OK,暫且補(bǔ)充這兩個知識點,不過已經(jīng)交代了為何我們能夠使用T檢驗,以及使用T檢驗的原因,如果一直補(bǔ)充前置知識將會是個無限循環(huán)(好比做一個凳子需要木頭,要木頭需要斧子,要斧子需要鐵。。。),如果下面步驟中有未知名詞或者未知概念,Google一下即可,接下來我們將具體講解T檢驗的運用。

T檢驗分為三種:單樣本T檢驗,獨立樣本T檢驗,相依樣本T檢驗,今天我們將講解第一個,單樣本T檢驗。

單樣本T檢驗:(One-Sample t-test)

與他的名稱一樣,單樣本T檢驗就是我們只有一個樣本。

假設(shè)樣本均值為,總體的均值為μ,我們想知道,這個樣本來自的總體是否與具有這個均值的總體顯著不同?

一般的單樣本T檢驗的步驟如下:

1. 提出問題,設(shè)定0假設(shè)和對立假設(shè)

0假設(shè)是指我們假設(shè)此樣本與總體無顯著不同;一般為X = μ

對立假設(shè)可以根據(jù)實際情況定為三種:

  • 我們假設(shè)此樣本與總體有顯著不同?!佴?/li>
  • 我們假設(shè)此樣本比總體均值要高?!荭?/li>
  • 我們假設(shè)此樣本比總體均值要低。<μ

2.?確定樣本均值和樣本標(biāo)準(zhǔn)偏差

其中為每個樣本的值,N為樣本數(shù)。

不用擔(dān)心,大部分?jǐn)?shù)據(jù)處理工具都能直接算出這個值,(比如excel,python的numpy庫中std()函數(shù))

3. 確定均值標(biāo)準(zhǔn)誤差SEM

(n為樣本個數(shù))

標(biāo)準(zhǔn)誤差用來衡量抽樣誤差,標(biāo)準(zhǔn)誤差越小,表明樣本統(tǒng)計量與總體參數(shù)的值越接近,樣本對總體越有代表性,用樣本統(tǒng)計量推斷總體參數(shù)的可靠度越大。

4. 確定95%/99%置信水平下t臨界值

至于選擇95%還是99%置信水平,需要根據(jù)實際情況進(jìn)行選擇,一般來說,數(shù)值越大,精度越高,95%已經(jīng)能滿足絕大部分?jǐn)?shù)據(jù)要求。對于t臨界值的確定,我們需要用到T表格,T表格鏈接(參考百度文庫https://wenku.baidu.com/view/c010cdc22cc58bd63186bd84.html)。

如何使用T表格?我們需要根據(jù)自由度與顯著性水平兩個值進(jìn)行查詢,一般自由度df = n – 1 ,根據(jù)第一步設(shè)置的對立假設(shè),確定為單尾檢驗還是雙尾檢驗,然后根據(jù)95%/99%置信水平求得顯著性水平。

5. 確定t值

t值求解公式:

6. 得出結(jié)論

根據(jù)求出的t值與t臨界值進(jìn)行對比,根據(jù)t值所在區(qū)域判斷是否拒絕0假設(shè),接受對立假設(shè)。

7. 確定Cohen’s d(可選)

Cohen’s d等于(樣本均值 – 總體均值)/樣本的標(biāo)準(zhǔn)偏差,它反映的是樣本均值和總體均值之間存在多少個標(biāo)準(zhǔn)偏差。

8. 確定95%/99%置信區(qū)間(可選)

置信區(qū)間公式:

置信區(qū)間確定了此樣本所在的總體均值所在范圍。

具體案例

此案例為定性數(shù)據(jù)定量化的案例之一。

假設(shè)我們現(xiàn)在要判斷一款產(chǎn)品的用戶體驗如何,用戶體驗這個概念比較主觀,我們需要將定性的數(shù)據(jù)進(jìn)行定量化處理。

我們一般的用戶體驗分為以下5種:

  1. 感官體驗:呈現(xiàn)給用戶視聽上的體驗,強(qiáng)調(diào)舒適性。
  2. 交互體驗:呈現(xiàn)給用戶操作上的體驗,強(qiáng)調(diào)易用/可用性。
  3. 情感體驗:呈現(xiàn)給用戶心理上的體驗,強(qiáng)調(diào)友好性。
  4. 瀏覽體驗:呈現(xiàn)給用戶瀏覽上的體驗,強(qiáng)調(diào)吸引性。
  5. 信任體驗:呈現(xiàn)給用戶的信任體驗,強(qiáng)調(diào)可靠性。

我們針對每一種體驗分別給予0-10,10個評分等級,針對每種體驗給予自己主觀的打分,之后算出五個分?jǐn)?shù)的平均得分。

例如我們的一個目標(biāo)用戶的體驗得分如下:

分?jǐn)?shù)段 ? ? ? ? ? ? 得分

感官體驗 ? ? ? ? ?0-10 ??????4

交互體驗 ? ? ? ? ?0-10 ??????7

瀏覽體驗 ? ? ? ? ?0-10 ??????6

情感體驗 ? ? ? ? ?0-10 ??????7

信任體驗 ? ? ? ? ?0-10 ??????8

平均得分 ? ? ? ? ?6.4

我們邀請28個目標(biāo)用戶,事先與其溝通好每種體驗的正確體驗方式,得出了28人的體驗平均得分樣本:

6.2,5.3,8.7,7.4,5.2,6.9,8.3,4.4,7.8,6.5,5.9,5.3,5.4,7.5,7.4,4.3,8.5,6.9,6.4,4.7,8.7,6.4,9.2,6.3,4.7,6.5,5.4,7.1

我們假設(shè)用戶體驗的行業(yè)及格平均分的標(biāo)準(zhǔn)為6分。

那么,我們提出的問題是,此產(chǎn)品的用戶體驗平均得分是否超過行業(yè)及格標(biāo)準(zhǔn)分?

1. 提出問題,設(shè)定0假設(shè)和對立假設(shè)

(1)0假設(shè)

此產(chǎn)品的用戶體驗平均得分等于行業(yè)及格平均分。

(2)對立假設(shè)

此產(chǎn)品的用戶體驗平均得分大于行業(yè)及格平均分。

2. 確定樣本的均值和樣本標(biāo)準(zhǔn)偏差

根據(jù)樣本數(shù)據(jù)我們求得:

3. 確定SEM(均值標(biāo)準(zhǔn)誤差)

4. 確定95%的置信水平下t臨界值

自由度 ?

因為我們設(shè)置的對立假設(shè)為,所以此檢驗為單尾檢驗,根據(jù)95%置信水平查詢T表格得:

t臨界 = 1.703

5. 確定t值

6. 得出結(jié)論

根據(jù)t值與t臨界值之間的關(guān)系,我們拒絕0假設(shè),我們可以判斷此產(chǎn)品的用戶體驗及格,并且此產(chǎn)品的用戶體驗平均得分大于行業(yè)及格平均分。

7. 確定95%置信區(qū)間

根據(jù)公式:

我們算出95%置信區(qū)間為(6.13,6.96),也就是說此產(chǎn)品如果計算所有用戶的用戶體驗平均得分,那么評分的總體均值大概會落在6.13~6.96之間。

至此我們完成了一個定性數(shù)據(jù)定量化的簡單案例,有了這個數(shù)據(jù),我們可以更加直觀的對產(chǎn)品的用戶體驗做出判斷,這就是單樣本T檢驗的應(yīng)用案例之一。

下期我們將會講解接下來的兩種檢驗方法:獨立樣本T檢驗,相依樣本T檢驗。

歡迎拍磚。

 

本文由 @白子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 測試用例

    來自河北 回復(fù)
  2. 這里我有幾個疑惑。。。
    單樣本t檢驗公式,底部為什么不是n-1?
    感覺這里應(yīng)該進(jìn)行雙尾t檢驗,表明平均分高是因為總體高而不是個別高分?jǐn)?shù)拉高了總體。。。

    來自廣東 回復(fù)
  3. 優(yōu)秀 謝謝

    來自遼寧 回復(fù)