定量研究:需要測(cè)試多少用戶(hù)?

2 評(píng)論 6295 瀏覽 17 收藏 10 分鐘

在收集可用性指標(biāo)問(wèn)題時(shí),20 個(gè)用戶(hù)的測(cè)試通常會(huì)提供相當(dāng)可靠的置信區(qū)間。

我們可以根據(jù)質(zhì)量指標(biāo)定義可用性,例如學(xué)習(xí)時(shí)間、使用效率、可記憶性,用戶(hù)錯(cuò)誤和主觀滿(mǎn)意度等??杀氖?,因?yàn)檫@么做費(fèi)用很高,很少有項(xiàng)目收集以上這些指標(biāo):收集這些指標(biāo)需要測(cè)試的用戶(hù)數(shù)是簡(jiǎn)單測(cè)試的 4 倍。

由于用戶(hù)性能存在巨大的個(gè)體差異,因此需要測(cè)試許多用戶(hù)。當(dāng)你衡量人時(shí),你總會(huì)得到一些非??焖俚娜撕鸵恍┓浅>徛娜恕hb于此,你需要在相當(dāng)多的觀測(cè)值上對(duì)這些度量取均值,以平滑度量的可變性。

一、Web 可用性數(shù)據(jù)的標(biāo)準(zhǔn)偏差

從以前的分析中我們了解到,網(wǎng)站等產(chǎn)品上的用戶(hù)表現(xiàn)遵循正態(tài)分布。這是值得高興的,因?yàn)檎龖B(tài)分布在統(tǒng)計(jì)上很容易處理。通過(guò)這兩個(gè)數(shù)字——平均值和標(biāo)準(zhǔn)偏差——你就可以繪制表示數(shù)據(jù)的鐘形曲線(正態(tài)分布曲線)。

我分析了 1520 個(gè)用戶(hù)任務(wù)時(shí)間度量,它們來(lái)自 70 個(gè)官網(wǎng)和內(nèi)聯(lián)網(wǎng)相關(guān)的任務(wù)測(cè)試。在這些研究中,標(biāo)準(zhǔn)差為平均值的 52%。例如,如果某個(gè)人物的完成平均時(shí)間是 10 分鐘,那么該指標(biāo)的標(biāo)準(zhǔn)偏差為 5.2 分鐘。

二、去除異常值

為了計(jì)算標(biāo)準(zhǔn)偏差,我首先刪除了過(guò)慢用戶(hù)的異常值。這是合理的嗎?在某些方面,不是的:慢用戶(hù)是真實(shí)存在,并且在評(píng)估設(shè)計(jì)質(zhì)量時(shí)應(yīng)該加以考慮的。因此,即使我建議從統(tǒng)計(jì)分析中刪除異常值,你也不應(yīng)該忽略它們。對(duì)異常值的測(cè)試會(huì)話進(jìn)行定性分析,并找出降低性能的“壞運(yùn)氣”(例如:糟糕的設(shè)計(jì))。

然而,對(duì)于大多數(shù)統(tǒng)計(jì)分析,都應(yīng)該消除異常值。因?yàn)樗鼈兪请S機(jī)發(fā)生的,所以在一項(xiàng)研究中可能會(huì)有更多的異常值,這些極端值會(huì)嚴(yán)重影響平均值和其他結(jié)論。

計(jì)算統(tǒng)計(jì)數(shù)據(jù)的唯一理由是將它們與其他統(tǒng)計(jì)數(shù)據(jù)進(jìn)行比較。假設(shè)任務(wù)時(shí)間均值為 10 分鐘,但 10 分鐘好還是壞?你無(wú)法判斷,因?yàn)檫@個(gè)數(shù)據(jù)是孤零零存在的,沒(méi)有和其他數(shù)據(jù)進(jìn)行比較。

如果要求用戶(hù)訂閱電子郵件,10 分鐘的平均任務(wù)時(shí)間將會(huì)非常糟糕。從許多新聞?dòng)嗛喠鞒滔嚓P(guān)的研究中得知,其他網(wǎng)站的平均任務(wù)時(shí)間為 1 分鐘,用戶(hù)只需要不到 2 分鐘就能滿(mǎn)意。另一方面,10 分鐘就表示用于更復(fù)雜任務(wù)的可用性非常高,例如申請(qǐng)抵押貸款。

關(guān)鍵在于收集可用性度量標(biāo)準(zhǔn),將它們與其他可用性度量標(biāo)準(zhǔn)比較,例如將你的網(wǎng)站與競(jìng)爭(zhēng)對(duì)手的網(wǎng)站進(jìn)行比較,或?qū)⒛阈碌脑O(shè)計(jì)與舊網(wǎng)站進(jìn)行比較。

當(dāng)從兩個(gè)統(tǒng)計(jì)數(shù)據(jù)中消除異常值后,仍然會(huì)有有效的比較。如果留有異常值,兩種情況下的平均任務(wù)時(shí)間都會(huì)顯得高一些。但如果沒(méi)有異常值,你更可能得出正確的結(jié)論,因?yàn)槟悴惶赡芨吖榔骄?,而這個(gè)平均值恰好有更多的異常值。

三、估算誤差的余量

當(dāng)將來(lái)自正態(tài)分布的多個(gè)觀測(cè)數(shù)據(jù)進(jìn)行平均時(shí),平均值的標(biāo)準(zhǔn)偏差(SD)是各個(gè)數(shù)值的 SD 除以觀測(cè)數(shù)量的平方根。例如,如果有 10 個(gè)觀察值,則平均值的 SD 為原始標(biāo)準(zhǔn)差的 1 / sqrt(10)= 0.316 倍。

我們知道,對(duì)于企業(yè)官網(wǎng)和內(nèi)部網(wǎng)的用戶(hù)測(cè)試,SD 是平均值的 52%。換句話說(shuō),如果測(cè)試了 10 個(gè)用戶(hù),那么平均值的 SD 將是平均值的 16%,因?yàn)?0.316 x 0.52 = 0.16。

假設(shè)我們正在測(cè)試需要 5 分鐘才能完成的任務(wù)。那么,平均值的 SD 是 300 秒的 16% = 48 秒。對(duì)于正態(tài)分布,2/3 的例子與平均值相差 +/- 1 SD。因此,我們的平均水平將在 48 秒之內(nèi)。

下圖顯示了測(cè)試不同用戶(hù)數(shù)量時(shí)的誤差幅度,假設(shè)需要 90% 的置信區(qū)間(藍(lán)色曲線)。這意味著 90% 的可能性在此區(qū)間,5% 過(guò)低,5% 過(guò)高。對(duì)于實(shí)際的項(xiàng)目,確實(shí)不需要做得比這個(gè)更精準(zhǔn)。

紅色曲線顯示了如果放寬要求到一半的時(shí)候會(huì)發(fā)生什么。(這意味著我們會(huì)在 1/4 時(shí)間內(nèi)過(guò)低,而在 1/4 時(shí)間內(nèi)過(guò)高。)

不同數(shù)量用戶(hù)與誤差范圍大小

四、確定用戶(hù)數(shù)量

在圖表中,誤差范圍表示為可用性度量標(biāo)準(zhǔn)平均值的百分比。例如,如果測(cè)試 10 個(gè)用戶(hù),則誤差范圍則是平均值的 +/27%。這就是說(shuō)如果平均任務(wù)時(shí)間是 300 秒(5 分鐘),那么誤差范圍是 +/-81 秒。因此,置信區(qū)間就從 219 秒變?yōu)?381 秒:90%的可能性在此區(qū)間內(nèi); 5% 的低于 219,5% 的高于 381。

這是一個(gè)相當(dāng)寬松的置信區(qū)間,同時(shí),這也是為什么我建議在收集量化可用性指標(biāo)時(shí)用 20 個(gè)用戶(hù)進(jìn)行測(cè)試的原因。對(duì)于 20 個(gè)用戶(hù),可能會(huì)有1個(gè)異常值(因?yàn)?6% 的用戶(hù)是異常值),將平均覆蓋 19 個(gè)用戶(hù)數(shù)據(jù)。這使得置信區(qū)間從 243 變?yōu)?357 秒,因?yàn)闇y(cè)試 19 位用戶(hù)的誤差范圍是 +/-19%。

你可能覺(jué)得這仍然是一個(gè)很寬松的置信區(qū)間,但事實(shí)上,要進(jìn)一步收緊這個(gè)置信區(qū)間需要付出高昂的代價(jià)。要獲得 +/-10% 的誤差范圍,需要 71 個(gè)用戶(hù)數(shù)據(jù),也就是說(shuō)你必須測(cè)試 76 人來(lái)考慮 5 個(gè)可能的異常值。

從實(shí)際項(xiàng)目來(lái)看,測(cè)試 76 個(gè)用戶(hù)是完全沒(méi)必要的。每個(gè)設(shè)計(jì)測(cè)試 20 個(gè)用戶(hù),就可以獲得 4 種不同設(shè)計(jì)的足夠好的數(shù)據(jù),而不僅是為了更好的指標(biāo),將預(yù)算用戶(hù)單個(gè)設(shè)計(jì)測(cè)試。

實(shí)際上,對(duì)于大多數(shù)情況來(lái)說(shuō),+/-19% 的置信區(qū)間就足夠了。主要是,要比較兩種設(shè)計(jì),看哪一種更好。畢竟,網(wǎng)站之間的平均差異是 68% ——這遠(yuǎn)高于誤差范圍。

另外,請(qǐng)記住 +/-19% 幾乎是最壞的情況;90% 的機(jī)會(huì)你會(huì)做得更好。紅色曲線顯示,如果使用 20 個(gè)用戶(hù)進(jìn)行測(cè)試并分析 19 個(gè)數(shù)據(jù),則??其中一半可能性在平均值的 +/-8% 范圍內(nèi)。換句話說(shuō),一半的可能性獲得了較好的精準(zhǔn)度,另一半獲得十分高的精準(zhǔn)度。這就是非學(xué)術(shù)項(xiàng)目所需要的。

五、定量與定性

基于以上分析,我建議在做 20 個(gè)用戶(hù)的定量研究測(cè)試。這非常貴,因?yàn)楹茈y找到符合目標(biāo)用戶(hù)群的測(cè)試用戶(hù)。

幸運(yùn)的是,你不必衡量可用性從而改進(jìn)它。通常,只需少量用戶(hù)就可以進(jìn)行測(cè)試,并根據(jù)對(duì)其行為的定性分析所發(fā)現(xiàn)的問(wèn)題來(lái)修改設(shè)計(jì)。當(dāng)你看到有幾個(gè)人被同樣的問(wèn)題所困擾時(shí),你并不需要了解用戶(hù)被影響到了什么程度。如果它正在(或者已經(jīng))傷害了用戶(hù),那就有必要調(diào)整或者改進(jìn)的必要。

通常可以對(duì) 5 個(gè)用戶(hù)進(jìn)行定性研究,不過(guò)定量研究的費(fèi)用大致為定性的 4 倍。此外,定量研究很容易出錯(cuò)并產(chǎn)生誤導(dǎo)性數(shù)據(jù)。當(dāng)你收集數(shù)據(jù)而不是見(jiàn)解時(shí),一切都必須十分精確,否則就做不好定量研究。

由于價(jià)格昂貴且難以正確運(yùn)用,通常會(huì)特別謹(jǐn)慎的使用定量研究。我十分建議,你做的前幾個(gè)可用性研究最好是定性的。只有經(jīng)常做可用性研究,并且將研究結(jié)果與實(shí)際結(jié)合運(yùn)用并取得實(shí)質(zhì)性的進(jìn)展后,才能開(kāi)始在研究中使用一些定量研究。

#專(zhuān)欄作家#

鄭幾塊,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家,前新浪微博產(chǎn)品經(jīng)理。

本文系作者@鄭幾塊 獨(dú)家翻譯授權(quán),未經(jīng)本站許可,不得轉(zhuǎn)載

題圖來(lái)自 Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 挺復(fù)雜的 ?

    來(lái)自廣東 回復(fù)