定目的、觀數(shù)據(jù)、斷樣本、選公式、縮誤差,五步估算你的樣本有多準(zhǔn)
如何快速準(zhǔn)確地計(jì)算出置信區(qū)間?五步法:定目的、觀數(shù)據(jù)、斷樣本、選公式、縮誤差。
在產(chǎn)品的可用性研究中,我們幾乎從來不會(huì)覆蓋整個(gè)用戶總體。取而代之的是我們會(huì)依賴取樣,通過樣本來估算未知總體的值。
當(dāng)我們?nèi)鄙儆脩艨傮w數(shù)據(jù)的情況下進(jìn)行估算的時(shí)候,即便是最好的估算結(jié)果也只能接近,但并不能得到真實(shí)的結(jié)果。而且樣本量越小,結(jié)果的準(zhǔn)確性越差。
我們需要一種方法來判斷估算我們到底有多準(zhǔn)確才行。
于是我們將在一定概率下包含未知參數(shù)的這部分?jǐn)?shù)值區(qū)間提取出來,這個(gè)范圍就叫做置信區(qū)間。
如何快速準(zhǔn)確的計(jì)算出置信區(qū)間,本人在工作總結(jié)了幾個(gè)方法步驟,快速估算出我們選取的樣本到底有多準(zhǔn)。
第一步:定目標(biāo)
1. 研究的目的;
首先我們要清楚的知道我們做這個(gè)研究是要達(dá)到什么樣的目的,公司的資源是有限的,如何用最低的成本去測(cè)試出最高價(jià)值版本的產(chǎn)品上線,這對(duì)一個(gè)產(chǎn)品經(jīng)理來或者用戶研究人員說是至關(guān)重要的。
研究主要分為兩種,一種是叫做“行成式可用性研究”主要用在產(chǎn)品發(fā)布之前,一種是“總結(jié)式可用性研究”主要在產(chǎn)品發(fā)布之后發(fā)現(xiàn)相關(guān)的產(chǎn)品問題;清楚的知道研究產(chǎn)品的哪個(gè)階段,該階段的具體問題,對(duì)可用性研究來說是至關(guān)重要的第一步。
例如:我們想驗(yàn)證新版本的產(chǎn)品的動(dòng)線設(shè)計(jì)對(duì)引導(dǎo)用戶加入購(gòu)物車這個(gè)動(dòng)作完成率是否有提高,提高了多少?是否可以上線去做測(cè)試?這是產(chǎn)品發(fā)布前,屬于“形成式研究”;我們想知道新上線的簽到得積分獎(jiǎng)勵(lì)這個(gè)功能對(duì)用戶的留存是否有提升,屬于產(chǎn)品功能發(fā)布之后,屬于“總結(jié)式”可用性研究。
2. 確定測(cè)試的度量;
確定好研究的目的之后,我們要細(xì)分到我們需要具體測(cè)試哪個(gè)維度來度量,不同用戶研究的目的對(duì)應(yīng)著不同的場(chǎng)景,不同的場(chǎng)景有不同的研究度量;很多時(shí)候一個(gè)場(chǎng)景是需要多個(gè)度量指標(biāo)來組合來得出產(chǎn)品的相關(guān)結(jié)論的。
例如:例如研究“完成一個(gè)業(yè)務(wù)”來說,需要測(cè)量“任務(wù)成功率”、“效率”、“基于任務(wù)的度量”、“自我報(bào)告式度量”等等;在研究“導(dǎo)航欄或者信息架構(gòu)的效果來說”需要度量“指定任務(wù)的成功率”、“發(fā)生的錯(cuò)誤率”等等度量的指標(biāo)。
3. 明確改版之后的效果目標(biāo)。
新版本的置信區(qū)間最低的值是否達(dá)到目標(biāo)的比例呢,從而判斷這次改版是否要上線。
例如:我們的目標(biāo)是新的消息提醒策略讓用戶的打開推薦消息率提高到3%,我們選100個(gè)用戶做研究時(shí),7個(gè)人打開;發(fā)現(xiàn)打開率的置信區(qū)間在3.2%~13.8%,誤差的最低范圍是3.2%>3%,于是可以上線。
建議:按照1、2、3的步驟來,層層深入,有利于目標(biāo)的精準(zhǔn)定位;第一步“定目標(biāo)”的目的是要知道我們的做這個(gè)研究的目的,通過怎樣的度量去做研究,明確該研究實(shí)驗(yàn)要達(dá)到目標(biāo),才能上線。
第二步:觀數(shù)據(jù)
不同的度量維度,所收集到的數(shù)據(jù)和數(shù)據(jù)類型是不同的,主要分為“二項(xiàng)式數(shù)據(jù)”和“連續(xù)性數(shù)據(jù)”兩類。
二項(xiàng)式數(shù)據(jù)的特點(diǎn)是編碼成一個(gè)二選一的答案,1表示成功,0表示失敗,它計(jì)算平均值是沒有意義的;而連續(xù)性數(shù)據(jù)的平均值是有一定意義的,它的平局值是符合正態(tài)分布,但是存在一定的“變異性”和“偏移性”。
不同的數(shù)據(jù)類型計(jì)算的公式也會(huì)有所不同,后面會(huì)闡述公式的選用。平時(shí)在測(cè)試任務(wù)成功率,和任務(wù)錯(cuò)誤率的時(shí)候,這些收集到的數(shù)據(jù)大多數(shù)是二項(xiàng)式數(shù)據(jù),在收集任務(wù)時(shí)間、評(píng)估得分的時(shí)候則多收集到的是連續(xù)性數(shù)據(jù)。
數(shù)據(jù)的獲取是根據(jù)“測(cè)量的目標(biāo)”來確定的,收集到的數(shù)據(jù)具體是哪類型的數(shù)據(jù),對(duì)于選擇置信區(qū)間的計(jì)算公式來說至關(guān)重要。
第三步:斷樣本
“斷樣本”關(guān)鍵是兩個(gè)環(huán)節(jié):“評(píng)估樣本的大小”和“篩選樣本的群體”。
樣本的數(shù)量的其實(shí)是受多方面的影響和選擇的(在接下來的文章中我會(huì)接著介紹樣本數(shù)量的計(jì)算)。
但是大多數(shù)情況下,我們是根據(jù)公司的具體情況來定樣本的大小,如果是線下邀請(qǐng)用戶來測(cè)試,我們需要考慮到很多成本問題;如果是線上的的分流測(cè)試,我們需要考慮用戶所處環(huán)境的場(chǎng)域影響問題,最大程度上減少數(shù)據(jù)的噪音干擾,對(duì)樣本數(shù)量的大小和樣本群體篩選來說是非常重要的。
然而最關(guān)鍵我們要知道在現(xiàn)有條件下獲得的樣本數(shù)量屬于大樣本還是小樣本,樣本的是否具有對(duì)研究目標(biāo)有一定的代表性。
第四步:選公式
置信區(qū)間公式的選??;主要受兩個(gè)因素影響:一個(gè)是數(shù)據(jù)的類型,一個(gè)是樣本的大小。接下來我就以上兩個(gè)來做一些分類:
1. 對(duì)于二項(xiàng)式數(shù)據(jù)
(1)Wald置信區(qū)間計(jì)算方法:
Wald區(qū)間的問題在于,應(yīng)用小樣本(小于100)或者比例接近0或1的時(shí)候非常不準(zhǔn)確。如果100次中實(shí)際應(yīng)該有95次都包含真實(shí)比例,Wald區(qū)間的值要小得多,通常會(huì)低至50%~60%;換句話說,當(dāng)你根據(jù)Wald公式報(bào)告95%的置信區(qū)間的時(shí)候,它實(shí)際上只有70%。應(yīng)為這個(gè)只發(fā)生在小樣本或者比例大于0.5的情況下。
(2)精準(zhǔn)置信區(qū)間計(jì)算方法:
優(yōu)點(diǎn):對(duì)于任何樣本數(shù)量和比例范圍都適用;
缺點(diǎn):過于保守,計(jì)算量大。
精準(zhǔn)區(qū)間建立在保證置信區(qū)間能夠提供至少95%覆蓋率的基礎(chǔ)上,為了達(dá)到這個(gè)目標(biāo),精準(zhǔn)區(qū)間往往過于保守和嚴(yán)謹(jǐn),其包含用戶比例接近于100人取99人次(和普通置信區(qū)間的100人去95人次相比)。
換句話說,當(dāng)你在使用精準(zhǔn)方法報(bào)告一個(gè)95%的置信區(qū)間時(shí),其結(jié)果可能來自99%的區(qū)間。結(jié)果會(huì)得到過寬的區(qū)間,特別是在樣本數(shù)量不是很大的情況下經(jīng)常會(huì)出現(xiàn)這種情況。
(3)Wald矯正區(qū)間計(jì)算方法:
Wald校正區(qū)間法對(duì)大多數(shù)的樣本完成率來說通Willon區(qū)間法一樣有較好的覆蓋率,在完成率接近0或1時(shí)通常有較好的結(jié)果?!霸黾觾纱纬晒εc兩次失敗”(或者分子加2,分母加4)是從95%區(qū)間的正態(tài)分布的臨界值(1.96,大約為2,平方后既為4)推導(dǎo)而來的:
x是成功完成任務(wù)的次數(shù);n是嘗試任務(wù)的次數(shù)(樣本量)。
標(biāo)準(zhǔn)的Wald公式調(diào)整后是:
例:如果有10個(gè)用戶7位成功地完成了任務(wù),我們可以有95%的信心說真實(shí)的完成率。分別用上面的三種方法計(jì)算。
2. 對(duì)于連續(xù)性數(shù)據(jù)
(1)連續(xù)性數(shù)據(jù)的置信區(qū)間
該計(jì)算計(jì)算的方法無論樣本大小的時(shí)候都比較適用,當(dāng)樣本小的時(shí)候,會(huì)增加置信區(qū)間寬度;當(dāng)樣本量大的時(shí)候,t置信度又會(huì)收斂于z區(qū)間;所有無論樣本大小都適用。
(2)幾何平均數(shù)計(jì)算置信區(qū)間
在樣本量小于25時(shí),幾何平均數(shù)比中位數(shù)和平均值有更少的錯(cuò)誤誤差。由于中位數(shù)具有“變異性”,對(duì)極端數(shù)值的影響力和抵抗力弱;而平均數(shù)具有“偏移性”樣本的平均值可能高估或者低估看樣本總體平均值。其中的關(guān)鍵點(diǎn)是要對(duì)數(shù)值先進(jìn)行對(duì)數(shù)轉(zhuǎn)化再來計(jì)算。
(3)圍繞中位數(shù)的的置信區(qū)間
對(duì)于特定類型的數(shù)據(jù)(例如,任務(wù)時(shí)長(zhǎng)、反應(yīng)時(shí)長(zhǎng)或薪資數(shù)據(jù))會(huì)有偏移性,它們的中位數(shù)通常比平均值更適合作為中間值來估算。
對(duì)于小樣本數(shù)據(jù)來說,幾何平均數(shù)對(duì)總體中位數(shù)的估算比樣本中位數(shù)要好。樣本尺寸越大(特別是超過25后),中位數(shù)越傾向成為中間值得最佳估算值。
第五步:縮誤差
“縮誤差”是指“縮小誤差幅度”,“置信區(qū)間=誤差幅度的兩倍”。知道如何縮誤小誤差幅度的之前,我們先要了解影響置信區(qū)間的主要因素,分別是:“置信度”、“變異性”、“樣本量”
置信度:舉個(gè)例子來說,95%的置信度就是在一個(gè)95%的置信區(qū)間中的覆蓋度。置信度為95%(通常使用的值)意味著如果同一個(gè)樣本中采樣100次,區(qū)間中將會(huì)有95次會(huì)包含真實(shí)的平均數(shù)和比例。
變異性:如果一個(gè)總體中總有較多的變異量,每一次的取樣都會(huì)對(duì)結(jié)果產(chǎn)生較大波動(dòng)進(jìn)而的一個(gè)較大的置信區(qū)間??傮w中的變異是通過計(jì)算樣本的偏差來估計(jì)的
樣本量:在不降低置信度的前提下,樣本量是一個(gè)產(chǎn)品經(jīng)理可以主動(dòng)調(diào)整并影響置信度區(qū)間的因素。置信區(qū)間寬度和樣本量之間是一個(gè)逆平方根的關(guān)系。這意味著如果你想將誤差幅度j降低一半,需要將樣本量翻兩翻。例如如果你的誤差幅度在樣本量為20的時(shí)候是正負(fù)20%,那么你需要在樣本量達(dá)到80時(shí)才能將誤差幅度為正負(fù)10%。
如果置信區(qū)間太大,我們會(huì)覺得這個(gè)樣本的估算太不靠譜,尤其置信區(qū)間大于50%的時(shí)候。所有在計(jì)算出置信區(qū)間之后一般在條件允許的情況下,都會(huì)先通過樣本的數(shù)量來調(diào)節(jié),再調(diào)節(jié)置信度,最后看看樣本的質(zhì)量是否存在變異性。
本文由 @平遙抒雪 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
- 目前還沒評(píng)論,等你發(fā)揮!