99精品国产三级片，亚洲无码黄频在线观看，永久免费每天更新AV，免费现黄频在线观看国产，欧美性爱视频一区二区，久久精品这里只有精品首页，午夜性色福利视频，亚洲超碰97人人

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

定目的、觀數(shù)據(jù)、斷樣本、選公式、縮誤差，五步估算你的樣本有多準(zhǔn)

平遙抒雪

2019-01-18

0 評(píng)論 4588 瀏覽 17 收藏

14 分鐘

如何快速準(zhǔn)確地計(jì)算出置信區(qū)間？五步法：定目的、觀數(shù)據(jù)、斷樣本、選公式、縮誤差。

在產(chǎn)品的可用性研究中，我們幾乎從來不會(huì)覆蓋整個(gè)用戶總體。取而代之的是我們會(huì)依賴取樣，通過樣本來估算未知總體的值。

當(dāng)我們?nèi)鄙儆脩艨傮w數(shù)據(jù)的情況下進(jìn)行估算的時(shí)候，即便是最好的估算結(jié)果也只能接近，但并不能得到真實(shí)的結(jié)果。而且樣本量越小，結(jié)果的準(zhǔn)確性越差。

我們需要一種方法來判斷估算我們到底有多準(zhǔn)確才行。

于是我們將在一定概率下包含未知參數(shù)的這部分?jǐn)?shù)值區(qū)間提取出來，這個(gè)范圍就叫做置信區(qū)間。

如何快速準(zhǔn)確的計(jì)算出置信區(qū)間，本人在工作總結(jié)了幾個(gè)方法步驟，快速估算出我們選取的樣本到底有多準(zhǔn)。

第一步：定目標(biāo)

1. 研究的目的；

首先我們要清楚的知道我們做這個(gè)研究是要達(dá)到什么樣的目的，公司的資源是有限的，如何用最低的成本去測(cè)試出最高價(jià)值版本的產(chǎn)品上線，這對(duì)一個(gè)產(chǎn)品經(jīng)理來或者用戶研究人員說是至關(guān)重要的。

研究主要分為兩種，一種是叫做“行成式可用性研究”主要用在產(chǎn)品發(fā)布之前，一種是“總結(jié)式可用性研究”主要在產(chǎn)品發(fā)布之后發(fā)現(xiàn)相關(guān)的產(chǎn)品問題；清楚的知道研究產(chǎn)品的哪個(gè)階段，該階段的具體問題，對(duì)可用性研究來說是至關(guān)重要的第一步。

例如：我們想驗(yàn)證新版本的產(chǎn)品的動(dòng)線設(shè)計(jì)對(duì)引導(dǎo)用戶加入購(gòu)物車這個(gè)動(dòng)作完成率是否有提高，提高了多少？是否可以上線去做測(cè)試？這是產(chǎn)品發(fā)布前，屬于“形成式研究”；我們想知道新上線的簽到得積分獎(jiǎng)勵(lì)這個(gè)功能對(duì)用戶的留存是否有提升，屬于產(chǎn)品功能發(fā)布之后，屬于“總結(jié)式”可用性研究。

2. 確定測(cè)試的度量；

確定好研究的目的之后，我們要細(xì)分到我們需要具體測(cè)試哪個(gè)維度來度量，不同用戶研究的目的對(duì)應(yīng)著不同的場(chǎng)景，不同的場(chǎng)景有不同的研究度量；很多時(shí)候一個(gè)場(chǎng)景是需要多個(gè)度量指標(biāo)來組合來得出產(chǎn)品的相關(guān)結(jié)論的。

例如：例如研究“完成一個(gè)業(yè)務(wù)”來說，需要測(cè)量“任務(wù)成功率”、“效率”、“基于任務(wù)的度量”、“自我報(bào)告式度量”等等；在研究“導(dǎo)航欄或者信息架構(gòu)的效果來說”需要度量“指定任務(wù)的成功率”、“發(fā)生的錯(cuò)誤率”等等度量的指標(biāo)。

3. 明確改版之后的效果目標(biāo)。

新版本的置信區(qū)間最低的值是否達(dá)到目標(biāo)的比例呢，從而判斷這次改版是否要上線。

例如：我們的目標(biāo)是新的消息提醒策略讓用戶的打開推薦消息率提高到3%，我們選100個(gè)用戶做研究時(shí)，7個(gè)人打開；發(fā)現(xiàn)打開率的置信區(qū)間在3.2%~13.8%，誤差的最低范圍是3.2%>3%,于是可以上線。

建議：按照1、2、3的步驟來，層層深入，有利于目標(biāo)的精準(zhǔn)定位；第一步“定目標(biāo)”的目的是要知道我們的做這個(gè)研究的目的，通過怎樣的度量去做研究，明確該研究實(shí)驗(yàn)要達(dá)到目標(biāo)，才能上線。

第二步：觀數(shù)據(jù)

不同的度量維度，所收集到的數(shù)據(jù)和數(shù)據(jù)類型是不同的，主要分為“二項(xiàng)式數(shù)據(jù)”和“連續(xù)性數(shù)據(jù)”兩類。

二項(xiàng)式數(shù)據(jù)的特點(diǎn)是編碼成一個(gè)二選一的答案，1表示成功，0表示失敗，它計(jì)算平均值是沒有意義的；而連續(xù)性數(shù)據(jù)的平均值是有一定意義的，它的平局值是符合正態(tài)分布，但是存在一定的“變異性”和“偏移性”。

不同的數(shù)據(jù)類型計(jì)算的公式也會(huì)有所不同，后面會(huì)闡述公式的選用。平時(shí)在測(cè)試任務(wù)成功率，和任務(wù)錯(cuò)誤率的時(shí)候，這些收集到的數(shù)據(jù)大多數(shù)是二項(xiàng)式數(shù)據(jù)，在收集任務(wù)時(shí)間、評(píng)估得分的時(shí)候則多收集到的是連續(xù)性數(shù)據(jù)。

數(shù)據(jù)的獲取是根據(jù)“測(cè)量的目標(biāo)”來確定的，收集到的數(shù)據(jù)具體是哪類型的數(shù)據(jù)，對(duì)于選擇置信區(qū)間的計(jì)算公式來說至關(guān)重要。

第三步：斷樣本

“斷樣本”關(guān)鍵是兩個(gè)環(huán)節(jié)：“評(píng)估樣本的大小”和“篩選樣本的群體”。

樣本的數(shù)量的其實(shí)是受多方面的影響和選擇的（在接下來的文章中我會(huì)接著介紹樣本數(shù)量的計(jì)算）。

但是大多數(shù)情況下，我們是根據(jù)公司的具體情況來定樣本的大小，如果是線下邀請(qǐng)用戶來測(cè)試，我們需要考慮到很多成本問題；如果是線上的的分流測(cè)試，我們需要考慮用戶所處環(huán)境的場(chǎng)域影響問題，最大程度上減少數(shù)據(jù)的噪音干擾，對(duì)樣本數(shù)量的大小和樣本群體篩選來說是非常重要的。

然而最關(guān)鍵我們要知道在現(xiàn)有條件下獲得的樣本數(shù)量屬于大樣本還是小樣本，樣本的是否具有對(duì)研究目標(biāo)有一定的代表性。

第四步：選公式

置信區(qū)間公式的選??；主要受兩個(gè)因素影響：一個(gè)是數(shù)據(jù)的類型，一個(gè)是樣本的大小。接下來我就以上兩個(gè)來做一些分類：

1. 對(duì)于二項(xiàng)式數(shù)據(jù)

（1）Wald置信區(qū)間計(jì)算方法：

Wald區(qū)間的問題在于，應(yīng)用小樣本（小于100）或者比例接近0或1的時(shí)候非常不準(zhǔn)確。如果100次中實(shí)際應(yīng)該有95次都包含真實(shí)比例，Wald區(qū)間的值要小得多，通常會(huì)低至50%~60%；換句話說，當(dāng)你根據(jù)Wald公式報(bào)告95%的置信區(qū)間的時(shí)候，它實(shí)際上只有70%。應(yīng)為這個(gè)只發(fā)生在小樣本或者比例大于0.5的情況下。

（2）精準(zhǔn)置信區(qū)間計(jì)算方法：

優(yōu)點(diǎn)：對(duì)于任何樣本數(shù)量和比例范圍都適用；

缺點(diǎn)：過于保守，計(jì)算量大。

精準(zhǔn)區(qū)間建立在保證置信區(qū)間能夠提供至少95%覆蓋率的基礎(chǔ)上，為了達(dá)到這個(gè)目標(biāo)，精準(zhǔn)區(qū)間往往過于保守和嚴(yán)謹(jǐn)，其包含用戶比例接近于100人取99人次（和普通置信區(qū)間的100人去95人次相比）。

換句話說，當(dāng)你在使用精準(zhǔn)方法報(bào)告一個(gè)95%的置信區(qū)間時(shí)，其結(jié)果可能來自99%的區(qū)間。結(jié)果會(huì)得到過寬的區(qū)間，特別是在樣本數(shù)量不是很大的情況下經(jīng)常會(huì)出現(xiàn)這種情況。

（3）Wald矯正區(qū)間計(jì)算方法：

Wald校正區(qū)間法對(duì)大多數(shù)的樣本完成率來說通Willon區(qū)間法一樣有較好的覆蓋率，在完成率接近0或1時(shí)通常有較好的結(jié)果?！霸黾觾纱纬晒εc兩次失敗”（或者分子加2，分母加4）是從95%區(qū)間的正態(tài)分布的臨界值（1.96，大約為2，平方后既為4）推導(dǎo)而來的：

x是成功完成任務(wù)的次數(shù)；n是嘗試任務(wù)的次數(shù)（樣本量）。

標(biāo)準(zhǔn)的Wald公式調(diào)整后是：

例：如果有10個(gè)用戶7位成功地完成了任務(wù)，我們可以有95%的信心說真實(shí)的完成率。分別用上面的三種方法計(jì)算。

2. 對(duì)于連續(xù)性數(shù)據(jù)

（1）連續(xù)性數(shù)據(jù)的置信區(qū)間

該計(jì)算計(jì)算的方法無論樣本大小的時(shí)候都比較適用，當(dāng)樣本小的時(shí)候，會(huì)增加置信區(qū)間寬度；當(dāng)樣本量大的時(shí)候，t置信度又會(huì)收斂于z區(qū)間；所有無論樣本大小都適用。

（2）幾何平均數(shù)計(jì)算置信區(qū)間

在樣本量小于25時(shí)，幾何平均數(shù)比中位數(shù)和平均值有更少的錯(cuò)誤誤差。由于中位數(shù)具有“變異性”，對(duì)極端數(shù)值的影響力和抵抗力弱；而平均數(shù)具有“偏移性”樣本的平均值可能高估或者低估看樣本總體平均值。其中的關(guān)鍵點(diǎn)是要對(duì)數(shù)值先進(jìn)行對(duì)數(shù)轉(zhuǎn)化再來計(jì)算。

（3）圍繞中位數(shù)的的置信區(qū)間

對(duì)于特定類型的數(shù)據(jù)（例如，任務(wù)時(shí)長(zhǎng)、反應(yīng)時(shí)長(zhǎng)或薪資數(shù)據(jù)）會(huì)有偏移性，它們的中位數(shù)通常比平均值更適合作為中間值來估算。

對(duì)于小樣本數(shù)據(jù)來說，幾何平均數(shù)對(duì)總體中位數(shù)的估算比樣本中位數(shù)要好。樣本尺寸越大（特別是超過25后），中位數(shù)越傾向成為中間值得最佳估算值。

第五步：縮誤差

“縮誤差”是指“縮小誤差幅度”，“置信區(qū)間=誤差幅度的兩倍”。知道如何縮誤小誤差幅度的之前，我們先要了解影響置信區(qū)間的主要因素，分別是：“置信度”、“變異性”、“樣本量”

置信度：舉個(gè)例子來說，95%的置信度就是在一個(gè)95%的置信區(qū)間中的覆蓋度。置信度為95%（通常使用的值）意味著如果同一個(gè)樣本中采樣100次，區(qū)間中將會(huì)有95次會(huì)包含真實(shí)的平均數(shù)和比例。

變異性：如果一個(gè)總體中總有較多的變異量，每一次的取樣都會(huì)對(duì)結(jié)果產(chǎn)生較大波動(dòng)進(jìn)而的一個(gè)較大的置信區(qū)間?？傮w中的變異是通過計(jì)算樣本的偏差來估計(jì)的

樣本量：在不降低置信度的前提下，樣本量是一個(gè)產(chǎn)品經(jīng)理可以主動(dòng)調(diào)整并影響置信度區(qū)間的因素。置信區(qū)間寬度和樣本量之間是一個(gè)逆平方根的關(guān)系。這意味著如果你想將誤差幅度j降低一半，需要將樣本量翻兩翻。例如如果你的誤差幅度在樣本量為20的時(shí)候是正負(fù)20%，那么你需要在樣本量達(dá)到80時(shí)才能將誤差幅度為正負(fù)10%。

如果置信區(qū)間太大，我們會(huì)覺得這個(gè)樣本的估算太不靠譜，尤其置信區(qū)間大于50%的時(shí)候。所有在計(jì)算出置信區(qū)間之后一般在條件允許的情況下，都會(huì)先通過樣本的數(shù)量來調(diào)節(jié)，再調(diào)節(jié)置信度，最后看看樣本的質(zhì)量是否存在變異性。

本文由 @平遙抒雪原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App