用戶研究 | 調(diào)研樣本量選擇背后的科學(xué)道理
在用戶研究中,對于用戶群選取樣本量進(jìn)行分析是一項(xiàng)很重要的工作。對于調(diào)研樣本量的選取背后也有很大的學(xué)問,是不是樣本量越大就越有可信度呢?可用性測試到底多少人才是最恰當(dāng)?shù)哪??這些都是用戶研究調(diào)研中應(yīng)該注意的問題。
用研工作中我們經(jīng)常跟同事(非用研)說XX的樣本量就夠了,可是為什么呢?
如何決定樣本量,其實(shí)是一個(gè)老生常談的話題了,也有很多相關(guān)介紹文章。但是翻看相關(guān)文章后,就會(huì)發(fā)現(xiàn)介紹選多少合適的挺多的,而介紹為什么這么選就合適的卻比較少。
相信很多用研同學(xué)都聽過或就對其他人說過這句著名的話:
“根據(jù)尼爾森關(guān)于可用性測試的經(jīng)典理論,6-8人便可以找到產(chǎn)品80%以上的可用性問題。”
但是……為啥呢?
當(dāng)有“無知的”地球人問:為什么6-8人就能發(fā)現(xiàn)80%以上的問題時(shí),難道我們要理直氣壯的說:“因?yàn)槭悄釥柹褪钦f的么……”
在樣本量選擇上,似乎有一些“約定俗成”的規(guī)定,比如:可用性測試5-8人,問卷調(diào)研大約200-500份等等……
但是,當(dāng)需要和地球人理論時(shí),單單的“約定俗成”卻沒有足夠的說服力。不如讓我們一起來看看這些“約定俗成”背后的科學(xué)道理,讓自己更有底氣。
一、為什么說可用性測試5-8個(gè)人就夠
俗話說“8個(gè)用戶可以發(fā)現(xiàn)80%的問題”,其實(shí)這句話并不完整,完整的說法應(yīng)該是:“8個(gè)人可以80%的概率發(fā)現(xiàn)發(fā)生可能性大于18%的問題。”
這話太繞了,嘗試用人話解釋一下:如果某個(gè)APP中存在一個(gè)BUG,100個(gè)人用,50個(gè)人用都會(huì)遇到,那么我們至少有80%的可能性發(fā)現(xiàn)。只要可能遇到的人大于18個(gè)(發(fā)生可能性大于18%),我們都至少有80%的可能性發(fā)現(xiàn)。但如果這個(gè)BUG只有5個(gè)人可會(huì)遇到,那么能發(fā)現(xiàn)的概率就要低于80%了。
之所以這么說,背后的原理是這樣一個(gè)公式:
(P(X≥1)是在n次嘗試中事件至少發(fā)生1次的概率,p是某事件的概率)
前輩們根據(jù)這個(gè)公式總結(jié)出了下表:
資料來源:《用戶體驗(yàn)度量》Jeff Sauro,James R.Lewis著,機(jī)械工業(yè)出版社。
P134-135從表中可以看出:決定樣本量涉及到兩個(gè)因素:一個(gè)是確定程度,一個(gè)是問題發(fā)生的概率。
再來具體看一看我們常說的“8個(gè)人”:
當(dāng)選擇8個(gè)人進(jìn)行測試時(shí),可以100%發(fā)現(xiàn)發(fā)生概率大于50%的問題,90%的可能性發(fā)現(xiàn)發(fā)生概率大于25%的問題,73%的可能性發(fā)現(xiàn)發(fā)生概率大于15%的問題。
就好像天氣預(yù)報(bào)員說:100%的確定明天的降水概率大于50%,90%的確定明天的降水概率大于25%。
等等,這樣的話會(huì)不會(huì)被質(zhì)疑:8個(gè)人只能90%發(fā)現(xiàn)發(fā)生概率大于25%的問題,那發(fā)生概率低于25%的問題怎么辦?就不重要了么?
不我們再來看看尼爾森介紹的一個(gè)關(guān)于釣魚的比喻:
假設(shè)你有好多個(gè)池塘可以釣魚,一些魚比另一些魚更容易抓到。
所以,如果你有10小時(shí),你會(huì)花10個(gè)小時(shí)都在一個(gè)池塘里釣魚,還是花5個(gè)小時(shí)在一個(gè)池塘上、花另外的5個(gè)小時(shí)在另一個(gè)池塘上呢?
為使抓到的魚數(shù)量最大化,你應(yīng)該在兩個(gè)池塘上都花一些時(shí)間,以便從每個(gè)池塘里都釣到容易釣的魚。
一次何必找那么多用戶,少做幾個(gè)用戶先把發(fā)生率高的問題解決了,版本更新以后再繼續(xù)找用戶去解決發(fā)生率高的問題,省時(shí)省力效果佳。
這樣基本上就可以完整的證明我們可用性測試做5-8個(gè)人就基本可以的觀點(diǎn)了。
二、問卷調(diào)研,樣本量選多少
在做問卷調(diào)研的時(shí)候,如何估計(jì)樣本量?
——眾所周知有一個(gè)公式:
但是,這個(gè)公式存在一個(gè)問題:我要是連總體方差(CV2)都能知道,還做個(gè)毛線調(diào)研。
如果想估算總體方差,需要先選取一批人進(jìn)行測試,得到一個(gè)樣本方差,用樣本方差代替總體方差,這在現(xiàn)實(shí)工作中顯然難以實(shí)現(xiàn)。
于是為了便于計(jì)算,偉大的前輩對公式進(jìn)行了轉(zhuǎn)換:
資料來源:《社會(huì)研究方法》仇立平著,重慶大學(xué)出版社,P137作者說這一轉(zhuǎn)換是根據(jù)“推論總體比例或百分比的原理”進(jìn)行的。
姑且不去管這個(gè)轉(zhuǎn)換原理是什么,這個(gè)公式我們可以這樣來理解:當(dāng)p=0.5的時(shí)候,總體的差異性最大。因?yàn)閜=0.5表示兩種情況出現(xiàn)的概率是相等的,比如:一個(gè)群體中男生和女生出現(xiàn)的概率都是0.5,說明男女人數(shù)相等。這種情況下,這個(gè)群體的性別差異是最大的。
由于總體差異越大,需要的樣本量就越大。我們面對任何總體的時(shí)候,都可以假設(shè)“這是一個(gè)差異性最大的總體”,來計(jì)算我們所需要的樣本量。因此,把p=0.5代入,就簡化出了一個(gè)可以供我們輕松計(jì)算樣本量的公式。
如果想看到總體不同差異所對應(yīng)的樣本量,前人還總結(jié)了這樣一個(gè)表:
資料來源:《社會(huì)研究方法》仇立平著,重慶大學(xué)出版社,P137
因此假設(shè)總體差異性最大的情況下,在習(xí)慣使用的5%誤差檔,300多的樣本也就可以了。
當(dāng)然,在具體使用過程中,并不用查表那么麻煩。有一個(gè)著名的計(jì)算樣本量的網(wǎng)站,直接去算就OK了。
三、用戶量越大,需調(diào)研人數(shù)越多嗎
首先,總體規(guī)模會(huì)對樣本量有影響。當(dāng)總體規(guī)模比較小的時(shí)候,對樣本量影響較大。但是當(dāng)總體規(guī)模達(dá)到一定程度以后,對樣本量增加的需求是較小的。
我們往往調(diào)查所涉及到的總體不是無限總體,產(chǎn)品的用戶人數(shù)都是一個(gè)有限的數(shù)量。因此,在計(jì)算所需樣本量的時(shí)候,為了更精確可以加入變量“總體規(guī)?!保酱蟾砰L成這個(gè)樣子:
然而,這不是重點(diǎn),重點(diǎn)是通過這個(gè)公式可以計(jì)算出,不同總體規(guī)模所需要的樣本量大致如下:
由此可以看出:當(dāng)總體規(guī)模在1萬以下時(shí),隨著總體規(guī)模上升,所需樣本量增加比較大。但是,當(dāng)總體規(guī)模在1萬以上時(shí),規(guī)模再變大,所需樣本人數(shù)的增長變得緩慢。
為了得到更準(zhǔn)確的答案,我們不妨用計(jì)算樣本量的網(wǎng)址自己來算一下。
假設(shè)置信區(qū)間為±5個(gè)標(biāo)準(zhǔn)差。計(jì)算結(jié)果如下:
如果再有人說:我們是億級(jí)的產(chǎn)品,1000人怎么能代表我們的用戶?
就可以理直氣壯的告訴他:“總體規(guī)模10萬以上和10萬所需要的樣本量并沒有什么區(qū)別呢。”
樣本量選多少合適,對于調(diào)研本身而言或許不是個(gè)問題。但是,當(dāng)我們想推動(dòng)調(diào)研結(jié)果的時(shí)候,樣本量卻很容易遭到對方質(zhì)疑。
可能是幾百個(gè)人的答案看起來容易讓人覺得不靠譜,也可能因?yàn)闃颖玖渴亲钊菀踪|(zhì)疑的一個(gè)因素……
無論如何,多了解一些背后的原因,讓自己更有底氣,或許才能更好地說服別人。
原作者:陳聆帙@NetEase電商設(shè)計(jì)中心 ,筆者根據(jù)自己工作需要部分內(nèi)容稍作調(diào)整。歡迎交流!
本文由 @黑眼鏡的貓 發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
k是啥,e是啥
好厲害