量化用戶研究:可用性測(cè)試
編輯導(dǎo)語:對(duì)用戶進(jìn)行研究是研發(fā)產(chǎn)品、創(chuàng)造服務(wù)的一個(gè)前提,那么什么是用戶研究、怎么做用戶研究呢?這篇文章對(duì)這兩個(gè)問題進(jìn)行了一個(gè)非常詳細(xì)的解答,一起來看看吧。
一、WHAT? 什么是用戶研究?
用戶研究聽起來是個(gè)非常大的學(xué)科和話題,沒有具象的描述和切實(shí)的研究方法就顯得虛無縹緲,讓人有種霧里看花的感覺。
用戶研究和用戶體驗(yàn)一樣,在國(guó)外市場(chǎng)得到驗(yàn)證、認(rèn)可并被不同行業(yè)的企業(yè)所接受,而國(guó)內(nèi)市場(chǎng)處于萌芽階段,只有部分行業(yè)的頭部企業(yè)對(duì)其有較為清晰的認(rèn)知和應(yīng)用。
那么怎么定義用戶研究?
首先,用戶研究的目的是了解用戶,對(duì)用戶有更清晰、具象的畫像,是一系列研究方法的概括型的名稱。
聚焦互聯(lián)網(wǎng)行業(yè),什么崗位的同學(xué)最需要關(guān)注和學(xué)習(xí)用戶研究方法?與用戶、數(shù)據(jù)打交道的崗位需要對(duì)相關(guān)用研方法和分析方法有不同程度了解和應(yīng)用能力,例如,用戶研究員、市場(chǎng)研究員、數(shù)據(jù)分析師、產(chǎn)品經(jīng)理、體驗(yàn)設(shè)計(jì)師、交互設(shè)計(jì)師等等。
作為體驗(yàn)設(shè)計(jì)師或交互設(shè)計(jì)師,可以通過研究方法對(duì)用戶目標(biāo)、需求和能力的系統(tǒng)研究,用于指導(dǎo)設(shè)計(jì)、產(chǎn)品結(jié)構(gòu)或者工具的優(yōu)化,提升用戶工作和生活體驗(yàn)。
二、HOW? 怎么做用戶研究?
研究中包含的用研方法有很多,可以根據(jù)實(shí)際場(chǎng)景和資源選擇適合的方法,目前常用的實(shí)用性、可操作性比較強(qiáng)的四大方法:可用性測(cè)試、網(wǎng)站訪客(埋點(diǎn)數(shù)據(jù))、用戶調(diào)查、A/B Test。
在設(shè)計(jì)過程中的每個(gè)階段,用戶研究是都需要做的工作,但很多時(shí)候由于工期較短,deadline在前,設(shè)計(jì)師在產(chǎn)品設(shè)計(jì)初期沒有辦法做到較為完善的用戶研究,那么這部分工作就會(huì)被延后,在驗(yàn)證階段研究任務(wù)就會(huì)變得比較重,后期的優(yōu)化對(duì)此依賴性也比較強(qiáng)。
可用性測(cè)試是設(shè)計(jì)師在驗(yàn)證階段相對(duì)比較能貼近用戶的用研方式,在測(cè)試過程中通過觀察用戶行為,從即時(shí)的反饋中更容易獲得貼近真實(shí)的定性數(shù)據(jù),用對(duì)話溝通的方式深度挖掘用戶遇到的問題,從而鎖定優(yōu)化重點(diǎn)。
1. 了解可用性測(cè)試
(1)可用性測(cè)試的優(yōu)勢(shì)
可用性測(cè)試是確定用戶是否完成目標(biāo)的核心方式,它與其他用戶研究方法有許多相同的測(cè)試指標(biāo),并且能夠得出較多可用的定性數(shù)據(jù),可以收集的數(shù)據(jù)類型也比較多,例如,完成率、出錯(cuò)數(shù)、任務(wù)時(shí)間、任務(wù)水平的滿意度、測(cè)試水平的滿意度、尋求幫助的次數(shù)和可用性問題清單,這些數(shù)據(jù)極大的便利了后續(xù)的分析工作,幫助多維度的判斷產(chǎn)品的狀態(tài)、用戶的滿意度、體驗(yàn)問題等等。
(2)可用性測(cè)試的類型
可用性測(cè)試可以分為兩種測(cè)試類型:形成性測(cè)試(Formative Test)和總結(jié)性測(cè)試(Summative Test)。
①形成性測(cè)試
主要作用于查找與修復(fù)可用性問題,提供及時(shí)反饋便于改進(jìn),是設(shè)計(jì)師重點(diǎn)參與的測(cè)試類型。
- 通常以小樣本量的定性調(diào)查
- 數(shù)據(jù)以問題描述和設(shè)計(jì)建議形成輸出
- 采用頻率和嚴(yán)重性為指標(biāo)量化問題,追蹤那些用戶用到什么樣的問題,衡量完成任務(wù)時(shí)長(zhǎng),并判定他們是否成功的完成任務(wù)等
②總結(jié)性測(cè)試
用指標(biāo)度量可用性,用來評(píng)估效果,其中又分為基準(zhǔn)測(cè)試和比較測(cè)試。
(3)可采集的數(shù)據(jù)
樣本量:通常大于30,當(dāng)數(shù)據(jù)量小于10可通過統(tǒng)計(jì)學(xué)方法計(jì)算得到有效統(tǒng)計(jì)分析結(jié)論。
代表性:樣本能夠代表預(yù)期要描述的用戶群,若存在不同用戶群組中有重要差異因素的使用分層抽樣(Stratified Sampling)的方式。
隨機(jī)性:考慮所有重要變量,設(shè)計(jì)理想樣本,合理合并用戶群組。
測(cè)試數(shù)據(jù):現(xiàn)場(chǎng)/遠(yuǎn)程測(cè)試,觀察記錄用戶用戶行為,與用戶互動(dòng)深入挖掘問題。
完成率:即成功率,完成=1、失敗=0,完成率=完成任務(wù)用戶數(shù)/用戶總數(shù)。
可用性問題:根據(jù)問題出現(xiàn)的頻率和影響程度評(píng)估嚴(yán)重性、優(yōu)先級(jí)。
任務(wù)時(shí)間:任務(wù)完成時(shí)間、直到用戶失敗所用的時(shí)間、任務(wù)總時(shí)間。
出錯(cuò)數(shù):嘗試任務(wù)產(chǎn)生的無意識(shí)的出錯(cuò)數(shù)量,診斷失敗原因,預(yù)判可能出現(xiàn)的場(chǎng)景。
滿意度評(píng)分:使用標(biāo)準(zhǔn)化可用性問卷,回收數(shù)據(jù)計(jì)算得出。
復(fù)合分?jǐn)?shù):復(fù)合型總結(jié)可為用戶體驗(yàn)提供更好的總體描述。
2. 可用性測(cè)試問卷
經(jīng)過長(zhǎng)期的研究和市場(chǎng)驗(yàn)證,目前已沉淀出很多標(biāo)準(zhǔn)化的可用性問卷,不同的問卷的評(píng)估針對(duì)性不一樣,可以滿足大部分用研需求。
使用標(biāo)準(zhǔn)化的問卷是因?yàn)檫@些問卷是經(jīng)過大量的使用后驗(yàn)證校準(zhǔn)后產(chǎn)生的,是被認(rèn)可具有通識(shí)性的衡量標(biāo)準(zhǔn),這些問卷都具備客觀性、重復(fù)性、量化、經(jīng)濟(jì)、溝通、科學(xué)的普適性的優(yōu)質(zhì)屬性。
(1)標(biāo)準(zhǔn)化的可用性測(cè)試問卷
問卷類型主要可以分為以下兩大類:
列表中的問卷大部分是需要繳納一定的費(fèi)用后才能使用,但其中系統(tǒng)可用性整體評(píng)估問卷、軟件可用性問卷、場(chǎng)景后問卷是標(biāo)準(zhǔn)可用性問卷中可以免費(fèi)使用的。
應(yīng)用廣泛且被專家推薦的測(cè)試問卷是:軟件可用性問卷主要針對(duì)系統(tǒng)或功能進(jìn)行整體評(píng)估,問題設(shè)計(jì)精煉清晰,使用快捷方便;單項(xiàng)難易度問題追求的是心理測(cè)試的簡(jiǎn)單和適用性,有5分和7分制,7分制的可靠性更高;主觀腦力負(fù)荷問題是在線測(cè)試,靈敏性更好。
綜合評(píng)估下,軟件可用性問卷(Software Usability Scale,SUS)是設(shè)計(jì)日常中最合適最經(jīng)濟(jì)實(shí)用的測(cè)試問卷。
(2)軟件可用性問卷(SUS)
軟件可用性問卷是可用性測(cè)試結(jié)束時(shí)的主觀性評(píng)估問卷,應(yīng)用廣泛,測(cè)試后該問卷使用占比約43%。
整個(gè)問卷共10題,每題為5分制,奇數(shù)項(xiàng)為正面描述,偶數(shù)項(xiàng)為反面描述,可以通過修改問題文案聚焦測(cè)試范圍;如有需要可以將偶數(shù)項(xiàng)的問題調(diào)整為正面描述,但數(shù)據(jù)驗(yàn)證調(diào)整為正面描述的問卷結(jié)果與包含負(fù)面描述的問卷差異不大,不影響問卷的測(cè)試結(jié)論。
在完成測(cè)試任務(wù)后,用戶需快速完成各個(gè)題目,不進(jìn)行過多思考,若用戶因某些原因無法完成其中某個(gè)題目,則視為選擇中間值。
(3)可用性、易用性抽取
問卷整體可以抽取部分題目作為子測(cè)量表來作為單獨(dú)的問卷有針對(duì)性的進(jìn)行可用性和易學(xué)性測(cè)量,可用性由問卷中1-3、5-9題構(gòu)成,易學(xué)性由問卷中4、10題構(gòu)成。研究表明使用子測(cè)量表對(duì)量表的可信度的減低可忽略不計(jì)(0.92 → 0.91),并且使用子測(cè)量表可減少答題時(shí)間。
(4)分值計(jì)算
得分計(jì)算:范圍在0-4,每題進(jìn)行轉(zhuǎn)化分值;奇數(shù)題(正面):原始分減去1,(x-1);偶數(shù)題(負(fù)面):5減去原始分,(5-x)
- SUS總分= 所有轉(zhuǎn)化過的分值相加 * 2.5, 多樣本算SUS總分均值。
- 可用性總分=所有轉(zhuǎn)化過的可用性分?jǐn)?shù)相加*3.125。
- 易用性總分=所有轉(zhuǎn)化過的易用性分?jǐn)?shù)相加*12.5。
3. 統(tǒng)計(jì)學(xué)描述方法
可用性測(cè)試因?yàn)楹馁M(fèi)時(shí)間較長(zhǎng),能夠參與測(cè)試的用戶資源稀缺,回收樣本量小能夠收集到的樣本量一般會(huì)比較小。
樣本量小的情況下這個(gè)樣本量所能概括的整體是范圍比較大的,會(huì)存在較大誤差,那么在較為嚴(yán)謹(jǐn)?shù)膱?bào)告中,可能需要對(duì)所得分?jǐn)?shù)和除測(cè)試樣本外的分值預(yù)期進(jìn)行描述,這時(shí)候會(huì)涉及到統(tǒng)計(jì)學(xué)中常用的描述方式,即通過置信度及置信區(qū)間來描述,根據(jù)置信區(qū)間的下邊界看軟件是否低于行業(yè)標(biāo)準(zhǔn)。
(1)相關(guān)概念
置信區(qū)間是指在一定概率下包含樣本位置總體參數(shù)的這部分?jǐn)?shù)值區(qū)間,通過計(jì)算置信區(qū)間來描述測(cè)試結(jié)果的概率。置信區(qū)間寬度和樣本量之間是一個(gè)逆平方根的關(guān)系, 樣本量越小,誤差越大,未知樣本數(shù)據(jù)可能所在的區(qū)間更大。
置信度就是說,你測(cè)得的均值,和總體真實(shí)情況的差距小于這個(gè)給定的值的概率,應(yīng)該是1-α;換句話描述,即我們有1-α的信心認(rèn)為,你測(cè)得的這個(gè)均值和總體的實(shí)際期望很接近了(測(cè)得的均值就是總體期望是很草率的,但是說,我有95%的把握認(rèn)為我測(cè)得的均值,非常接近總體的期望了)。研究員可以選擇0%-100%之間的任意數(shù)值的置信度,通常設(shè)為90%或95%(最常用)。
臨界值是在原假設(shè)下,檢驗(yàn)統(tǒng)計(jì)量在分布圖上的點(diǎn),這些點(diǎn)定義一組要求否定原假設(shè)的值。
(2)置信區(qū)間計(jì)算
置信區(qū)間= (樣本平均值-誤差幅度)~(樣本平均值+誤差幅度)=(x -(x-μ))~(x +(x-μ))
- x = 樣本平均值
- 誤差幅度=臨界值*(樣本標(biāo)準(zhǔn)差/樣本量的平方根),即:(x – μ) =α* (s / sqrt(n))
- α=臨界值(Excel函數(shù)=TINV(1-置信度,樣本量-1))
- μ=被檢驗(yàn)的基準(zhǔn)值(行業(yè)標(biāo)準(zhǔn))
- s=樣本的標(biāo)準(zhǔn)差(Excel函數(shù)=STDEVP(N1,N2,..))
- n=樣本量
tips:臨界值可以通過所設(shè)置信度和樣本量在t分布表中查找相應(yīng)的值。
(3)可用性測(cè)試策劃應(yīng)用
在做可用性測(cè)試前,需要進(jìn)行很多準(zhǔn)備,過程中也需要記錄很多相關(guān)的信息,初步嘗試的設(shè)計(jì)師可以參照以下步驟完成可用性測(cè)試的整個(gè)流程:
Step1:確定調(diào)研目標(biāo)(目的、用戶、時(shí)間、環(huán)境)。
Step2:確定測(cè)試任務(wù)(任務(wù)內(nèi)容、測(cè)試方案、SUS問卷地址),任務(wù)內(nèi)容可以通過抽取用戶體驗(yàn)地圖(User Journey Map)流程中的觸點(diǎn)設(shè)計(jì),保證流程的完整性和任務(wù)的關(guān)聯(lián)性。
Step3:引導(dǎo)測(cè)試用戶完成可用性測(cè)試,過程中記錄測(cè)試時(shí)間、用戶遇到的問題、發(fā)生的頻率等等,記錄類型可以根據(jù)測(cè)試測(cè)中點(diǎn)進(jìn)行記錄。
Step4: 用戶填寫SUS問卷,回收問卷分?jǐn)?shù)進(jìn)行計(jì)算,得出SUS分?jǐn)?shù)、可用性分?jǐn)?shù)、易用性分?jǐn)?shù)的均值作為本次測(cè)試的結(jié)論。
Step5:作為補(bǔ)充,可以計(jì)算SUS樣本分?jǐn)?shù)的置信區(qū)間,預(yù)期未被測(cè)到的目標(biāo)用戶對(duì)產(chǎn)品的評(píng)分可能落在的區(qū)間,區(qū)間下限可橫向?qū)Ρ?,看是否低于行業(yè)標(biāo)準(zhǔn)??梢悦枋鰹椤皹颖痉?jǐn)?shù)標(biāo)準(zhǔn)誤差約=5.34,置信區(qū)間為63.78~69.12;有95%的把握認(rèn)為測(cè)得的均值接近總體期望,未測(cè)樣本分值將落在63.78~69.12之間,符合行業(yè)標(biāo)準(zhǔn)預(yù)期”。
Step6:通過測(cè)試過程中觀察用戶行為,探討用戶提出或下意識(shí)忽略的問題,并進(jìn)行問題的記錄和分類。
Step7:用戶訪談?dòng)涗泦栴}進(jìn)行解析,對(duì)問題的嚴(yán)重程度進(jìn)行評(píng)級(jí),選出問題較多的部分并提供可能的解決辦法進(jìn)行優(yōu)化。
Step8:根據(jù)以上結(jié)論對(duì)測(cè)試進(jìn)行總結(jié)性分析。
Reference:
- 數(shù)據(jù):文中數(shù)據(jù)為樣例,非真實(shí)數(shù)據(jù),僅作為演示用途
- 資料:《用戶體驗(yàn)度量:量化用戶體驗(yàn)的統(tǒng)計(jì)學(xué)方法》 — Jeff Sauro, Jame R Lewis
圖片:
- https://www.jianshu.com/p/d9346e4dd1b0
- https://www.pianshen.com/article/4953599654/
作者:藜漫;公眾號(hào):酷家樂用戶體驗(yàn)設(shè)計(jì)
本文由 @酷家樂用戶體驗(yàn)設(shè)計(jì) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels,基于 CC0 協(xié)議
文中有關(guān)SUS的計(jì)算是否有誤?
原始數(shù)據(jù):
3 5 4 3 4
3 3 4 2 3
4 3 3 4 5
3 2 4 2 3
4 3 3 2 4
2 3 4 2 3
4 3 4 4 5
3 3 2 4 3
3 3 3 4 3
2 3 2 3 3
轉(zhuǎn)化分值
2 4 3 2 3
2 2 1 3 2
3 2 2 3 4
2 3 1 3 2
3 2 2 1 3
3 2 1 3 2
3 2 3 3 4
2 2 3 1 2
2 2 2 3 2
3 2 3 2 2
五位用戶的SUS分值分別為62.5 57.5 52.5 60 65
SUS平均值為59.5
請(qǐng)問圖中的67.34是怎么得來的?
用戶研究對(duì)于一個(gè)新產(chǎn)品、一個(gè)新服務(wù)的開發(fā)還是挺重要的。
是的~