用戶體驗(yàn)評(píng)估方法匯:可用性測(cè)試
文章主要圍繞可用性測(cè)試展開(kāi)分享??捎眯詼y(cè)試在產(chǎn)品評(píng)估體系里一直被稱為無(wú)往而不利的神器。
基本概念
今天我們來(lái)分享可用性測(cè)試,它在產(chǎn)品評(píng)估體系里一直被稱為無(wú)往而不利的神器!而概念的分歧和模糊,我們?cè)谟懻撍臅r(shí)候經(jīng)常混亂,所以我不得不用許多字?jǐn)?shù)將概念澄清:
1.可用性
根據(jù)ISO?9241-11的定義,可用性是指在特定環(huán)境下,產(chǎn)品為特定用戶用于特定目的時(shí)所具有的有效性、效率和主觀滿意度。
- 有效性是用戶完成特定任務(wù)和達(dá)成特定目標(biāo)時(shí)所具有的正確和完整程度。
- 效率是用戶完成任務(wù)的正確和完成程度與所用資源(如時(shí)間)之間的比率。
- 主觀滿意度是用戶在使用產(chǎn)品過(guò)程中所感受到的主觀滿意和接受程度。
Nielsen認(rèn)為可用性有五個(gè)指標(biāo),分別是易學(xué)性、易記性、容錯(cuò)性、交互效率和用戶滿意度。產(chǎn)品只有在每個(gè)指標(biāo)上都達(dá)到很好的水品,才具有高的可用性。
- 易學(xué)性:產(chǎn)品是否易于學(xué)習(xí)
- 交互效率:即客戶使用產(chǎn)品完成具體任務(wù)的效率
- 易記性:客戶擱置某產(chǎn)品一段時(shí)間后是否仍然記得如何操作
- 容錯(cuò)性:操作錯(cuò)誤出現(xiàn)的頻率和嚴(yán)重程度如何
總的來(lái)說(shuō),可用性直接關(guān)系著產(chǎn)品是否能滿足用戶的功能性需要,是用戶體驗(yàn)中的一種工具性的成分??捎眯允墙换ナ疆a(chǎn)品的重要質(zhì)量指標(biāo),如果人們無(wú)法使用或不愿意某個(gè)功能,那么該功能的存在也就沒(méi)什么意義了。
1.2可用性測(cè)試
可用性測(cè)試是在產(chǎn)品或產(chǎn)品原型階段實(shí)施的通過(guò)觀察或訪談或二者相結(jié)合的方法,發(fā)現(xiàn)產(chǎn)品或產(chǎn)品原型存在的可用性問(wèn)題,為設(shè)計(jì)改進(jìn)提供依據(jù)。可用性測(cè)試不是用來(lái)評(píng)估產(chǎn)品整體的用戶體驗(yàn),主要是發(fā)現(xiàn)潛在的誤解或功能在使用時(shí)存在的錯(cuò)誤。
可用性測(cè)試的具體操作概念包括觀察和訪談:
- 觀察:讓一群具有代表性的用戶對(duì)產(chǎn)品進(jìn)行典型操作,同時(shí)觀察員和開(kāi)發(fā)人員在一旁觀察,聆聽(tīng),做記錄。動(dòng)作的起始位置、習(xí)慣順序、操作的流暢程度、是否有遲疑、循環(huán)、肢體和面部表情的變化等等。
- 訪談:讓用戶陳述使用產(chǎn)品的體驗(yàn)感受,遇到的問(wèn)題,以及由自身出發(fā)提出建議。
您這么操作是為了??這里遇到什么問(wèn)題了?總體使用感受怎么樣?您覺(jué)得怎么設(shè)計(jì)會(huì)更好用?…
該產(chǎn)品可能是一個(gè)網(wǎng)站,軟件,或者其他任何產(chǎn)品,它可能尚未成型。測(cè)試可以是早期的紙上原型測(cè)試,也可以是后期成品的測(cè)試。
適合用階段
一般在產(chǎn)品概念初始原型(如圖紙/稿紙)提出之后,即可進(jìn)行簡(jiǎn)單的可用性測(cè);后期做出高保真原型之后,可以進(jìn)行更深入的測(cè)試;直至產(chǎn)品上線以后,也可對(duì)比競(jìng)品進(jìn)行比較測(cè)試。
分類
目前的可用性評(píng)估方法超過(guò)20種,按照參與可用性評(píng)估的人員劃分,可以分為專家評(píng)估和用戶評(píng)估;按照評(píng)估所處于的軟件開(kāi)發(fā)階段,可以將可用性評(píng)估劃分為形成性評(píng)估和總結(jié)性評(píng)估。形成性評(píng)估是指在軟件開(kāi)發(fā)或改進(jìn)過(guò)程中,請(qǐng)用戶對(duì)產(chǎn)品或原型進(jìn)行測(cè)試,通過(guò)測(cè)試后收集的數(shù)據(jù)來(lái)改進(jìn)產(chǎn)品或設(shè)計(jì)直至達(dá)到所要求的可用性目標(biāo)。形成性評(píng)估的目標(biāo)是發(fā)現(xiàn)盡可能多的可用性問(wèn)題,通過(guò)修復(fù)可用性問(wèn)題實(shí)現(xiàn)軟件可用性的提高,總結(jié)性評(píng)估的目的是橫向評(píng)估多個(gè)版本或者多個(gè)產(chǎn)品,輸出評(píng)估數(shù)據(jù)進(jìn)行對(duì)比。網(wǎng)站可用性測(cè)試包含的步驟有:定義明確的目標(biāo)和目的,安裝測(cè)試環(huán)境,選擇合適的受眾,進(jìn)行測(cè)試和報(bào)告結(jié)果。
1.認(rèn)知預(yù)演
認(rèn)知預(yù)演(Cognitive?Walkthroughs)是由Wharton等(1990)提出的,該方法首先要定義目標(biāo)用戶、代表性的測(cè)試任務(wù)、每個(gè)任務(wù)正確的行動(dòng)順序、用戶界面,然后進(jìn)行行動(dòng)預(yù)演并不斷地提出問(wèn)題,包括用戶能否建立達(dá)到任務(wù)目的,用戶能否獲得有效的行動(dòng)計(jì)劃,用戶能否采用適當(dāng)?shù)牟僮鞑襟E,用戶能否根據(jù)系統(tǒng)的反饋信息評(píng)價(jià)是否完成任務(wù),最后進(jìn)行評(píng)論,諸如要達(dá)到什么效果,某個(gè)行動(dòng)是否有效,某個(gè)行動(dòng)是否恰當(dāng),某個(gè)狀況是否良好。
- 該方法優(yōu)點(diǎn)在于能夠使用任何低保真原型,包括紙?jiān)汀?/li>
- 該方法缺點(diǎn)在于:評(píng)價(jià)人不是真實(shí)的用戶,不能很好地代表用戶。
例如:對(duì)于安卓橫屏原型的認(rèn)知預(yù)演,由團(tuán)隊(duì)成員完成,主要是產(chǎn)品經(jīng)理。
2.啟發(fā)式評(píng)估
啟發(fā)式評(píng)估?(Heuristic?Evaluation)由Nielsen和Molich(1990)提出,由多位評(píng)價(jià)人(通常4至6人)根據(jù)可用性原則反復(fù)瀏覽系統(tǒng)各個(gè)界面,獨(dú)立評(píng)估系統(tǒng),允許各位評(píng)價(jià)人在獨(dú)立完成評(píng)估之后討論各自的發(fā)現(xiàn),共同找出可用性問(wèn)題。
該方法的優(yōu)點(diǎn):專家決斷比較快、使用資源少,能夠提供綜合評(píng)價(jià),評(píng)價(jià)機(jī)動(dòng)性好;
不足之處:
- 是會(huì)受到專家的主觀影響;
- 是沒(méi)有規(guī)定任務(wù),會(huì)造成專家評(píng)估的不一致;
- 是評(píng)價(jià)后期階段由于評(píng)價(jià)人的原因造成信度降低;
- 是專家評(píng)估與用戶的期待存在差距,所發(fā)現(xiàn)的問(wèn)題僅能代表專家的意思。
例如:對(duì)于安卓橫屏原型的啟發(fā)式評(píng)估,由產(chǎn)品經(jīng)理、用戶研究員、技術(shù)開(kāi)發(fā)共5名成員完成。
操作使用完原型之后,按照事先擬定的評(píng)估原則表進(jìn)行評(píng)分和備注,隨后根據(jù)所有評(píng)估原則表結(jié)果總結(jié)并討論;評(píng)估原則表如下:
3.用戶測(cè)試法
用戶測(cè)試法(User?Test)就是讓用戶真正地使用軟件系統(tǒng),由實(shí)驗(yàn)人員對(duì)實(shí)驗(yàn)過(guò)程進(jìn)行觀察、記錄和測(cè)量。這種方法可以準(zhǔn)確地反饋用戶的使用表現(xiàn)、反映用戶的需求,是一種非常有效的方法。用戶測(cè)試可分為實(shí)驗(yàn)室測(cè)試和現(xiàn)場(chǎng)測(cè)試。實(shí)驗(yàn)室測(cè)試是在可用性測(cè)試實(shí)驗(yàn)室里進(jìn)行的,而現(xiàn)場(chǎng)測(cè)試是由可用性測(cè)試人員到用戶的實(shí)際使用現(xiàn)場(chǎng)進(jìn)行觀察和測(cè)試。
用戶測(cè)試之后評(píng)估人員需要匯編和總結(jié)測(cè)試中獲得的數(shù)據(jù),例如完成時(shí)間的平均值、中間值、范圍和標(biāo)準(zhǔn)偏差,用戶成功完成任務(wù)的百分比,對(duì)于單個(gè)交互,用戶做出各種不同傾向性懸著的直方圖表示等。然后對(duì)數(shù)據(jù)進(jìn)行分析,并根據(jù)問(wèn)題的嚴(yán)重程度和緊急程度排序撰寫最終測(cè)試報(bào)告。
例如:對(duì)于安卓橫屏原型的用戶測(cè)試,由公司內(nèi)部員工(已排除相關(guān)產(chǎn)品和技術(shù)開(kāi)發(fā)人員)6名用戶完成。
測(cè)試腳本于事先根據(jù)測(cè)試需求擬定,用于引導(dǎo)用戶觸及典型操作,也用于測(cè)試后評(píng)估問(wèn)題優(yōu)先級(jí)用。如下:
注意事項(xiàng)
- 你測(cè)試的是產(chǎn)品,而不是使用者。當(dāng)用戶不能按預(yù)期完成任務(wù)時(shí),需要改變的是產(chǎn)品而非用戶。
- 更多地依靠用戶的表現(xiàn)(操作,使用時(shí)間,錯(cuò)誤率等),而不是他們的偏好(主觀態(tài)度,滿意度評(píng)價(jià)等)。
- 基于用戶體驗(yàn),找出問(wèn)題的最佳解決方法
測(cè)試流程
1.定義并招募被試
選擇具有代表性的用戶可以減少樣本數(shù)量,提高研究效率。一般來(lái)說(shuō),參與可用性測(cè)試的產(chǎn)品的用戶或近期使用過(guò)競(jìng)品的用戶。在定義目標(biāo)用戶時(shí),可以從三個(gè)角度入手:
- 人口學(xué)特征,性別、年齡、學(xué)歷、職業(yè)、地域等
- 使用動(dòng)機(jī),如買家/賣家、企業(yè)/個(gè)人等
- 使用經(jīng)驗(yàn),如產(chǎn)品使用時(shí)長(zhǎng)、競(jìng)品使用情況、互聯(lián)網(wǎng)使用年限等
應(yīng)該招募多少用戶呢?據(jù)統(tǒng)計(jì)5名用戶大約可以發(fā)現(xiàn)85%的問(wèn)題。一般在迭代測(cè)試中,用戶數(shù)量一般控制在5-10個(gè)。如果用戶類型較多事,可安排每個(gè)類型3-5名用戶。
2.典型任務(wù)創(chuàng)建
首先要通過(guò)內(nèi)部溝通確定一份功能點(diǎn)清單。一般選擇產(chǎn)品或頁(yè)面5-8個(gè)功能點(diǎn)進(jìn)行測(cè)試,這些功能點(diǎn)可以是用戶常用功能、新增功能、關(guān)注度高的功能及先前版本中存在問(wèn)題的功能等。在可用性測(cè)試中,以用戶任務(wù)的方式展示出來(lái)。任務(wù)要能夠代表典型用戶的行為,并且聚焦在我們關(guān)心的功能點(diǎn)上。任務(wù)設(shè)置要具體、可執(zhí)行,盡量接近用戶使用的實(shí)際情況。聯(lián)系產(chǎn)品或頁(yè)面的使用場(chǎng)景,給用戶提供執(zhí)行任務(wù)的情境信息,如告訴用戶為什么要查找信息、為什么要購(gòu)買物品等。避免專業(yè)術(shù)語(yǔ)或內(nèi)部用語(yǔ)。
3.測(cè)試結(jié)果整理——可用性問(wèn)題分級(jí)
經(jīng)過(guò)可用性測(cè)試,可能會(huì)發(fā)現(xiàn)產(chǎn)品或頁(yè)面的很多可用性問(wèn)題。為了方便內(nèi)部人員決策,需要對(duì)這些可用性問(wèn)題進(jìn)行分類或等級(jí)界定。常見(jiàn)的分級(jí)方法有:
五級(jí)劃分
- 5級(jí):無(wú)關(guān)緊要的錯(cuò)誤
- 4級(jí):?jiǎn)栴}雖小但卻讓用戶焦躁
- 3級(jí):中等程度,耗費(fèi)時(shí)間但不會(huì)丟失數(shù)據(jù)
- 2級(jí):導(dǎo)致數(shù)據(jù)丟失的嚴(yán)重問(wèn)題
- 1級(jí):災(zāi)難性錯(cuò)誤,導(dǎo)致數(shù)據(jù)的丟失或者軟硬件的損壞
三級(jí)劃分
- 低:會(huì)讓參加者心煩或沮喪,但不會(huì)導(dǎo)致任務(wù)失敗。
- 中:與任務(wù)的失敗有一定關(guān)系但不直接導(dǎo)致任務(wù)的失敗。
- 高:直接導(dǎo)致任務(wù)失敗的問(wèn)題。
二維劃分,根據(jù)出現(xiàn)頻率和影響嚴(yán)重性
- 頻率低 ?、頻率高
- 影響大、中等、嚴(yán)重
- 影響小、不嚴(yán)重 、中等
決策樹(shù),根據(jù)以下三個(gè)因素綜合決定的:
- 頻率(Frequency):偶然的or經(jīng)常性的
- 影響(Impact):容易克服or很難克服
- 持續(xù)性(Persistence):一次性的or持續(xù)的
多維劃分,根據(jù)問(wèn)題所屬范圍和問(wèn)題出現(xiàn)頻率
- 問(wèn)題所屬范圍:交互、視覺(jué)、文案、功能、bug
- 問(wèn)題出現(xiàn)頻率:N個(gè)人出現(xiàn)同樣的錯(cuò)誤
最后,根據(jù)分級(jí)后的可用性問(wèn)題,安排優(yōu)先級(jí)去解決和調(diào)整??捎眯詼y(cè)試在產(chǎn)品迭代中,可以迅速敏捷地使用,通常出現(xiàn)了各種各樣的變式,我們?cè)趯?shí)際使用中應(yīng)該結(jié)合本項(xiàng)目的實(shí)際情況和已有的人力、物力來(lái)靈活使用。
作者:大狗狗,互聯(lián)網(wǎng)金融產(chǎn)品用戶研究員,心理學(xué)二年級(jí)學(xué)渣,公眾號(hào):同花順UED(公眾號(hào):Mob-HitThink-UED)
本文由 @大狗狗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
學(xué)習(xí)了
截圖的紅配黑,兩個(gè)色系都這么深,怎么看得見(jiàn)呢?這種截圖建議多和你們美工溝通下