如何設(shè)計(jì)更可信的評(píng)價(jià)體系?
其他用戶的評(píng)價(jià)是選擇一樣?xùn)|西時(shí)的重要參考,但是在利益的驅(qū)使下,眾多無意義的評(píng)價(jià)出現(xiàn)。為了真正實(shí)現(xiàn)評(píng)價(jià)的作用,評(píng)價(jià)體系的設(shè)計(jì)就顯得尤為重要。
評(píng)價(jià)體系已然作為當(dāng)今社會(huì)不可或缺的一部分,是社會(huì)基于群體智慧,對(duì)個(gè)體可信度最直接有效的度量方法。因此,評(píng)價(jià)體系將發(fā)揮越來越重要的作用。
當(dāng)我即將預(yù)定一家從未去過的酒店,其他房客對(duì)這家酒店的評(píng)價(jià)能讓我更客觀地了解到酒店的真實(shí)質(zhì)量和服務(wù)水平。
當(dāng)我選擇叫一份外賣時(shí),我會(huì)打開相關(guān)外賣軟件搜索餐廳,然后閱讀其他食客的評(píng)價(jià),尤其是帶圖片的評(píng)價(jià),經(jīng)過這一步我基本能過濾九成不靠譜的餐廳。
健康的評(píng)價(jià)體系,對(duì)于用戶和商家的價(jià)值是顯而易見的。反之,評(píng)價(jià)體系的惡意利用會(huì)帶來一系列的問題,不僅有損初衷,還會(huì)降低評(píng)價(jià)體系長(zhǎng)遠(yuǎn)的影響公信力。
在互聯(lián)網(wǎng)領(lǐng)域,評(píng)價(jià)體系存在的主要問題:
- 個(gè)體差異;
- 評(píng)價(jià)動(dòng)機(jī);
- 利己評(píng)價(jià)。
問題1:個(gè)體差異
在我們所常見的評(píng)價(jià)體系中,基本上同等對(duì)待所有用戶的評(píng)價(jià),然而這種 “平等” 反而帶來了“不平等”。這種做法是建立在“群體無差異”的前提下的,這顯然是不符合現(xiàn)實(shí)的——人和人的差別實(shí)在是太大了。
我和同事出差入住了同一家酒店相同的房型,我是一個(gè)容易滿足的人,在聊天的時(shí)候我表示對(duì)這家酒店很滿意。
而同事因?yàn)橹肮ぷ鞯年P(guān)系經(jīng)常入住五星級(jí)酒店,所以很多問題就沒那么容易逃出他的火眼金睛了。枕頭的硬度不夠,導(dǎo)致躺下的時(shí)候頭會(huì)陷阱去太多、中央空調(diào)的噪音有點(diǎn)大、淋浴碰頭上有很多水銹、提供的洗護(hù)用品品質(zhì)不夠等等。這一點(diǎn)不能怪我的同事太過挑剔,當(dāng)我有一天入住的豪華酒店足夠多了,我說不定也會(huì)一樣挑剔。
再舉一個(gè)例子:
在大眾點(diǎn)評(píng)里,我有這樣一類朋友,他們是天生的“差評(píng)師”,他們帶著一張?zhí)籼薜淖?,味蕾敏感,吃遍上海美食,?xí)慣批評(píng),幾乎沒有遇到過滿意的餐廳。
但也有這樣一群朋友,他們天生習(xí)慣性好評(píng),遇到什么都說“好吃!” “棒!” “不錯(cuò)!”。
因?yàn)閭€(gè)體的生活閱歷、物質(zhì)條件、性格特點(diǎn)的不同,對(duì)相同事物的評(píng)價(jià)相差大,這就會(huì)對(duì)事物的客觀變現(xiàn)的評(píng)價(jià)產(chǎn)生偏差。
問題2:評(píng)價(jià)動(dòng)機(jī)
對(duì)于受多個(gè)獨(dú)立因素影響的事物的和的平均值,符合正態(tài)分布,不管每個(gè)因素本身是什么分布 [1]。比如,男性和女性的身高分別呈現(xiàn)正態(tài)分布的特征,動(dòng)物的體重也呈現(xiàn)正態(tài)分布的特征。
用戶對(duì)一款產(chǎn)品的評(píng)價(jià),顯然也應(yīng)符合正態(tài)分布。因?yàn)橛脩魧?duì)產(chǎn)品的評(píng)價(jià)是相互獨(dú)立的,即我對(duì)事物的評(píng)價(jià)不會(huì)左右他人對(duì)事物的評(píng)價(jià)。
然而,事情結(jié)果和理論相去甚遠(yuǎn)。
下圖是我從 Google Play 上截取了幾款用戶規(guī)模很大的產(chǎn)品的評(píng)分,可以發(fā)現(xiàn)從高評(píng)分到低評(píng)分,均表現(xiàn)出和正態(tài)分布相反的情況。
Google Play 內(nèi)某些App的評(píng)分
如果我們仔細(xì)想一下用戶為什么會(huì)評(píng)價(jià),這種反常現(xiàn)象就很容易被解釋了。
用戶在發(fā)表評(píng)價(jià)時(shí)的動(dòng)機(jī),要么是非常喜歡、非常滿意,要么就是非常不滿意;而持中立態(tài)度的用戶大多不會(huì)沒事找事給產(chǎn)品寫一段評(píng)價(jià)。
這就天然造成了好評(píng)(5星)和差(1星)會(huì)集中出現(xiàn),而本應(yīng)占比大多數(shù)的中立評(píng)價(jià)(2~4星)很少。
評(píng)價(jià)動(dòng)機(jī)導(dǎo)致中評(píng)信息的缺失,對(duì)評(píng)價(jià)系統(tǒng)的數(shù)據(jù)完整性產(chǎn)生影響,進(jìn)而影響到評(píng)價(jià)可信度。
問題3:利己評(píng)價(jià)
利益驅(qū)動(dòng)下,客觀性蕩然無存。
當(dāng)你翻閱一下 App Store 里水軍的評(píng)價(jià)和各種垃圾廣告,再翻閱某寶的部分有返現(xiàn)引導(dǎo)好評(píng)的商家的商品評(píng)價(jià),就對(duì)這句話深有感觸了。
評(píng)價(jià)體系的作用,原本是為了基于用戶的客觀評(píng)價(jià),幫助消費(fèi)者做出正確的購買決策的。因?yàn)楹芏嗌唐肥怯幸欢ǖ脑囧e(cuò)成本,所以,我可以通過第三方的評(píng)價(jià)信息做出理智判斷,而非商家通過經(jīng)由營銷高手打磨出來的圖文介紹。如此一來,電商會(huì)朝著一個(gè)良性的方向發(fā)展。
不過隨著電商的興起,“刷好評(píng)”越來越被需要進(jìn)而變成了一個(gè)具有規(guī)模的產(chǎn)業(yè),商家花錢購買水軍為自己的商品刷好評(píng),從而引導(dǎo)更多的轉(zhuǎn)化。
某搜索引擎的搜索聯(lián)想
除了刷好評(píng),還有刷差評(píng)的。
花錢購買水軍去競(jìng)爭(zhēng)對(duì)手的產(chǎn)品頁刷差評(píng),惡意抹黑對(duì)手,從其中獲利。
還有部分外賣用戶,用差評(píng)威脅商家,已達(dá)到吃霸王餐的目的,甚至進(jìn)行敲詐勒索。
可以怎么做?
淘寶:篩選可信度較高的評(píng)價(jià)
淘寶最大的在售品類是服裝,而服裝是非常受主觀偏好所影響的,因此如何建立更加中立可信的評(píng)價(jià)體系,將有助于淘寶平臺(tái)更健康地發(fā)展。
淘寶為此做了很多嘗試,例如人工審核、評(píng)價(jià)舉報(bào)、申訴仲裁、引導(dǎo)更多內(nèi)容完整的帶圖評(píng)價(jià)等。
本文想討論的是,淘寶如何通過各類機(jī)制,篩選可信度較高的評(píng)價(jià),從而幫助消費(fèi)者正確決策。
首先,帶圖的評(píng)價(jià)相比純文字的評(píng)價(jià),具有更豐富的信息含量,因此在淘寶評(píng)價(jià)模塊中,有一個(gè)「有圖」篩選的選項(xiàng),能夠快速幫我過濾出所有帶圖片的評(píng)價(jià),這些由消費(fèi)者實(shí)拍而來的照片,更加真實(shí)貼近產(chǎn)品本身的情況。
從統(tǒng)計(jì)學(xué)的角度來說,愿意發(fā)圖片的用戶,大概率來說會(huì)更加認(rèn)真地對(duì)商品作出評(píng)價(jià)。
其次,折疊了淘寶認(rèn)為對(duì)購物參考幫助不大的評(píng)價(jià),這一切是基于大數(shù)據(jù)對(duì)評(píng)價(jià)內(nèi)容的預(yù)測(cè)判斷。從結(jié)果上來看,的確折疊了很多“水評(píng)”和一些默認(rèn)評(píng)價(jià),這些評(píng)價(jià)對(duì)購買決策是沒有幫助的。
淘寶的做法是通過對(duì)評(píng)價(jià)的正向篩選,讓有價(jià)值的、可信的評(píng)價(jià)獲得更多展示機(jī)會(huì)。
淘寶 APP 評(píng)價(jià)模塊截圖
Airbnb:異步實(shí)名互評(píng)
Airbnb 是共享經(jīng)濟(jì)的代表,房東將閑置房間出租給游客以獲得收入。
設(shè)想一下,你會(huì)讓一個(gè)素未謀面的游客住進(jìn)自己的家里嗎?這對(duì)于很多房東來說是對(duì)信任感的極大挑戰(zhàn)。
反之,房客如果要住進(jìn)陌生人的家里,或多或少也有擔(dān)心,房東是不是壞人?房東是不是脾氣不好?
不僅如此,還要對(duì)非標(biāo)品服務(wù)的質(zhì)量擁有足夠的信心,因?yàn)槊總€(gè)人的家都是不一樣的,這是極端的非標(biāo)準(zhǔn)化。不像酒店,在你入住之前你對(duì)其服務(wù)質(zhì)量已經(jīng)有大致預(yù)期了,而民宿不同,經(jīng)常會(huì)超出你的想象。
因此,如何幫助房東和房客建立互信,并彼此約束,是Airbnb業(yè)務(wù)中非常重要的一環(huán),實(shí)名認(rèn)證的異步互評(píng)便是有效的舉措之一。
首先,Airbnb 的房東房客,在發(fā)布空間或預(yù)定空間之前,都需要進(jìn)行實(shí)名認(rèn)證:上傳護(hù)照或身份證信息,綁定手機(jī)號(hào)并鼓勵(lì)用戶上傳真實(shí)頭像。
通過這些信息綁定,可以將賬號(hào)與人一一對(duì)應(yīng),一旦發(fā)生問題,Airbnb 可以迅速鎖定到具體的個(gè)體身上。而且實(shí)名認(rèn)證的過程對(duì)用戶是一種約束,比起匿名行為,實(shí)名會(huì)讓用戶相對(duì)收斂。
其次,Airbnb 入住流程中有一個(gè)很有意思的設(shè)計(jì)細(xì)節(jié):當(dāng)旅客完成入住后,房東和房客均有14天的時(shí)間對(duì)雙方的表現(xiàn)作出評(píng)價(jià),并且只有當(dāng)雙方都在14天之內(nèi)互相作出了評(píng)價(jià)后,評(píng)價(jià)才會(huì)對(duì)雙方展示,且不允許修改。
這種模式是不是很熟悉?
沒錯(cuò),警察審問超過兩人的團(tuán)伙嫌疑人時(shí),就是采用隔離審問,嫌犯之間不能做出事先約定,因此能提高審訊結(jié)果的可信度。
房客可能由于在房東家住了幾天與房東成了半熟人,礙于情面不忍給出真實(shí)評(píng)價(jià),Airbnb 用這種方法,避免了房東和房客之間的作弊、消除尷尬,從而一定程度上提高了評(píng)價(jià)內(nèi)容的真實(shí)性。
缺陷與優(yōu)化空間
在以上案例中,依然存在缺陷,分別來看:
淘寶
無論是突出帶圖評(píng)價(jià),還是折疊“水評(píng)”,目前的優(yōu)化還是圍繞評(píng)價(jià)的信息內(nèi)容展開的。
但是,基于評(píng)價(jià)的效價(jià)(用戶評(píng)論時(shí)對(duì)商品價(jià)值所持的態(tài)度,評(píng)價(jià)效價(jià)一般分為正面、中性和負(fù)面評(píng)價(jià))的優(yōu)化還不足,“五星好評(píng)返5元”和友商惡評(píng)等不實(shí)評(píng)價(jià)依然有滋生空間。
Dellarocas[2]將不實(shí)評(píng)價(jià)分為不實(shí)高評(píng)價(jià)和不實(shí)低評(píng)價(jià)。
不實(shí)高評(píng)價(jià)是為了抬高商品評(píng)價(jià),提升銷量;
不實(shí)低評(píng)價(jià)是為了打壓商品評(píng)價(jià),遏制商品銷售。
Airbnb
異步實(shí)名互評(píng)終究會(huì)迎來“囚徒困境”的宿命:個(gè)人最佳選擇并非團(tuán)體最佳選擇。
往往如此,房東與房客大概率都會(huì)對(duì)對(duì)方作出好評(píng),而隱瞞部分真實(shí)情況。這讓原本希望通過評(píng)價(jià)內(nèi)容來增加信任背書的做法,漸漸失去公信力。
上一位房東對(duì)房客的不實(shí)評(píng)價(jià),很有可能會(huì)讓下一位房東接待一位“破壞分子”;而房客對(duì)房東的不實(shí)評(píng)價(jià),也很有可能讓下一位旅客住進(jìn)一間“小黑屋”。
對(duì)于信息的可信度而言,可以從信息的來源、信息的傳播渠道、信息的內(nèi)容三個(gè)方面入手。
首先,評(píng)價(jià)信息來源于購買過服務(wù)的用戶,由于用戶的見識(shí)、背景、環(huán)境、偏好、交易動(dòng)機(jī)的不同,導(dǎo)致用戶在購買相同產(chǎn)品時(shí)給出的評(píng)價(jià)完全不同 [3]。
因此,可以基于現(xiàn)有海量的用戶數(shù)據(jù),對(duì)用戶本身作出可信度評(píng)級(jí),再依次評(píng)級(jí)對(duì)其產(chǎn)生的信息內(nèi)容作出可信度判斷。
陳元琳 [4] 給出了一種采用 K-means 聚類算法將用戶分為3類用戶群,通過實(shí)證數(shù)據(jù)分析驗(yàn)證了用戶群間明顯的評(píng)價(jià)偏好差異;然后利用評(píng)價(jià)偏好特征,確立每類用戶不同類型交易評(píng)價(jià)的可信度,并提出了動(dòng)態(tài)的交易評(píng)價(jià)可信度更新策略。
其次,信息的不同傳播渠道也會(huì)對(duì)信息的可信度產(chǎn)生影響。
用戶在傳統(tǒng)印刷類媒體,諸如報(bào)刊、雜志、書本上發(fā)布不可信內(nèi)容的成本遠(yuǎn)遠(yuǎn)高于線上網(wǎng)絡(luò)環(huán)境。由于互聯(lián)網(wǎng)具有傳播擴(kuò)散速度快、節(jié)點(diǎn)分散、傳播成本低的特征,使不實(shí)信息,尤其是不實(shí)評(píng)價(jià)在互聯(lián)網(wǎng)上瘋狂擴(kuò)張。這一點(diǎn)目前還沒有看到好的解決方法,也許只能依賴于政策和相關(guān)法規(guī)。
再次,信息的內(nèi)容本身也是值得優(yōu)化的重點(diǎn),分別從評(píng)價(jià)數(shù)量和評(píng)價(jià)內(nèi)容質(zhì)量入手。
評(píng)價(jià)數(shù)量越多,信息不對(duì)稱越小,對(duì)于商品的綜合判斷就越準(zhǔn)確,這一點(diǎn)很多電商及外賣平臺(tái)均采用了次方法(可以按照評(píng)價(jià)數(shù)量和銷量篩選商品)。
越是愿意發(fā)表詳細(xì)且高質(zhì)量的內(nèi)容的用戶,其評(píng)價(jià)指標(biāo)也就越可信 [5]。
不過,對(duì)于內(nèi)容的可信度判斷有時(shí)候不能僅僅依靠?jī)?nèi)容質(zhì)量來判斷,還可以綜合語義和情感均衡、時(shí)效性等維度來判斷 [6]。
所有場(chǎng)景都適合評(píng)價(jià)嗎?
不過,并不是所有的商品或服務(wù)都適用網(wǎng)絡(luò)評(píng)價(jià)。
我之前在知乎上提過一個(gè)問題:為什么我們不會(huì)對(duì)航班進(jìn)行評(píng)價(jià)?
我截取部分個(gè)人也認(rèn)同的回答:
因?yàn)楹桨噙@個(gè)東西,可變性太大了。
比如在某些時(shí)候,由于天氣原因或者其他因素造成了航班延誤,那么當(dāng)日當(dāng)次航班的旅客肯定評(píng)價(jià)就特別低;而在某些時(shí)候天氣很好,會(huì)發(fā)生航班提前抵達(dá)的情況,旅客給予較高的評(píng)分;在有些航線上比如京滬,機(jī)型時(shí)刻在變化,這樣又對(duì)評(píng)價(jià)的客觀性提出了苛刻的要求。
所以,現(xiàn)在一些航空公司是以電子郵件的形式收集當(dāng)日當(dāng)次實(shí)際乘坐的旅客的意見,而不是任何人均可以評(píng)價(jià),這樣對(duì)于航空公司的數(shù)據(jù)更為完善。
而對(duì)C端,我們會(huì)在航旅縱橫、飛常準(zhǔn)等客戶端能夠看到,但評(píng)價(jià)一般是帶有旅客本人的主觀性的,以及部分灌水無效內(nèi)容(比如惡意廣告等)。
by 知乎用戶:CA1301
航班來說屬于必須品,而且有的時(shí)候是不可替換,它不會(huì)因?yàn)槟愕呢?fù)面評(píng)價(jià)做出啥改變,當(dāng)然你要是大佬可能會(huì)該下,你坐不坐那個(gè)航班它都會(huì)照常起飛、降落。
而酒店、約車啥的你一看這個(gè)不行啊,你就可以很輕易換一個(gè)。
你換個(gè)飛機(jī)試試?
by 知乎用戶:雪落
再者,對(duì)于先前發(fā)生的滴滴打車事件,反而是因?yàn)檐囍鳙@取了“過多”可靠信息后,心生歹意。
筆者在做調(diào)研時(shí),發(fā)現(xiàn)很少有人提到評(píng)價(jià)體系的適用場(chǎng)景,但我認(rèn)為這同樣重要。
了解事物的邊界,才能更好地優(yōu)化。
參考閱讀
1. John D. Cook, Why isn’t everything normally distributed?
2. Dellarocas C. Immunizing online reputation reporting systems against unfair ratings and discriminatory behavior [C]//Proceedings of the 2nd ACM Conference on Electronic Commerce. New York, NY: ACM, 2000: 150-157.
3. Xu Q. Should I trust him? The effects of reviewer profile characteristics on eWOM credibility [J]. Computers in Human Behavior, 2014, 33: 136-144.
4. CHEN Yuanlin, CHAI Yueting, LIU Yi, XU Yang. Transaction rating credibility based on user group preference[J]. Journal of Tsinghua University (Science and Technology), 2015, 55(5): 558-564.
5. Ghose A, Ipeirotis P G. Estimating the helpfulness and economic impact of product reviews: Mining text and reviewer characteristics [J].IEEE Transactions on Knowledge and Data Engineering, 2011, 23(10): 1498-1512.
6. 在線中文商品評(píng)論可信度研究[J],現(xiàn)代圖書情報(bào)技術(shù),2013(9): 60-66.
本文由 @陽子 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
非常好(此條5元)
學(xué)習(xí)了,很棒的分享
感謝分享
干貨
感謝鼓勵(lì)