為什么常見的5星評價系統(tǒng)不靠譜?
對于評價系統(tǒng),你要的又是什么呢?是更多的真實評價(不一定好),還是更多的好評(并不一定真實)?
我經(jīng)常喝咖啡的一家咖啡館,它在 Google 的評分系統(tǒng)中,只有3星,盡管它是這個城市當(dāng)中咖啡做的最好喝的非星巴克咖啡。原因僅僅是因為有過兩個差評。
有很多公司只生產(chǎn)某些產(chǎn)品,因為他們的這些產(chǎn)品在10年前曾經(jīng)在亞馬遜上獲得了很多5星好評。而我的 Uber 評分僅僅只有4.7分,我唯一的「缺點」是和我的乘客缺乏溝通,因為我全程僅僅只會說「你好,謝謝,再見」,如果有需要,我可能補充幾句小貼士。
對于司機而言,如果不小心碰上一位情緒暴躁的乘客,坐在后座猛抽煙,司機一句「請勿吸煙」可能就會帶來一個1星差評。然后接下來的一個月,你得花費大量的接單和好評來抹除這個差評帶來的負面影響。
滯后效應(yīng)
我有一個親戚,將自己的鄉(xiāng)間別墅掛在 Airbnb 上面出租。她的第一批客戶是一群年輕人,他們租用這個地方希望能夠舉辦派對,但是她不允許,擔(dān)心躁動的年輕人會把房子給毀了,結(jié)果她收到了一個2星差評,這在 Airbnb 的系統(tǒng)中意味著她再也沒法把房子租出去了。這使得她不得不重新注冊,換個名稱重新開始。
這在情況下,如果看評分幾乎是沒人會來租這房子。這是一種非常典型的滯后效應(yīng):當(dāng)前的系統(tǒng)狀態(tài)依賴于之前狀態(tài)和評價。這種模式和信用評級以及銀行貸款的運作方式類似,更通俗的講,就是我們使用過去的行為和狀態(tài)作為當(dāng)前的評判指標(biāo)。同樣的,現(xiàn)在所做的事情,最終也只是在未來被窺見,系統(tǒng)反饋的并不是此刻當(dāng)前的實時狀態(tài)。
絕大多數(shù)的反饋和評論,其實是缺少思考和理智的評價的,這個過程應(yīng)當(dāng)花費更多的時間來斟酌和回復(fù),而不是留下一個簡單的數(shù)字。英劇《黑鏡》中每個人之間都互相打分的狀況,正在成為現(xiàn)實?;蛘咚呀?jīng)成為現(xiàn)實了。
見多了這樣的事情,稍加反思,我們會意識到,其實很多時候這樣的評分所呈現(xiàn)出來的是一種簡單粗暴的反饋,它并不適宜每一個人。
為什么?
因為人類原本就是情感驅(qū)動、極為非理性的存在。
有這樣一個案例,有一個哥們面對Uber 司機,服務(wù)再到位也只會給4星。原因是什么呢?根據(jù)他的說法:「只有當(dāng)司機在我的生命面對極端威脅的時候(重大車禍和恐怖襲擊),將我拯救出來,才會給我5星好評。所以我會給這些普通的司機4星的評價,因為他們不值得我打5星。」
我們想從包含了大量非理性評論的評價系統(tǒng)當(dāng)中,尋找一個理性的答案的時候,這個事情原本就是不合理的。
「我們是否應(yīng)該讓用戶給我們寫評價嗎?」
在 Yelp.com 上,有一個 Q&A 的板塊,有人提了這樣的一個問題:「我們應(yīng)該要求客戶對我們公司撰寫評價嗎?」對于這個問題,Yelp 上有人這樣回復(fù):
「最好不要。那些真正從產(chǎn)品中獲得愉悅感并寫下一段好評的用戶,和那些用用好評換取折扣的用戶看起來很相似但是實際壓根不是同一個群體。
坦率的講,絕大多數(shù)的企業(yè)只是想從那些對他們感到滿意的客戶征求意見和評價,而不是從不滿意的客戶那里聽取反饋。隨著時間的推移,這些經(jīng)過自我選擇的評價會對企業(yè)和商業(yè)決策產(chǎn)生影響,更直接地說就是偏見。而那些相對精明的用戶,在幾里以外就能問到偏見的味道。如果你那些從各種非自然渠道求來的好評被 Yelp 給過濾掉了,請不要感到驚訝?!?/p>
用戶并不總是對的
我們總說,要打造偉大的產(chǎn)品和服務(wù),但是觀察用戶的行為比聽他們說話更有啟發(fā)性??此麄冊谧鍪裁?,而不是聽他們說。問卷調(diào)研中也存在類似的問題。面對問卷,很多用戶所給的答案簡單而直接。
「你是一個慷慨的人嗎?」很多用戶的回復(fù)是「當(dāng)然是!」,無論問卷的形式是「是/否」選項,還是采用數(shù)字1~10 評級,或者5星制,結(jié)果大抵如此。用戶會很大程度上傾向于高估自己的重要性。
「有一句經(jīng)典的格言是:用戶永遠是對的,但是我認為情況恰恰相反,用戶很少是對的。」
——Charlie Trotter, 《紐約時報》
那我們?yōu)楹芜€要使用評分系統(tǒng)?
既然評分系統(tǒng)存在如此之多的問題,那么我們?yōu)槭裁催€要用它們呢?這是一種溝通方式,在我們購物、閱讀或者消費的時候,評級系統(tǒng)是一種社會性的參考和證據(jù)。同時,很不幸的一點是,這是一種相對原始而開發(fā)不完整的溝通形式,其中包含了人類的先天缺憾。
另一方面,我們?nèi)匀皇褂?星制評級系統(tǒng),因為人類天生的惰性,這種評級方式足夠簡單,正好迎合需求而已。
「每個人都這樣做,我為什么這不這樣做?」這是最常見的一種邏輯。而另外一種常見邏輯則是「Facebook、Google和亞馬遜這樣的大企業(yè)都這樣,我不認為大企業(yè)會出錯」。
這讓我想起另外一個有趣的故事:
一名警察看到一個醉漢在路等下摸索,于是上前詢問他丟了什么東西。醉漢聲稱他鑰匙丟了,于是警察陪著他在路燈下找了好半天。由于鑰匙一直沒找到,警察忍不住多問了一句:「你確定鑰匙是在這里丟的么?」醉漢沒多想直接答道:「不是這里。」警察驚訝道:「那你為何要在這里找?」醉漢理所當(dāng)然道:「因為這里有光?!?/p>
這個故事當(dāng)中所潛藏的含義不止一重。如果你對于問題追索的不夠深入,你的決策很大程度上會受到社會和人群的影響,這種影響會非常深入,并且在很多時候你自己都不一定能察覺得到。就像那個跟著醉漢一起在燈下找不存在的鑰匙一樣。
類似5星評價這樣的評價系統(tǒng),直到今天依然廣受歡迎,另外一個原因是,它能夠量化,并且似乎能夠提供某些可供參考的邏輯。
「您對我們的產(chǎn)品和服務(wù)有什么樣的看法?」得到的回復(fù)是3顆星,這是否意味著產(chǎn)品需要改進?是單個產(chǎn)品還是整個產(chǎn)品線都需要改進?如果是4顆星又意味著什么?它和3顆星的評價,在程度上有多大的差別?
更深入一點來反思這些問題,你真的會認為這樣的數(shù)字是可靠的嗎?數(shù)字和數(shù)字之間的邏輯關(guān)系是可靠的,3+1=4,可是這些數(shù)字映射到人類的情緒、情感、邏輯、表達、想法當(dāng)中之后,你還確定么?我不這么認為。
我們還應(yīng)該相信這些評分嗎?
有個很好的案例,就是 Facebook Messenger。我每次使用它打電話之后,它會非常討厭地彈出對話框「這次通話您要如何評價?」,我總會給它留個1星評價。首先因為它是Facebook 的產(chǎn)品,其次它每次都會特別煩人地在通話結(jié)束之后彈出來,我還得多按兩下關(guān)閉它。
但是,當(dāng)人給出1星差評,并且沒有留下詳細的反饋內(nèi)容的時候,你會怎么理解這個1星呢?
即使有人留下了反饋和評價,整個系統(tǒng)當(dāng)中90%以上的內(nèi)容基本上都是簡單的情緒反饋。而在打完電話之后所帶來的情感波動,有多少是來自于電話那頭的人,又有多少是來自通訊APP本身呢?當(dāng)這種情緒再更加主觀地翻譯成一個數(shù)字,而這種翻譯方式人和人也千差萬別。
「將人類情感轉(zhuǎn)化為原始粗糙的數(shù)據(jù),比如數(shù)字評分和星級,然后希望從這些原始的數(shù)據(jù)中挖掘出改進產(chǎn)品的合理的答案?也許真實的人類情感比這些數(shù)字還要更合理?!?/p>
這是一個更加廣泛的問題
現(xiàn)在,我們需要坐下來思考一下,也許身為人類的我們應(yīng)該多做點什么而不是完全指望評分系統(tǒng)。我們被鼓勵到處去分享我們的想法和意見,并且似乎大家也有這樣的需求。你去過的餐廳會給你發(fā)送郵件,詢問你體驗如何,是否滿意,從機場回來,會收到航空公司的調(diào)研問卷,詢問機場和旅程的體驗好壞,等等等等。
如今,每個人都習(xí)慣了簡單的打分,習(xí)慣了用一些迎合需求的評論換取優(yōu)惠,這讓我們在很多時候忘了閉嘴,忘了你手上這杯40塊錢的咖啡其實并沒有達到你的預(yù)期。
現(xiàn)在我們應(yīng)該做什么?
我們可以改進整個評分體系么?當(dāng)然可以,但是簡單的修改規(guī)則又能夠走多遠?
我們有可能很快就遭遇另外一個源于人性的缺陷。所以,相比于立刻馬上修改評分系統(tǒng),更重要的是了解用戶和人性固有的缺陷,最終能夠?qū)Ξa(chǎn)品、企業(yè)產(chǎn)生破壞性影響的東西,其實往往只有很少的一部分。如果我們能夠解決這個問題,并且創(chuàng)建能夠正確激勵用戶行為的系統(tǒng),也許我們能夠讓評分系統(tǒng)真正給我們帶來更好的生活體驗。
另一方面,評分系統(tǒng)有如此之多的缺陷,比如最常見的5星評級系統(tǒng),為什么大家依然會如此的喜歡它呢?
還是因為它足夠簡單足夠快,不會覺得麻煩。我們可以通過忘了獲得一些東西,首先是獲得它,至于好壞是另外一個層面的問題。我們希望得到區(qū)分,而評分系統(tǒng),使得我們可以讓一部分問題最大化,然后讓另一部分問題最小化。簡單的評分系統(tǒng)不是最好的辦法。
不要讓評論如此簡單
在沒有解釋和說明的情況下,5星評價所給出的評分很好用,但是對于閱讀這些評價的人而言,是非常糟糕的,因為從這些分數(shù)當(dāng)中無法了解服務(wù)的價值。讓用戶評分,并且強制用戶留言,填寫評價內(nèi)容,這似乎會讓用戶評價本身的評價過程不那么友好。
有一些團隊給出了一個比較合理的評價系統(tǒng),比如:阿迪達斯的多層評價系統(tǒng),你可有對你所購買的鞋的舒適度,材料質(zhì)量、設(shè)計等不同的方面進行評價。還有一些評價系統(tǒng),除非用戶提供具體圖片才能進行更加深入的評價,這使得評價內(nèi)容的價值相對更高。
我曾經(jīng)在一家電商公司工作過,有時候我會同客戶進行溝通。有一個客戶曾經(jīng)對我們產(chǎn)品給過一個3星評價,原因是快遞員很粗魯。問題在于,快遞員壓根和我們的公司和產(chǎn)品毫無關(guān)系,但是某種意義上你也不能怪客戶啊?不過,我們的工作,本質(zhì)上是盡量規(guī)避這些不合理的評價,并且鼓勵更多的深思熟慮和具有建設(shè)性的評價。
對于評價系統(tǒng),你要的又是什么呢?
是更多的真實評價(不一定好),還是更多的好評(并不一定真實)?
作者:Eugen E?anu
譯者:陳子木
來源:https://www.uisdc.com/problem-with-online-reviews
本文由 @陳子木 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖作者提供
文章太長,太碎了。我有幾點與你想的不是很一樣。
第一點舉的例子都很極端,兩個差評使咖啡店只有三星,第一次Airbnb就碰到極端租客(你親戚重新注冊Airbnb賬號說明這個情況真的很極端了,如果是普遍情況,我覺得他應(yīng)該直接放棄Airbnb)等,其實有大量數(shù)據(jù)沉淀以后都不會是問題。
第二點評價主觀的問題我覺得并不是五星評價系統(tǒng)的罪,是人評出來的總會帶有評估人自己的想法。我們能改變的主要是評價物,產(chǎn)品體驗、服務(wù)類的這種評價物本來就很主觀,比較虛,你最后舉的例子其實是把評價物更加的趨于實體化,越實就越真實。我打個比方,一塊承重金屬板的厚度和重量的評價,大于10CM的五顆星,8CM~10CM的四顆星,重量大于5公斤的五顆星,4~5公斤的四顆星,以此類推,是不是評下來就真實了。
第三點是否要讓用戶給我們寫評價,我覺得很多時候評價系統(tǒng)都是一個自上而下分層級的系統(tǒng),比如蘋果商城是讓用戶給商城內(nèi)的APP評價打星,淘寶讓買家給賣家評價打分,谷歌的評價系統(tǒng)等等太多太多。我都會用,都會參考這些評價。
第四點不否認有些人會給自己弄一個評價系統(tǒng),很會自我總結(jié)自我批評的那種,我一般稱之為吐槽大會,我自己設(shè)計的一款ToB端的軟件就舉辦過類似活動,利誘用戶來評價,來吐槽的一般是兩類人,一種是為了好處來的,另一種是真的在使用軟件過程中惡心到他們的。他們提意見,我們總結(jié),選擇性的優(yōu)化其中的一些問題,或是找到新的方向。這不能與5星評價系統(tǒng)混為一談,目的性和使用場景以及整個體系都是不一樣的。
我覺得評價系統(tǒng)雖然在大多數(shù)場景中只是個附加功能,但也不是你分析的那樣膚淺。淘寶雖然也是簡單的評價,但是他的默認好評系統(tǒng)的規(guī)則很人性,以至于我現(xiàn)在去淘寶買東西會看好評率以及差評的評價。
雖然只是一個簡單的5星評價系統(tǒng),但是如果你動腦,真的能玩出很多花樣。
評價的算法并不是如文所說的那么的簡單粗暴。文中說的很對,每一個用戶都是一樣的,甚至是評價標(biāo)準(zhǔn)是不一樣的。比如我服務(wù)最怎么好我也只會給四分,但是四分并不代表我不認可商家的服務(wù),而是我覺得沒有完美的服務(wù),就像人無完人一樣。但是評價還有另外一個緯度-時間,不同的時間評價在綜合評價中應(yīng)該有不同的權(quán)重,其次并不是所有的算法都是在算加權(quán)平均值。有一點我們要確定的是:服務(wù)很多時候并非是標(biāo)準(zhǔn)化,以及服務(wù)的場景是動態(tài)的,我們做評價的出發(fā)點是提供給用戶做消費決策,給商家指明服務(wù)優(yōu)化的方向。這兩點是一體的!最后最為產(chǎn)品經(jīng)理我們要看的是我們的評價體系對于這兩個方面的貢獻度!
應(yīng)該根據(jù)產(chǎn)品和用戶需求設(shè)計評價系統(tǒng),注意是評價,不是評分,看完文章我知道我們的評價系統(tǒng)怎么做了
評價指標(biāo)不要設(shè)置的太粗,這樣得到的數(shù)據(jù)參考價值不大或有失偏頗。指標(biāo)也不能設(shè)置太細,否則用戶會放棄評價,體驗不好。
對于評價系統(tǒng),過于簡單的話容易忽略很多外在因素,讓查看者做出錯誤的決定,不管是消費者還是被評價者。解決辦法是盡量讓評價詳細,講述哪里好哪里不好,但是過于詳細的評價又讓很多一般評價者難以接受。那么就需要一個折中的方案。既讓評價系統(tǒng)足夠活躍又讓評價有足夠的細節(jié)。如果想要簡單的五星好評,需要足夠的評價數(shù)量才會有意義,否則很容易出現(xiàn)那些有很強主觀意愿的評價,當(dāng)數(shù)量足夠多這個星級就會有一定的意義,那么就在數(shù)據(jù)產(chǎn)生意義之后再展示,當(dāng)只有三五個人評價時不展示。文末的方法也很好,將一個簡單的好評拆分開,讓用戶能夠清楚到底是哪方面做的不足?;蛘咧苯雍鲆暷切┮话阍u價者,強制完整的評價,畢竟很多人會跟著別人的觀點附和,但是如果能夠控制權(quán)威發(fā)言就很容易誤導(dǎo)其它用戶。具體用哪個方式要看平臺的性質(zhì)和運營方式了。
可是評價滯后問題與評論人情緒問題往往是無解的。/攤手
感覺傳統(tǒng)電商的評分功能過于雞肋,不能作為考量店鋪的標(biāo)準(zhǔn),對于商家而言,需要花費大量的時間和精力去應(yīng)付拉低評分的惡意評價,對于消費者而言,新店鋪的評分普遍高于老店鋪,沒有參考價值。如果能砍掉評分機制,只保留評論,區(qū)分為正面評論、負面評論,甚至不區(qū)分,商家便不會花大代價去刷好評提高評分,評論也會變得更加真實
你錯了。你想想如果沒有評價體系,面對成千上萬的產(chǎn)品,怎么辨別,靠運氣嗎。評價雖然不能決定全部,但還是有很強的參考性,而且可以督促商家提供更好的服務(wù)。如果沒有好評差評的督促,跟你溝通時,一言不合就能罵你十八輩祖宗。現(xiàn)在的淘寶店主敢這樣罵嗎
用戶常常是不以產(chǎn)品為出發(fā)點來評價,而通常是以服務(wù)角度來反饋,多數(shù)的評價只是一時隨意為之,三星和四星的區(qū)別,或許量化后可以得到某些規(guī)律
服務(wù)也是產(chǎn)品的一部分,滴滴在評價系統(tǒng)上做的不錯,除了五星評分系統(tǒng)外,增加了選擇題評分系統(tǒng)。