淺談反垃圾策略:如何營(yíng)造一個(gè)良好的內(nèi)容環(huán)境?
做UGC產(chǎn)品常碰見(jiàn)的難題是什么?那就是如何篩選與過(guò)濾垃圾信息,為社區(qū)塑造良好的產(chǎn)品調(diào)性與氛圍,為用戶提供良好的產(chǎn)品體驗(yàn)。本文中,筆者也結(jié)合了自己的思考,為我們介紹了信息發(fā)布的流程以及如何篩選垃圾信息的判斷。
垃圾信息幾乎是每個(gè)產(chǎn)品不可避免的問(wèn)題,尤其是以UGC為主的產(chǎn)品。
如果無(wú)法對(duì)這群水軍、營(yíng)銷(xiāo)者加以控制,那么不光產(chǎn)品本身氛圍,甚至可能帶來(lái)惡性循環(huán)。比如在一個(gè)社區(qū)里,充斥著大量低劣的廣告,則新用戶也很難提起興致去參與討論。
所以,本文主要來(lái)探討在這種敵明我暗的互聯(lián)網(wǎng)環(huán)境中,該如何反垃圾信息,擁護(hù)一個(gè)良好的環(huán)境,同時(shí)避免誤傷到我們的真實(shí)用戶。
一、什么是垃圾信息
在探討反垃圾策略之前,我們先將互聯(lián)網(wǎng)上的垃圾信息做下簡(jiǎn)單的歸類(lèi)。
1. 廣告
最常見(jiàn)的必然是廣告,只要我們的產(chǎn)品具有一定的用戶量,那么必然像水果吸引蒼蠅一樣,引來(lái)不少各類(lèi)營(yíng)銷(xiāo)者前來(lái)蹭流量。
他們通常會(huì)在評(píng)論區(qū)、彈幕、公屏等能夠和他人交流的地方瘋狂刷屏。
2. 低質(zhì)內(nèi)容
因?yàn)樘^(guò)廣泛,所以這類(lèi)信息其實(shí)我也不知該如何定義。
它可以理解為水貼,這類(lèi)低質(zhì)量的內(nèi)容對(duì)用戶沒(méi)有什么吸引力,甚至泛濫的時(shí)候影響到了產(chǎn)品的內(nèi)容生態(tài)、制度的公正性。
比如知乎里大量簡(jiǎn)短無(wú)意義的回答,豆瓣里被水軍惡意差評(píng)過(guò)的電影等。
3. 違法信息
這類(lèi)政治敏感、黃賭毒等信息,不光對(duì)用戶有所影響,甚至國(guó)家政策也在嚴(yán)控。若不能有效控制,則產(chǎn)品本身運(yùn)營(yíng)也存在風(fēng)險(xiǎn),此前有不少APP就因此被關(guān)停整改了。
二、發(fā)布信息的流程
了解完何為垃圾信息后,我們?cè)賮?lái)看下這些信息是如何被生產(chǎn)出來(lái)的,以便思考該怎么樣制定相應(yīng)的策略防范它們的產(chǎn)生。
我們以一個(gè)最常見(jiàn)的發(fā)表評(píng)論為例:
如圖所示,我畫(huà)了一個(gè)相當(dāng)簡(jiǎn)單的流程圖:
第一步:用戶觸發(fā)
我們也可以稱(chēng)之為行為門(mén)檻,什么類(lèi)型的用戶才允許發(fā)表評(píng)論?
相信大家可能經(jīng)常遇到這樣的情況,當(dāng)你看完一篇文章后,興沖沖要發(fā)表點(diǎn)想法時(shí),系統(tǒng)會(huì)冰冷地彈出一個(gè)窗口,讓你先登錄;而在登錄之后,又要求你綁定手機(jī)號(hào);綁定完后,還要等待注冊(cè)時(shí)長(zhǎng)滿24小時(shí)……
諸如此類(lèi),越是成熟活躍的社區(qū),它可能寧愿降低新用戶的體驗(yàn),也要保證新內(nèi)容的質(zhì)量。
第二步:撰寫(xiě)評(píng)論
可能不同的產(chǎn)品千差萬(wàn)別,但籠絡(luò)地歸納起來(lái),其實(shí)就是內(nèi)容形式和限制條件。
評(píng)論內(nèi)容是純文字還是帶圖片?字?jǐn)?shù)限制多少?圖片最多允許幾張?只有明確了用戶將產(chǎn)生哪些信息,我們才能夠有效地針對(duì)處理。
第三步:確認(rèn)發(fā)表
這一步其實(shí)是繼準(zhǔn)入門(mén)檻之后的延伸,我把它稱(chēng)為內(nèi)容門(mén)檻,可以對(duì)發(fā)表的評(píng)論先做一個(gè)簡(jiǎn)單的校驗(yàn)。
比如空內(nèi)容、純字符、大段重復(fù)等明顯垃圾信息,我們可以將它攔截在這里,都無(wú)需進(jìn)入審核。
第四步:評(píng)論審核
審核可以分成人工、機(jī)器。
在評(píng)論量特別大的產(chǎn)品里,如果靠人在審核將是特別大的工作量,也很可能出現(xiàn)遺漏。而機(jī)器審核雖然效率高,卻對(duì)一些經(jīng)過(guò)包裝粉飾的垃圾信息難以識(shí)別。
所以我們通常會(huì)選擇兩者結(jié)合,下面會(huì)進(jìn)一步探討。
第五步:展示/屏蔽
在經(jīng)過(guò)重重機(jī)制之后,我們才最終得出結(jié)論:用戶剛發(fā)布的這條評(píng)論是留是去。
補(bǔ)充一點(diǎn),現(xiàn)在很多產(chǎn)品即便在判定此條評(píng)論為垃圾信息后,也不會(huì)簡(jiǎn)單粗暴地刪除,而是選擇對(duì)外隱藏,但對(duì)發(fā)布的用戶還顯示。
這樣的做法當(dāng)然并不是對(duì)垃圾信息的寬容,而是為了避免傷害到被誤判的用戶。
額外說(shuō)明,在這個(gè)流程里舉例是先審后發(fā),但也有很多先發(fā)后審,或者像直播那種邊審邊播的場(chǎng)景,這里先不贅述。
三、該如何防范垃圾信息的產(chǎn)生
直到這里,我們可以開(kāi)始探討除了耗時(shí)耗力去逐一人工審核外,我們?cè)诋a(chǎn)品邏輯、算法機(jī)制上如何應(yīng)對(duì)這些垃圾信息吧。
我個(gè)人將反垃圾策略分為五個(gè)維度,如圖所示:
1. 用戶屬性
顧名思義,用戶屬性其實(shí)就是我們這款產(chǎn)品對(duì)TA的一個(gè)身份定義,可以涵蓋的有很多,比如:
- 注冊(cè)時(shí)長(zhǎng)
- 有無(wú)頭像
- 是否綁定了手機(jī)號(hào)
- 是否充值消費(fèi)過(guò)
- ……
這些屬性代表了這個(gè)用戶在產(chǎn)品上的價(jià)值,也可以從側(cè)面觀測(cè)出TA是否真的在使用這款產(chǎn)品。
想也知道,那些為發(fā)廣告而來(lái)的人肯定不會(huì)愿意投入太多精力在這些瑣碎的過(guò)程上,所以,我們就可以在上面大做文章,比如需綁定了手機(jī)號(hào)的用戶才能發(fā)布新內(nèi)容等等。
同時(shí),我們還可以建立白、黑名單機(jī)制,當(dāng)某個(gè)用戶頻繁發(fā)垃圾信息或被舉報(bào)后,我們可以禁止他再次發(fā)布內(nèi)容。
2. 操作行為
根據(jù)數(shù)據(jù)觀察,正常的用戶和濫發(fā)垃圾信息的用戶他們的操作行為有很大不同,而且有部分甚至是采用腳本或軟件進(jìn)行群發(fā)。
像那些發(fā)廣告的人為追求效率,他們總是頻繁地復(fù)制黏貼重復(fù)一個(gè)流程,每次發(fā)布新內(nèi)容的時(shí)間間隔都很短,我們自然也可以在上面做相應(yīng)限制。
比如,同一個(gè)設(shè)備號(hào)/IP/賬號(hào)ID的用戶在3分鐘內(nèi)最多發(fā)1條新的內(nèi)容。
該如何制定這項(xiàng)相關(guān)的策略,其實(shí)在于我們對(duì)真、假用戶的行為判定,你去想想哪些行為真的用戶不屑于做,而假的用戶又在頻繁操作那么很快就會(huì)明白了。
像大家都知道,微信的安全策略特別高,經(jīng)常封號(hào),因?yàn)樗鼤?huì)經(jīng)常檢測(cè)出那些具有頻繁添加好友、地理位置不變/變動(dòng)異常、時(shí)常群發(fā)等行為特質(zhì)的違規(guī)用戶進(jìn)行處理。
3. 內(nèi)容信息
通過(guò)檢查內(nèi)容本身來(lái)判定這條信息是否符合要求,是反垃圾中的一個(gè)最常見(jiàn)策略,也是機(jī)器算法不斷在深入研究的一個(gè)方向,只可惜這項(xiàng)技術(shù)本身看著不錯(cuò),但在實(shí)際應(yīng)用時(shí)往往不盡如人意。
如果你曾做過(guò)防垃圾相關(guān)的工作,那么你會(huì)發(fā)現(xiàn)“上有政策、下有對(duì)策”。
中華漢字的文化博大精深,比如我們不希望內(nèi)容信息里出現(xiàn)“公眾號(hào)”這類(lèi)帶有引流特性的詞語(yǔ),那么很快就會(huì)衍生出“gongzhonghao”“厷眾號(hào)”“gong眾呺”這類(lèi)夾雜著拼音、火星體的來(lái)替代。
而且這些垃圾信息在不斷地被屏蔽、被封號(hào)中也在進(jìn)化,廣告越來(lái)越軟,暗示越來(lái)越隱晦。
像淘寶在微信圈的分享文案一直是行業(yè)內(nèi)的一個(gè)笑話,如果你作為微信的PM,讓你去堵住這種信息,是不是也很頭疼?
不過(guò)潑完冷水,我們還是要繼續(xù)探討下該用什么規(guī)則去判斷這條內(nèi)容信息能否過(guò)審?
我個(gè)人覺(jué)得主意有以下這兩個(gè)維度:
(1)違禁詞庫(kù)
其實(shí)就是將所有不希望用戶發(fā)布的內(nèi)容窮舉出來(lái),比如“加微信”“招兼職”這類(lèi)詞語(yǔ),當(dāng)用戶的內(nèi)容中包括了這些詞語(yǔ),并達(dá)到了某個(gè)頻率,我們可以將這條內(nèi)容判定為垃圾信息。
(2)重復(fù)率
絕大多數(shù)情況中,垃圾信息并非偶例,而是成批出現(xiàn);且因?yàn)槟莻€(gè)用戶的目的通常為一個(gè),所以TA產(chǎn)生的內(nèi)容會(huì)有所重復(fù)。
因?yàn)闉榱诵麄餍剩琓A不太可能每次發(fā)布內(nèi)容都重新編寫(xiě)一套話語(yǔ)。
所以我們通??梢詫⒂脩粜掳l(fā)的內(nèi)容將TA的歷史記錄做比較,若重復(fù)率極高且頻繁,那TA可能正在制造大量的垃圾信息。
4. 大數(shù)據(jù)庫(kù)
垃圾信息幾乎是所有產(chǎn)品的深受其擾的問(wèn)題之一,所以現(xiàn)在也有不少可供接入使用的反垃圾系統(tǒng),它們的價(jià)值核心就在于有海量的大數(shù)據(jù)樣本,且在不斷擴(kuò)充,對(duì)不同領(lǐng)域的垃圾信息都能很好的識(shí)別。
利用大數(shù)據(jù)的最大好處就是,全網(wǎng)共享信息,比如某個(gè)微信用戶在平臺(tái)A被禁了,那么平臺(tái)B也能夠知曉這個(gè)消息,對(duì)這個(gè)用戶嚴(yán)防以待。
5. 抬高成本
因?yàn)槔畔⑹怯扇水a(chǎn)生的,我們?cè)诳吹奖硐蟮耐瑫r(shí),也可以換個(gè)角度去思考這些人的動(dòng)機(jī)。
比如說(shuō)廣告,一個(gè)微商為了賣(mài)出TA的產(chǎn)品,就希望引來(lái)客流關(guān)注,TA的動(dòng)機(jī)是為了賺錢(qián),而在發(fā)布廣告信息時(shí),TA其實(shí)也存在成本,精力和金錢(qián)。
我們規(guī)定必須綁定過(guò)手機(jī)號(hào)的用戶才可以發(fā)內(nèi)容,TA就需要多花兩分鐘去綁定;我們規(guī)定必須消費(fèi)過(guò)的用戶才可以點(diǎn)評(píng),那TA就需要花一定的金額才能點(diǎn)評(píng)……
這些規(guī)定其實(shí)都是在提升濫發(fā)垃圾信息的人的成本,當(dāng)TA在我們產(chǎn)品上發(fā)布成本大于所能獲得的回報(bào)時(shí),那么TA也沒(méi)理由再繼續(xù)這個(gè)行為了。
有一項(xiàng)應(yīng)用在反垃圾郵件中比較有效的策略就是,當(dāng)用戶發(fā)送一封新郵件時(shí),需要消耗TA的設(shè)備資源進(jìn)行一些計(jì)算,這對(duì)于個(gè)人來(lái)說(shuō)微不可察。但對(duì)于頻繁發(fā)送垃圾郵件的人來(lái)說(shuō),將是不少負(fù)擔(dān)。
當(dāng)然,規(guī)定絕非越嚴(yán)越好,因?yàn)槲覀冞€得考慮正常用戶,如果要求太嚴(yán)苛,將大多數(shù)用戶拒之門(mén)外,也不是件好事。
四、舉個(gè)實(shí)例
講完枯燥的理論,最后舉個(gè)例子吧。
以《QQ閱讀》產(chǎn)品為例,根據(jù)書(shū)籍的評(píng)論區(qū)這一功能,我們?cè)撊绾畏乐估u(píng)論的產(chǎn)生?
首先,還是基于原來(lái)畫(huà)的那個(gè)簡(jiǎn)單的流程圖,然后運(yùn)用上述策略做擴(kuò)展。
1. 首先是用戶觸發(fā)的門(mén)檻。為了保證多數(shù)用戶的體驗(yàn),可以先做個(gè)用戶分群,因?yàn)槔畔⑼ǔJ怯尚掠脩舢a(chǎn)生,所以在發(fā)布評(píng)論上,新用戶的要求將比老用戶更高,比如:
2. 其次,在撰寫(xiě)評(píng)論時(shí),我們可以對(duì)用戶做一些基本的約束,比如:
3. 然后,在確認(rèn)發(fā)表時(shí),我們需判斷下是否讓用戶發(fā)表,進(jìn)入下一流程,在這個(gè)流程上其實(shí)也可以寬松一些,比如只判斷正文內(nèi)容是否為空。
4. 接下來(lái),可以調(diào)下原流程圖的順序,將原來(lái)的先審后發(fā)改為先發(fā)后審。
因?yàn)檫@樣能夠讓用戶發(fā)表完成后,即時(shí)看到TA的內(nèi)容,體驗(yàn)更佳。但為了防止垃圾信息對(duì)別的用戶造成影響,所以可以在此之間加入一條規(guī)則——用戶發(fā)表后的內(nèi)容在初次審核之前,暫時(shí)只對(duì)TA自己可見(jiàn)。
也就是說(shuō),當(dāng)用戶寫(xiě)了一條書(shū)評(píng)后,當(dāng)TA點(diǎn)下“發(fā)表”,就立刻能在信息流里看到;但這個(gè)書(shū)評(píng)在未審核完成前,除TA之外的人是看不到的。
這種做法兩邊兼顧,既給了用戶良好的反饋又防止了垃圾信息帶來(lái)的影響。
5. 而審核方面,可以同時(shí)接入人工和機(jī)器審核。其實(shí)第4步所說(shuō)的初審核,也是機(jī)器審核,只要初略判斷用戶發(fā)布的評(píng)論沒(méi)大問(wèn)題,就可以對(duì)外開(kāi)放給其他人。機(jī)器審核的耗時(shí)較短,可能用戶都不會(huì)察覺(jué)到。
6. 同時(shí),因?yàn)榭紤]到人工審核是件極費(fèi)人力的事情,可以再加入舉報(bào)機(jī)制、黑名單機(jī)制,來(lái)幫助運(yùn)營(yíng)人員更快的去處理垃圾信息。
最后,附上一個(gè)完整的流程圖,以便更好的理解。
關(guān)于反垃圾策略,暫時(shí)就只探討這么多,畢竟個(gè)人經(jīng)驗(yàn)有限,還希望對(duì)大家能有所幫助。
另外,其實(shí)上文中很多內(nèi)容其實(shí)針對(duì)都是廣告類(lèi)的垃圾信息,并不適用于低質(zhì)內(nèi)容。
而在一個(gè)產(chǎn)品中如何提升UGC的內(nèi)容質(zhì)量,應(yīng)該是另一套策略了。比如,定下產(chǎn)品調(diào)性、引入核心用戶、激勵(lì)政策、內(nèi)容再傳播等,希望有機(jī)會(huì)再一起探討。
本文由 @貓丸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議
想請(qǐng)教一下,如果是先發(fā)后審,那么審核通過(guò)后的時(shí)間流怎么處理呢?是依然按照用戶發(fā)布時(shí)間排序嘛?
看看微博 就知道了,除非注重時(shí)效性,不然用戶對(duì)時(shí)間的感知度制度不太重要。
頗有收獲
總感覺(jué)缺點(diǎn)什么…沒(méi)有形成閉環(huán)?只有自己?jiǎn)畏阶鲬?zhàn)?用戶體系好像也沒(méi)有搭建
某寶的宣傳文案也可以從結(jié)構(gòu)上匹配下