敏感詞運營體系搭建手冊

26 評論 28067 瀏覽 195 收藏 9 分鐘

敏感詞風(fēng)控策略是風(fēng)控法體系中最基礎(chǔ)的,但同時也是最繁瑣的。敏感詞運營系統(tǒng)的搭建應(yīng)該如何做好呢?

基于敏感詞的風(fēng)控策略是所有風(fēng)控體系中最基礎(chǔ)的,內(nèi)容簡單但瑣碎,系統(tǒng)涉及從用戶發(fā)布到用戶舉報、命中策略到審核處理、用戶畫像到AI識別等方方面面。

本次系統(tǒng)性的整理總結(jié)了工作以來在敏感詞運營系統(tǒng)搭建方面的經(jīng)驗和想法,作為自我總結(jié)回顧的同時,也希望分享出來避免其他同學(xué)在敏感詞運營方面少走彎路。

一、產(chǎn)品概述

1.1? 產(chǎn)品背景介紹

敏感詞系統(tǒng)是搜索和內(nèi)容類產(chǎn)品的基礎(chǔ)風(fēng)控類系統(tǒng)。本文從詞庫匹配出發(fā),涉及敏感詞添加、命中方式、影響業(yè)務(wù)和影響用戶等多個維度,全面介紹敏感詞體系搭建的結(jié)構(gòu)和流程。

1.2 產(chǎn)品功能概述

通過本系統(tǒng)可以過濾基礎(chǔ)的文本敏感內(nèi)容;可以結(jié)合業(yè)務(wù)線靈活掌握敏感詞過濾方式,以及觸及敏感詞的用戶。

1.3 名詞介紹

詞庫:同一類別的敏感詞所組成的一個大類。本文中有四大詞庫(紅線詞庫、敏感詞庫、危險詞庫),每一個詞庫中有三級分類。

詞過濾:針對搜索業(yè)務(wù),對搜索詞直接過濾。

結(jié)果過濾:針對命中敏感詞的結(jié)果直接過濾。

二、使用場景

敏感詞系統(tǒng)最基本的功能有匹配詞庫就足夠,但是面對越來越多的越來越復(fù)雜的產(chǎn)品形態(tài),單一的敏感詞系統(tǒng)使用場景的問題基本有以下四類:

場景一:A產(chǎn)品要小規(guī)模內(nèi)測上線,產(chǎn)品中的評論功能需要接入最基本的敏感詞控制風(fēng)險,但是面對運營的詞庫找不到哪些屬于“基本”敏感詞;

場景二:B產(chǎn)品被用戶反饋有低俗色情內(nèi)容,但敏感詞明明已經(jīng)添加過了,經(jīng)檢查發(fā)現(xiàn)該敏感詞只管控了甲業(yè)務(wù),新上的乙業(yè)務(wù)沒有添加管控而被用戶投訴;

場景三:C產(chǎn)品被老大反饋自己發(fā)表的評論消失了,開發(fā)查到是命中了敏感詞導(dǎo)致找到了運營,但運營認(rèn)為這個詞字面上看確實有問題,可說不出添加依據(jù);

場景四:及時手握大量敏感詞,但依舊依靠人工排查來擴(kuò)充詞庫,費時費力;

因此,在本系統(tǒng)會嘗試解決以上四類問題。

三、產(chǎn)品需求

1. 核心路徑

用戶:輸入/發(fā)布–>敏感詞檢測–>過濾–>結(jié)果展示;

運營:發(fā)現(xiàn)敏感詞–>評估–>添加–>處理被過濾內(nèi)容。

2. 模塊結(jié)構(gòu)

3. 功能樹

系統(tǒng)以詞庫為基礎(chǔ),將敏感詞根據(jù)重要程度不同,區(qū)分不同類別,如紅線類別,敏感類別,危險類別等等,不同類別結(jié)合用戶維度和地域維度,正則匹配或精確匹配等不同匹配方式,作用于不同業(yè)務(wù),產(chǎn)生不同效果。

4. 頁面結(jié)構(gòu)

5. 原型設(shè)計

5.1 策略配置

背景功能:詞庫和業(yè)務(wù)結(jié)合??刂朴绊懛绞剑ㄔ~過濾或結(jié)果過濾),控制持續(xù)時間,控制狀態(tài)(生效或者是下線),掌握策略召回的數(shù)量,并可將策略召回的內(nèi)容進(jìn)行處理。

頁面說明:策略管理頁可直接配置管控策略。例如在紅線詞庫中,添加二級類別為“低俗色情”,選擇該類別下所有的三級類別“all”,選擇需要管控的業(yè)務(wù)如一級業(yè)務(wù)“搜索”,其下所有二級業(yè)務(wù),選擇影響方式和持續(xù)時間,則達(dá)到效果為:

“在搜索下的所有業(yè)務(wù),都被紅線詞庫-低俗色情類別敏感詞所影響,影響方式為在搜索該詞時就被影響,且為永久影響狀態(tài)”。

策略配置所需要的其他部件添加或者修改則在業(yè)務(wù)管控和詞庫管理進(jìn)行。

原型演示:

5.2 詞庫管理

背景功能:添加敏感詞,控制該詞所屬詞庫,并在添加時可看到召回量,抽樣評估后得到攔截準(zhǔn)確率。

頁面說明:敏感詞添加可直接批量添加多詞,并初步依靠字面意義判斷所屬詞庫,然后評估召回量和隨機(jī)樣本,給出是否需要生效,以及確認(rèn)所屬詞庫。

隨機(jī)樣本抽取數(shù)量和方式可在“樣本設(shè)置”進(jìn)行,命中準(zhǔn)確率評估可在“敏感詞評估”進(jìn)行。

原型演示:

5.3 用戶配置

背景功能:將用戶與敏感詞、業(yè)務(wù)、地域三種維度結(jié)合。

頁面說明:敏命中策略指“策略配置”頁的策略,可看到被該策略召回的用戶數(shù),點擊“處理”可跳轉(zhuǎn)至“內(nèi)容處理”頁面進(jìn)行處理。

原型演示:

5.4 內(nèi)容處理

背景功能:對命中策略的業(yè)務(wù)或用戶做處理。

頁面說明:時間指該策略生效的時間,可在該頁面完成增量和存量內(nèi)容的處理。

原型演示:

5.5 數(shù)據(jù)統(tǒng)計

背景功能:從策略維度、詞庫維度、用戶維度和處理維度做出數(shù)據(jù)統(tǒng)計。

頁面說明:報表形式給出

原型演示:

四、未來規(guī)劃

互聯(lián)網(wǎng)面前人人平等,因此人們可以非常輕易的暴露自己黑暗的一面。

為了避免其他用戶看到、接觸到、受到這些黑暗信息的影響,敏感詞系統(tǒng)應(yīng)運而生。這不僅承擔(dān)著為產(chǎn)品過濾基礎(chǔ)風(fēng)險的功能,同時作為基礎(chǔ)系統(tǒng)承擔(dān)著為公眾提供一個天朗氣清的網(wǎng)絡(luò)環(huán)境的作用,因此敏感詞系統(tǒng)也需要不斷的優(yōu)化和改進(jìn):

  1. 利用AI技術(shù)增強語義識別功能,擴(kuò)充添加渠道,及時發(fā)現(xiàn)及時處理;
  2. 敏感詞系統(tǒng)和輿情系統(tǒng)結(jié)合,成為負(fù)面輿情控制和處理的強大工具。

 

本文由 @禿頭少女 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 有線上原型看看嗎

    來自湖北 回復(fù)
  2. 看了一眼我司的產(chǎn)品,默默的拿起了板磚…

    另外:惡魔寶寶哈哈哈好可愛

    來自浙江 回復(fù)
  3. 紅線類別,敏感類別,危險類別等等,不同類別結(jié)合用戶維度和地域維度,正則匹配或精確匹配等不同匹配方式,作用于不同業(yè)務(wù),產(chǎn)生不同效果。
    能夠介紹下各有哪些效果呢?

    來自福建 回復(fù)
  4. 你好,我想請問一下,召回得作用是什么?

    來自江蘇 回復(fù)
  5. 在原型圖中,有點沒看明白,“詞庫”里的分詞庫,和“二級類別”本質(zhì)區(qū)別是啥

    來自北京 回復(fù)
    1. 同問,往詞庫添加內(nèi)容是,直接用‘業(yè)務(wù)’就行了吧。選擇一級業(yè)務(wù)(大的方向)、然后再選二級和三級的細(xì)分業(yè)務(wù)。

      來自北京 回復(fù)
  6. 于細(xì)微處見真章,受教了。。。公司現(xiàn)階段正好準(zhǔn)備做這方面的功能,方便留個聯(lián)系方式嗎?

    來自北京 回復(fù)
    1. 加公眾號:惡魔寶寶,留言給我就好

      來自北京 回復(fù)
  7. 請問你們公司的敏感詞需要審核嘛?

    來自北京 回復(fù)
    1. 你是指審核敏感詞?還是審核內(nèi)容是否有敏感信息?

      來自北京 回復(fù)
    2. 審核敏感詞,不是審核內(nèi)容。當(dāng)業(yè)務(wù)人員添加一個敏感詞的時候,是否需要審核后再生效呢?

      來自北京 回復(fù)
    3. 審核需要大數(shù)據(jù)+人工評估準(zhǔn)確率,僅僅人工審核是不夠的哦

      來自北京 回復(fù)
  8. ?? 請問大詞庫與業(yè)務(wù)詞庫間的同步是怎么做的呢?

    來自北京 回復(fù)
    1. 結(jié)構(gòu)上業(yè)務(wù)詞庫是大詞庫的子集,后端實現(xiàn)上可以給詞庫編號或者其他方法吧,不了解后端實現(xiàn)呢

      來自北京 回復(fù)
  9. 原型能給發(fā)一下參考嗎 ??

    來自北京 回復(fù)
    1. 我有放在云盤里
      加公眾號:惡魔寶寶 拿密碼

      來自北京 回復(fù)
  10. 寫的不錯

    回復(fù)
    1. 謝謝

      來自北京 回復(fù)
  11. 這樣一個后臺正常情況下的工期是多久呢?

    來自浙江 回復(fù)
    1. 哈哈哈 基礎(chǔ)詞庫過濾很簡單的 一個后端一下午就能搞定
      但是要做到運營能使用并且數(shù)據(jù)透明化 那工作量就大了 兩三個人估計要小一個月

      來自北京 回復(fù)
  12. 這是什么軟件啊

    回復(fù)
    1. 原型用AXURE做的
      動圖用LICEcap做的

      來自北京 回復(fù)
  13. 很詳細(xì)

    回復(fù)
    1. 謝謝

      來自北京 回復(fù)
  14. 原型演示用的是什么軟件啊?

    來自廣東 回復(fù)
    1. 原型用AXURE做的
      動圖用LICEcap做的

      來自北京 回復(fù)