如何做好互聯(lián)網(wǎng)內(nèi)容安全的音頻審核?

5 評論 6199 瀏覽 57 收藏 8 分鐘

編輯導(dǎo)語:當(dāng)下互聯(lián)網(wǎng)內(nèi)容的存在形式越來越多樣,為了保證互聯(lián)網(wǎng)內(nèi)容安全,內(nèi)容審核這一流程就顯得愈發(fā)重要。那么,就音頻領(lǐng)域而言,其內(nèi)容安全審核應(yīng)當(dāng)如何操作?本篇文章里,作者就如何做好互聯(lián)網(wǎng)內(nèi)容安全的音頻審核做了總結(jié)和梳理,一起來看一下。

一、背景

隨著《互聯(lián)網(wǎng)信息服務(wù)管理辦法》《網(wǎng)絡(luò)安全保護(hù)法》《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理》等法律法規(guī)頒布,且網(wǎng)信辦及其他監(jiān)管部門對互聯(lián)網(wǎng)信息內(nèi)容管理的專項也愈來愈多,目前互聯(lián)網(wǎng)信息形態(tài)主要為文本、圖片、語音、視頻。

如何讓這些信息中沒有違規(guī)內(nèi)容,這將會對于所有將要通過互聯(lián)網(wǎng)進(jìn)行信息露出的單位和平臺提出挑戰(zhàn)。下面我將分享一個實(shí)現(xiàn)好互聯(lián)網(wǎng)內(nèi)容音頻審核的思路,供大家參考指導(dǎo)~

二、目標(biāo)、場景及流程分析

1. 目標(biāo)分析

音頻內(nèi)容審核的實(shí)質(zhì)是要完成高效精準(zhǔn)發(fā)現(xiàn)違規(guī)內(nèi)容,由于數(shù)據(jù)量大,高效的主要是通過機(jī)器完成需要算力資源及風(fēng)控模型準(zhǔn),而精準(zhǔn)則要抽檢審核到位,對抗強(qiáng)度大。

2. 場景及流程分析

目前互聯(lián)網(wǎng)上的有關(guān)語音審核的場景主要為IM通訊、音頻點(diǎn)播、音頻直播、多人音頻互動等,主要流程為語音生后,由于數(shù)據(jù)處理量大,目前業(yè)界的方式是會經(jīng)過機(jī)器審核(實(shí)時系統(tǒng))結(jié)合人工運(yùn)營審核的方式,以達(dá)到審核目標(biāo)。

實(shí)時系統(tǒng)中由于數(shù)據(jù)量大,目前會內(nèi)置關(guān)鍵詞表+簡單策略+簡單特征模型進(jìn)行過濾的方式;人工運(yùn)營中由于人工成本有限,要達(dá)到人進(jìn)行大數(shù)據(jù)量審核也不太現(xiàn)實(shí),所以一般會采取數(shù)據(jù)抽檢+前臺巡查+藍(lán)軍對抗的形式。

具體流程如下圖:

三、實(shí)現(xiàn)路徑

1. 實(shí)時系統(tǒng)——相關(guān)技術(shù)流程

由于音視頻和互聯(lián)網(wǎng)文本的區(qū)別,所以在相關(guān)技術(shù)識別上有一些出入,基本流程為用戶語音生成后,經(jīng)過音視頻解碼、靜音檢測、音頻切割后,再進(jìn)行相關(guān)算法及模型的運(yùn)用進(jìn)行內(nèi)容判定。

主要有對音頻進(jìn)行語種識別的語種分類、對聲紋的識別區(qū)分是什么人物的、語音識別、文本分類為對語音識別后的文本進(jìn)行分類、最后還有對嬌喘類語音的識別,經(jīng)過這一系列相關(guān)算法及模型的判斷后,最后得出音頻信息的正常與否。

下圖為基本流程:

2. 運(yùn)營支持方式

1)數(shù)據(jù)抽檢

關(guān)于對音頻數(shù)據(jù)的抽檢,這一項工作分成常規(guī)的和非常規(guī)的。

常規(guī)的主要為通過隨機(jī)抽樣算法(如分層抽樣、水塘算法、隨機(jī)和欠采樣等)進(jìn)行數(shù)據(jù)的抽查,以感知整體數(shù)據(jù)的健康質(zhì)量;非常規(guī)的則為專項,針對特定主題的特定數(shù)據(jù)進(jìn)行巡查,以提升數(shù)據(jù)在特定主題下的審核程度,具體主題選取主要根據(jù)監(jiān)管動向及業(yè)務(wù)需求來定。

關(guān)于抽查數(shù)據(jù)需要注意的點(diǎn):由于違規(guī)信息有嚴(yán)重程度區(qū)分,所以對于重點(diǎn)人物的數(shù)據(jù)以及重點(diǎn)賬號,會提升巡查的力度。

具體巡查流程為:

2)前端巡查

前端巡查主要指站在用戶視角進(jìn)行巡查,流程為根據(jù)巡查目標(biāo),進(jìn)行內(nèi)容審閱后,并對結(jié)果進(jìn)行記錄。

3)藍(lán)軍對抗

藍(lán)軍對抗的目標(biāo)為測試目前系統(tǒng)和運(yùn)營的健康程度,一般會以模仿真實(shí)用戶的方式產(chǎn)生數(shù)據(jù),以測試實(shí)時審核系統(tǒng)及運(yùn)營流程的健康程度。

3. 運(yùn)營支持流程

專項流程:

專項的流程為根據(jù)運(yùn)營支持的反饋分析,開始啟動專項,隨后對專項數(shù)據(jù)進(jìn)行解讀和提煉(關(guān)鍵詞、規(guī)則策略、模型特征積累),第三步為對第二步進(jìn)行提煉出來的內(nèi)容進(jìn)行灰度測試,最后為上線至實(shí)時審核系統(tǒng)。

4. 內(nèi)容安全的有效性指標(biāo)體系設(shè)計

1)指標(biāo)設(shè)計目標(biāo)

保證整體審核體系的健康程度。

2)設(shè)計視角

設(shè)計分成內(nèi)部和外部視角,內(nèi)部主要根據(jù)抽檢比、巡查比、對抗發(fā)現(xiàn)率幾個指標(biāo),外部視角主要根據(jù)監(jiān)管側(cè)的反饋和用戶側(cè)的投訴及舉報數(shù)量去判斷。

四、總結(jié)

對于音頻審核的主要是以人機(jī)結(jié)合的形式進(jìn)行,系統(tǒng)審核主要以關(guān)鍵詞表、簡單模型、簡單策略形式,運(yùn)營審核主要是以抽檢的形式進(jìn)行,為保證整體審核體系的健康程度,要注意數(shù)據(jù)指標(biāo)體系設(shè)計。

 

本文由 @賢鋒_Blue 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

專欄作家

賢鋒_Blue,公眾號:互聯(lián)網(wǎng)內(nèi)容安全,人人都是產(chǎn)品經(jīng)理專欄作家。一名野蠻成長的數(shù)據(jù)產(chǎn)品經(jīng)理(安全方向),多個從 0 到 1 的產(chǎn)品策劃經(jīng)驗。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 作者朋友,您好,已經(jīng)關(guān)注您了
    煩請后面多出一些內(nèi)容安全方面的文章
    我很喜歡您分享的這些內(nèi)容,不知是否可以留您一個聯(lián)系方式,后面向您請教相關(guān)方面的知識呢?我誠心請教,愿意有償知識付費(fèi)

    來自浙江 回復(fù)
    1. 謝謝您的認(rèn)可,我wx是691682361,也可關(guān)注我的公眾號“互聯(lián)網(wǎng)內(nèi)容安全”~

      來自上海 回復(fù)
  2. 真不錯!感謝分享!

    來自廣東 回復(fù)
  3. 感覺不只是審核,現(xiàn)在語音聲控就有一定風(fēng)險,也要加強(qiáng)隱私性和安全性

    來自北京 回復(fù)
    1. 語音聲控不涉及到信息露出和傳播,只是人和機(jī)雙方的事情,就風(fēng)控來講還好。個人隱私數(shù)據(jù)的保護(hù),《個保法》已經(jīng)列好了框架了。

      來自上海 回復(fù)