車(chē)載語(yǔ)音助手-技術(shù)流程梳理(概覽)

0 評(píng)論 1002 瀏覽 9 收藏 6 分鐘

一次完整的語(yǔ)音交互??

信號(hào)處理→語(yǔ)音識(shí)別(ASR)→自然語(yǔ)言處理(NLP)→語(yǔ)音合成(TTS)→對(duì)話(huà)管理(DM)

一、什么是語(yǔ)音交互

先舉例語(yǔ)音中的一個(gè)經(jīng)典案例;

酒吧里燈光耀眼,音樂(lè)勁爆,盡管周邊的噪音很大,盡管周?chē)娜耸褂玫氖歉髯缘哪刚Z(yǔ),英文、西語(yǔ)、等等,此時(shí),如果遠(yuǎn)處突然有人用中文叫你的名字時(shí),你還是能夠馬上就注意到他,甚至可以聽(tīng)到他說(shuō)的內(nèi)容;這是語(yǔ)音中一個(gè)非常經(jīng)典的現(xiàn)象,稱(chēng)之為“雞尾酒會(huì)效應(yīng)”,它體現(xiàn)出了人耳在聽(tīng)覺(jué)上的天賦異稟,同時(shí)也是語(yǔ)音識(shí)別中的經(jīng)典難題。

1.? 在這個(gè)例子里,語(yǔ)音助手先做了一件事,就是“聽(tīng)清楚”,我們把這個(gè)過(guò)程,叫做“信號(hào)處理”。信號(hào)處理的目的是能夠讓這段聲音,盡可能干凈,高質(zhì)量地提取出來(lái),而要做到這個(gè),需要解決很多問(wèn)題,比如:“聲源定位”,在環(huán)境中,找到“叫你的名字”的那個(gè)“他”的具體位置;“降噪”,將“酒吧的噪音”、“其它人交談的噪音”都消除干凈等等。

2. 當(dāng)語(yǔ)音助手“聽(tīng)清楚”了,之后就要“識(shí)內(nèi)容”,要識(shí)別出聲音中的具體內(nèi)容,這是我們經(jīng)常說(shuō)到的“語(yǔ)音識(shí)別”,即“聲音轉(zhuǎn)寫(xiě)成文字”的過(guò)程;比如他說(shuō):“現(xiàn)在幾點(diǎn)了?”,將音頻轉(zhuǎn)換為文字的過(guò)程

3. 語(yǔ)音助手知道內(nèi)容了,就得“想意思”,想“現(xiàn)在幾點(diǎn)了?”里的具體意思,這個(gè)過(guò)程為“語(yǔ)義理解”,即“自然語(yǔ)言理解”;他的意思是:“他期望我反饋”、“現(xiàn)在”、“時(shí)間”、“具體時(shí)間中的小時(shí)”;聽(tīng)懂了,就得“去行動(dòng)”,得先看下手表里顯示的現(xiàn)在時(shí)間,然后把小時(shí)的數(shù)值反饋給他,我們把這個(gè)處理過(guò)程稱(chēng)為“語(yǔ)義處理”;行動(dòng)完了,要“想話(huà)術(shù)”,同樣都是告訴他時(shí)間,說(shuō)法會(huì)有很多種,可以說(shuō)“8點(diǎn)”,可以說(shuō)“現(xiàn)在是2024年4月7日20點(diǎn)12分50秒”,也可以說(shuō)“剛過(guò)8點(diǎn),咋啦”等等,不同的表達(dá)方式,會(huì)給人帶來(lái)不一樣的體驗(yàn)和感受,我們稱(chēng)這個(gè)過(guò)程為“語(yǔ)言生成”;當(dāng)然,我們也會(huì)把“想意思”->“去行動(dòng)”->“想話(huà)術(shù)” ->”語(yǔ)言生成“放在一起,都叫做“自然語(yǔ)言處理”。

4. 想清楚怎么表達(dá)之后,就要“說(shuō)出來(lái)”,將“文字轉(zhuǎn)換成聲音”的過(guò)程,我們叫它“語(yǔ)音合成”,之后再通過(guò)揚(yáng)聲器播放出來(lái),不同的聲音會(huì)給人帶來(lái)不同的感受,比如“星河”和“蜜糖”(小愛(ài)同學(xué)的音色),兩種聲音給人的體驗(yàn)是不一樣。

二、小結(jié)

一次語(yǔ)音交互=“聽(tīng)清楚”->“識(shí)內(nèi)容”->“想意思”->“去行動(dòng)”->“想話(huà)術(shù)”->“語(yǔ)言生成”->“說(shuō)出來(lái)”

在這個(gè)過(guò)程中,用戶(hù)感知到語(yǔ)音助手的狀態(tài)即為:

1. 初始/休息狀態(tài):語(yǔ)音機(jī)器人未喚醒,大家相安無(wú)事,無(wú)互動(dòng)(以Nomi為例子,Nomi會(huì)處于待機(jī)狀態(tài),或者根據(jù)車(chē)況做出伴隨表情)

2. 傾聽(tīng)狀態(tài):通過(guò)喚醒詞喚醒語(yǔ)音助手,語(yǔ)音助手提供反饋高速用戶(hù)可以說(shuō)話(huà)了,我在聽(tīng)。這種信號(hào)通常會(huì)采用視覺(jué)文字上屏文字+虛擬人物表情,表示人類(lèi)發(fā)出的音頻流正在被語(yǔ)音機(jī)器人接收。

3. 處理/思考狀態(tài):發(fā)生在人們停止說(shuō)話(huà)但語(yǔ)音機(jī)器人還沒(méi)有處理好用戶(hù)需求給出結(jié)果反饋的時(shí)候。通常還伴有聲音+虛擬人物表情反饋。

4. 說(shuō)話(huà)狀態(tài):這種信號(hào)是通過(guò)語(yǔ)音機(jī)器人在回應(yīng)時(shí)發(fā)出聲音來(lái)傳遞的。

5. 免喚醒狀態(tài):通常語(yǔ)音機(jī)器人被中斷,或者已經(jīng)處理完用戶(hù)的一個(gè)語(yǔ)音需求后處于免喚醒狀態(tài)(通常維持20-60秒,大家可以測(cè)試一下自己的語(yǔ)音助手可以維持多久)。免喚醒狀態(tài)和初始狀態(tài)之間的區(qū)別在于前者支持上下文理解,后者不支持,前者不需要喚醒詞喚醒可以直接呼出,后者需要。

參考:

–《語(yǔ)音優(yōu)先:智能語(yǔ)音技術(shù)驅(qū)動(dòng)的交互界面設(shè)計(jì)與語(yǔ)音機(jī)器人設(shè)計(jì)》艾哈邁德·布齊德

–《一段聲音的旅程》秋歌

本文由 @大魚(yú) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀(guān)點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!