如何提升語音的可發(fā)現(xiàn)性,讓小白用戶也能輕松使用?
為什么要提升語音可發(fā)現(xiàn)性呢?因?yàn)楹芏鄷r(shí)候,用戶不小心說錯(cuò)話語音并不懂得糾正,而且語音的自然感知力度也不如視覺交互。本文為了解決這些問題,進(jìn)行了一些思考。
在很早的時(shí)候語音就已經(jīng)深入人們的生活,siri算是比較早的被人們熟知的語音助手,每天早上匆忙要離開家之前都會(huì)說:“Hey Siri,今天天氣”,比起解鎖找到天氣應(yīng)用,點(diǎn)擊打開,查看天氣情況,路徑縮短很多。
我認(rèn)為這就是語音最大的優(yōu)點(diǎn),縮短使用路徑,直達(dá)用戶目標(biāo),所以智能化可持續(xù)性學(xué)習(xí)的搜索方式會(huì)是它比較重要的一種手段。那么首先讓用戶逐步熟悉了解語音的使用方法,才會(huì)真的將這種方便實(shí)用的交互方法融入人們的日常生活。
為什么想從語音的可發(fā)現(xiàn)性角度來思考方案呢?第一點(diǎn),當(dāng)前的語音錯(cuò)誤后的提示很不友好,用戶說錯(cuò)后也不知道要如何糾正;第二點(diǎn),語音無法通過視覺呈現(xiàn),自然感知力度不如視覺交互。
那么我們從哪些方面提升語音的可發(fā)現(xiàn)性呢?這就要來捋一捋出行時(shí),語音、載體、用戶之間發(fā)生的觸點(diǎn)在哪里,在什么步驟容易出現(xiàn)問題。
一、觸點(diǎn):語音的載體
用戶在什么場景下接觸到語音,這個(gè)語音的載體包含哪些部分,都是非常關(guān)鍵的。
這里不對(duì)用戶進(jìn)行定位,主要是出于這樣的考慮:現(xiàn)階段為語音起步階段,年齡、性別的區(qū)分僅代表著接受新交互方式的難易程度。所以此階段應(yīng)當(dāng)是不斷探索語音更為方便的場景,讓人們逐步認(rèn)識(shí)到語音的便捷性。
那么現(xiàn)在普遍使用語音的場景有以下幾種:
- 家中:音箱、電視盒子、電視遙控器、手機(jī)
- 車內(nèi):中控、后視鏡、HUD、手機(jī)
- 公共場合:服務(wù)機(jī)器人
這些場景下的載體有這形式:
- 有屏幕
- 無屏幕
公共場合的服務(wù)機(jī)器人這里我們不討論,他們的業(yè)務(wù)性比較強(qiáng),是強(qiáng)業(yè)務(wù)主導(dǎo)的交互流程,和人們?nèi)粘I钪惺褂谜Z音的場景完全不同。那么就是家中有屏無屏和車內(nèi)有屏的語音交互討論。
二、當(dāng)前語音技術(shù)存在的問題
不論何種場景,語音的技術(shù)都是類似的,實(shí)現(xiàn)的原理也都是一樣的。這里舉例一些語音技術(shù)存在的問題:
1.必須喚醒
喚醒的花樣很多,有喚醒詞、快捷喚醒詞、oneshot,業(yè)界外的人肯定不了解這都是什么東西,更可況我們想要推廣的廣大用戶呢。
這里解釋下,這些喚醒方式之間的區(qū)別:
喚醒詞:最為基礎(chǔ)的喚醒方式,一般是有固定的2-4個(gè)字作為喚醒詞,比方說“你好小度、小愛同學(xué)”等,機(jī)器收到這樣的語音信號(hào),就開啟錄音,這時(shí)候用戶可以隨意說話,機(jī)器將錄音文件拿去識(shí)別,這就是全部的識(shí)別的過程。
快捷喚醒詞:由于每次操作都需要說喚醒詞才可以控制,所以快捷喚醒詞應(yīng)運(yùn)而生,有些又叫他hotwords,實(shí)現(xiàn)方式都是一樣的。選取會(huì)比較常用的幾個(gè)詞匯,比方說“上一首、下一首、增大音量、返回主頁”等,同樣作為喚醒詞,不過和喚醒詞不同的是,這里只有喚醒,喚醒后識(shí)別到相應(yīng)操作命令,直接執(zhí)行,沒有后續(xù)的識(shí)別。
oneshot:同樣,設(shè)定幾個(gè)詞作為喚醒詞,比方說“導(dǎo)航到、我要聽”,機(jī)器收到這樣的語音信號(hào),就開啟錄音,這時(shí)候用戶可以隨意說話,不過相比較喚醒詞增加一步,機(jī)器會(huì)對(duì)錄音進(jìn)行裁剪,裁剪到喚醒詞后那一段就是用戶自由說話的命令,再拿著裁剪后的音頻文件去識(shí)別,就和使用喚醒詞操作一樣的效果。
2.錄音過程中,雜音、交談的話語可能會(huì)被錄入
喚醒語音后,會(huì)進(jìn)入錄音狀態(tài),識(shí)別是將錄音的音頻拿去識(shí)別到喚醒詞后面的那一段音頻,錄音是無差別錄音的,雖然現(xiàn)在有各種降噪技術(shù),但是人們對(duì)話的聲音機(jī)器是無法區(qū)別的。
3.語義不能完全覆蓋全場景
想讓機(jī)器理解這段話,就需要語義理解?,F(xiàn)在的做法還是依靠人工的錄入,無法靈活理解。
4.對(duì)話系統(tǒng)不夠靈活,很多執(zhí)行完一個(gè)任務(wù)之后就退出,還需重新喚醒
當(dāng)前語音對(duì)話系統(tǒng)雖然有不少多輪對(duì)話的場景,比方說在導(dǎo)航選擇地點(diǎn)時(shí),用戶可以說“下一頁、第二個(gè)”或者某個(gè)地點(diǎn)分詞進(jìn)行選擇,但是看其本質(zhì),依舊是在導(dǎo)航情境下的單輪對(duì)話,選擇某地之后就進(jìn)入導(dǎo)航退出語音。最主要考慮的問題點(diǎn)還是第二個(gè)問題無法解決。
三、家中的場景
家中的場景是語音交互的最好場景,網(wǎng)絡(luò)的穩(wěn)定程度、安靜的環(huán)境、自由的使用環(huán)境,都使得語音在這一場景中具有非常大的吸引力。
在這一場景中使用語音的載體除了音響其他都有屏幕,電視盒子、遙控器都可以配合電視屏幕使用。手機(jī)、電視都帶屏幕,但是提示方式不能和車載設(shè)備類比,使用場景不同有很大的不一樣。
在家中,人處于一種相對(duì)比較舒適、靜止的狀態(tài),他有精力或者時(shí)間去仔細(xì)看屏幕上的文字提示,那么這樣的有屏載體需要有比較多的比重出現(xiàn)說法提示,或者下一步的引導(dǎo),用戶數(shù)據(jù)收集的比較齊全的時(shí)候,也可以做新老手不同的操作引導(dǎo)。
智能音箱雖說不帶屏幕,但是需要通過手機(jī)設(shè)置連接家中wifi,這樣才可以獲取云端資源,這里做交互引導(dǎo)的時(shí)候需要注意,用戶喚醒是通過智能音箱操作的,那么在手機(jī)上可以做按鈕點(diǎn)擊喚醒音箱語音,但不能給用戶一種幻覺:可以通過手機(jī)對(duì)話。
四、車內(nèi)的場景
車內(nèi)的載體不論中控、后視鏡、HUD還是手機(jī)都是有屏幕的,這就意味著可以依靠屏幕傳達(dá)部分信息給到用戶,那么這里就涉及到多模交互。何時(shí)看屏幕、何時(shí)聽語音是比較好的。這全看用戶心情,當(dāng)然我們也要做到良性引導(dǎo)。
根據(jù)后臺(tái)用戶使用語音的數(shù)據(jù)來看,導(dǎo)航是使用頻次最高的一個(gè)領(lǐng)域,其次是音樂、電臺(tái)、天氣。所以從導(dǎo)航、音樂入手讓用戶先了解語音的基本使用方法。
上篇《語音交互中重要的引導(dǎo)設(shè)計(jì)》已經(jīng)展示了幾種引導(dǎo)方法,不過還是有不足,比方說在首頁的位置放說法引導(dǎo),其實(shí)經(jīng)過一些用戶測試,發(fā)現(xiàn)那種方法并不是萬能的,很多用戶都不會(huì)去看有什么說法。
所以我們應(yīng)該按照使用語音的先后順序進(jìn)行引導(dǎo):喚醒、識(shí)別。那么如果跳過新手引導(dǎo)的用戶,至少要先告訴用戶如何喚醒使用:
如果忽略這句TTS,也沒關(guān)系。在首頁的語音卡片上,常駐這樣一句話,提示用戶如何喚醒語音。
不過這種方法其實(shí)都是比較被動(dòng)的,等待用戶去發(fā)現(xiàn),去探索,如果語音自己開始對(duì)話,又會(huì)被吐槽智障,或者受到驚嚇。所以最初的產(chǎn)品策略應(yīng)該比較保守一點(diǎn),畢竟在智能車機(jī)上語音只是一個(gè)很小的一部分,過多的打擾到用戶真的會(huì)有困擾。
這是我列的如何循序漸進(jìn)的教會(huì)用戶使用這樣的喚醒方式:
- 第一步:基本操作:導(dǎo)航去哪里,聽什么,給誰打電話
- 第二步:喚醒進(jìn)行音樂操作,提示她“下一首”可以不喚醒使用
- 第三步:當(dāng)用戶發(fā)現(xiàn)有些可以不需要喚醒使用的,但是不知道在哪種情況下使用,那么就設(shè)置一個(gè)對(duì)話:
U:你有什么不需要我喚醒就可以說的?
天:全部喚醒詞羅列,同時(shí)安利免喚醒的概念
升級(jí)方案:用戶肯定記不住,當(dāng)他有疑問詢問
U:快速導(dǎo)航是免喚醒嗎?
天:不是哦,導(dǎo)航中能免喚醒操作的有這些,您可以到哪里查看…
高級(jí)用戶:找到自己習(xí)慣的操作方式,只記住那幾個(gè)免喚醒詞,有了固定的使用操作模式
之所以想要對(duì)快捷喚醒詞作那么多的引導(dǎo),主要是出于當(dāng)前技術(shù)限制,喚醒是無法避免的,但是高頻操作如果不采用快捷喚醒詞實(shí)現(xiàn)的話,對(duì)用戶來說更為麻煩,每次必須喚醒,就只說那么一個(gè)指令,語音的存在是為了滿足用戶懶惰的心理,用戶但凡覺得有點(diǎn)麻煩的時(shí)候就會(huì)逐漸減少語音的使用,而這個(gè)節(jié)點(diǎn)就是我們需要花功夫去細(xì)化方案的地方。
五、一些感想
關(guān)于第二個(gè)問題點(diǎn),開了個(gè)腦洞,在車內(nèi),如果搭配人臉識(shí)別、上下文理解,是不是可以去判斷用戶何時(shí)對(duì)機(jī)器說話呢?
首先,人們?nèi)粘?duì)話時(shí),我要和誰說話基本都會(huì)面朝誰,哪怕眼神不會(huì)轉(zhuǎn)移,但是面部還是會(huì)配合對(duì)話者轉(zhuǎn)過去,這里就可以通過人臉識(shí)別看用戶喚醒后是否將面部轉(zhuǎn)過來。
第二點(diǎn),因?yàn)樵陂_車時(shí),注意力肯定是高度集中的,有時(shí)候可能是不會(huì)轉(zhuǎn)動(dòng)面部,但是人們?nèi)粘5膶?duì)話遵隨的這幾個(gè)準(zhǔn)則:所說的話是自己相信的真實(shí)信息、所說的話滿足交際中所需的信息量、所說的話和當(dāng)前對(duì)話相關(guān)、說話清晰明了。
所以我們可以根據(jù)錄入的人們說話的內(nèi)容判斷上下文聯(lián)系,進(jìn)而判斷是否在和機(jī)器對(duì)話。
如果是不相關(guān)的內(nèi)容其實(shí)是對(duì)機(jī)器說的,那么此時(shí)喊下喚醒詞也是符合常理的,可以對(duì)比兩人對(duì)話,一人突然說了其他的話題,另外一個(gè)人沒有意識(shí)到是對(duì)自己說話的,那么說話者肯定會(huì)要喊那人名字。所以一個(gè)豐富且符合常理的語音狀態(tài)反饋非常重要。
以上是我對(duì)于當(dāng)前如何提升語音可發(fā)現(xiàn)性以及未來可用技術(shù)解決的問題一些探討。
語音其實(shí)不能只限制在車載或者是家居場景,因?yàn)殡S著人工智能的發(fā)展,想讓一個(gè)機(jī)器智能,肯定會(huì)有越來越多感知外界的技術(shù):語音、圖像等,但是機(jī)器想要陳述或是表達(dá),必須要用到語音,所以語音是將來人工智能的一種輸入感知的入口。所以如何更好理解人們說的話是非常值得研究的。
作者:青絳,微信公眾號(hào):慕七和大胖
本文由 @青絳 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash ,基于 CC0 協(xié)議
11