AI產(chǎn)品經(jīng)理需要了解的智能語音知識:上下文的對話管理

3 評論 6430 瀏覽 60 收藏 11 分鐘

編輯導(dǎo)讀:隨著人工智能的發(fā)展,市面上出現(xiàn)了很多智能產(chǎn)品,它們的核心是希望解放人,用機器來幫助完成簡單的工作。其中,智能語音是最常用到的應(yīng)用之一。本文梳理了一些AI產(chǎn)品經(jīng)理需要了解的智能語音知識,與你分享。

智能產(chǎn)品經(jīng)過幾年的打磨,從開始簡單的天氣查詢,播放歌曲,到去年前年的家庭、車內(nèi)IOT設(shè)備互聯(lián),直到今年火爆的AI生活服務(wù)。

整個演變的過程,不僅僅說明了技術(shù)的革新,也逐漸說明用戶對新功能的期待,以及對智能產(chǎn)品表現(xiàn)出來的更大接受度和包容度。智能語音從簡單的單輪指令性操作,逐漸演變成可以進行多次的連續(xù)對話,甚至有些問題似乎可以匹配人類的聰明回復(fù)。

1. 智能語音的整個交互流程

主要有以下幾個步驟:

聽清:用戶說一句話,機器先把用戶的語音轉(zhuǎn)變成文字,讓機器讀懂用戶具體說了什么。

聽懂:包括意圖識別和任務(wù)分發(fā),主要是自然語言理解技術(shù),包含nli和nlp的技術(shù)實現(xiàn)。讓機器明白用戶到底是說了什么。

  • 意圖識別:用戶說話的意圖:要結(jié)合當(dāng)前的用戶使用情景,服務(wù)場景,硬件環(huán)境,機器會按聽懂的內(nèi)容,給出一個N-bestlist,按權(quán)重進行排序。
  • 意圖分發(fā):拿到N-bestlist上面排位最靠前的意圖,去請求指定的domain數(shù)據(jù)并執(zhí)行任務(wù)。

渲染界面:用戶聽到機器的TTS回復(fù),以及GUI的頁面呈現(xiàn)內(nèi)容。

這其中第二步就是對話管理,主要完成對話狀態(tài)的維護(dialog state tracing,DST),生成系統(tǒng)決策(dialog policy),作為接口與人物模型進行匹配、提供語義表達的期望值(expections for interpretation)、分發(fā)任務(wù)記錄當(dāng)前queryID和pageID。當(dāng)前是用戶的一次對話需要經(jīng)歷的全部流程,如果需要多次的對話,就要不斷的維護對話棧,并且對話棧要匹配當(dāng)前的pageID,才能幫助用戶經(jīng)歷多次跳轉(zhuǎn)都能到達預(yù)期的頁面,所以多輪交互更加復(fù)雜和難以掌控,本文具體介紹多倫交互如何在產(chǎn)品上的實現(xiàn),和當(dāng)前存在的技術(shù)問題,以及產(chǎn)品如何規(guī)避技術(shù)問

2. 多輪交互的三種產(chǎn)品形態(tài)

「問題補充」

定義說明:需要用戶填補確定槽位信息以后,才能讓機器明白用戶的當(dāng)下的真實需求,同事,機器基于用戶的多次槽位回復(fù)找到相對應(yīng)的nli,并且給出用戶需要的結(jié)果。槽位的集合,定義了需要用戶提供哪些信息。

應(yīng)用場景:主要應(yīng)用在一次對話不能讓機器明白用戶的意圖,需要進行多次對話,機器拿到固定的多次結(jié)果后才能給出結(jié)果,主要應(yīng)用在多步驟的同類型任務(wù)中。

以上例子可以看出來,只有用戶說了最后一句話,電話才能打通。這期間經(jīng)歷了【遍歷電話本】-【nli匹配用戶名稱】-【提取結(jié)果】-【上下文管理】-【指代上文的第幾個】-【撥打電話】基于上文內(nèi)容,經(jīng)過幾個步驟才能完成打電話功能。

「搜索&篩選」

定義說明:用戶需要進一步縮小自己的搜索選擇范圍,經(jīng)過多次篩選和多個上文條件的累加,才可以讓機器找到當(dāng)前用戶需要的結(jié)果。

應(yīng)用場景:多倫篩選和搜索,是用戶區(qū)別與手機APP交互的主要應(yīng)用場景。界面的篩選只能做到,單條件的篩選,想要附加其他條件,或同類型服務(wù)對比,需要GUI操作或者打開新的APP重新選擇。整個流程相對繁雜。語音解決了用戶重新選擇,點擊界面的操作步驟。用戶可以先看一下機票,如果不滿意立刻切換火車票,如果還不滿意,再返回機票,機票也可以進行多次的篩選選擇出自己需要的機票信息。

用戶不需要每一次對話都要說清楚北京到上海的條件,在對話的開始說一次,之后的查詢車票和返回機票都是按當(dāng)前起始地和目的地進行查詢。如果用戶想要更換城市,可以query“深圳出發(fā)”,這時候起始地就會更改為深圳市。

「跨場景跳轉(zhuǎn)」

定義說明:不同場景內(nèi)的上下文指代,主要通過“名稱指代”,“他”等代替上個場景的主要部分。

應(yīng)用場景:用戶的任務(wù)是連續(xù)的,可能需要跨越幾個APP才能結(jié)束??鐖鼍暗纳舷挛膶υ捁芾恚粌H讓用戶感受無感APP的跳轉(zhuǎn),還能讓用戶感受到語音比GUI操作的真實便利感。

從上文的交互流程可以看到,【人物百科】-【歌曲】-【電影信息】-【播放視頻】如果按當(dāng)前app的呈現(xiàn)方式,用戶想要看個視頻,要打開查詢并手動關(guān)閉3個app包括【百度百科APP】-【QQ音樂APP】-【騰訊視頻APP】這個流程根本不可能1分鐘內(nèi)完成。這就凸顯了語音交互的優(yōu)勢了。

3. 上下文交互存在的問題

如此好的用戶體驗,想到做到用戶無感知,產(chǎn)品體驗極致,是需要技術(shù)保駕護航的。但是,當(dāng)前技術(shù)上存在的不能完成產(chǎn)品全部設(shè)想的問題,主要有三種:

「什么時候是篩選的開始」

有些用戶不想要加入的上文也帶進來了,導(dǎo)致用戶很難重新開始。例如用戶在酒店頁面加入篩選條件“西安”,用戶再次詢問天氣的時候,是回復(fù)“西安的天氣”還是“用戶當(dāng)前定位城市的天氣”。

「什么時候覆蓋了之前的條件」

同類型的結(jié)果條件會進行覆蓋,例如9點以后會覆蓋之前2點以后的搜索結(jié)果,由于沒有顯示清楚,用戶總覺得當(dāng)前的結(jié)果并不是自己所想要的。基于以上兩個交互中存在的問題,產(chǎn)品設(shè)計優(yōu)化建議如下。搜索結(jié)果,展示當(dāng)前結(jié)果進行篩選的所有屬性tag,用戶可以GUI進行刪除,每次曬出tag,按當(dāng)前的已有tag給出新的搜索結(jié)果。這樣就解決的了用戶可見當(dāng)前的搜索結(jié)果的理由,其次,用戶想要重新篩選或者更改篩選條件的時候,更加輕松簡單。

「上本的保留什么時候是極限」

可以同時保留多個上文篩選條件,同時進行結(jié)果的篩選,但是也有個問題,上文多個篩選條件的保留是有范圍限制的,目前基本保留5個篩選條件,等到第六個篩選條件出現(xiàn),由于已經(jīng)超出的上文保留的篩選條件棧,會清空之前的全部棧內(nèi)數(shù)據(jù),把最新的篩選條件放入棧的第一個,按當(dāng)前進行篩選結(jié)果,并在當(dāng)前棧內(nèi)累加更多的篩選條件。

4. 產(chǎn)品上的優(yōu)化策略

  1. 通過搜索條件、排序條件和篩選條件來確定哪些是需要或者可以支持多輪交互的。從產(chǎn)品上定義出用戶使用的邏輯,方便用戶在體驗中更能找到產(chǎn)品的設(shè)計宗旨邏輯。
  2. 回復(fù)的TTS需要加上用戶當(dāng)前的篩選條件。有些排序條件和搜索條件,產(chǎn)品經(jīng)理需要定義什么時候回復(fù)要加上,什么時候回復(fù)tts不需要加上。
  3. 如果是帶屏幕的設(shè)備,可以通過顯示當(dāng)前結(jié)果的篩選或者搜索tag,既可以引導(dǎo)用戶增加想要說的條件,也可以讓用戶明白哪些條件被覆蓋掉,需要重新說。經(jīng)過多倫以后,達到樹形結(jié)構(gòu)的最后一層,導(dǎo)致所有的篩選結(jié)果清除,用戶重復(fù)篩選或者復(fù)用上一輪的篩選條件。建議把所有的內(nèi)容都放入棧內(nèi),用戶每次新的tag入棧,向前擠掉最前面的幾個tag,只維護當(dāng)前這個動態(tài)的固定tag的棧。

從事智能產(chǎn)品經(jīng)理已經(jīng)有小2年了,從最開始的智能產(chǎn)品的硬件設(shè)計和綁定設(shè)計,到智能軟件交互產(chǎn)品的設(shè)計,一路感悟頗多,最近也是希望把自己的經(jīng)驗記錄下來??赡艽嬖阱e誤和理解偏頗的地方,建議大家踴躍指出,共同進步把~

乘風(fēng)破浪會有時,直掛云帆濟滄海。

 

本文由 @哎呀呀妖妖 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 您最后提到的棧的概念應(yīng)該是隊列

    來自浙江 回復(fù)
  2. 很不錯

    來自浙江 回復(fù)
  3. 學(xué)到老,活到老

    來自廣東 回復(fù)