三次元維度下,語音交互如何更好的應(yīng)用于有屏設(shè)備中?
市面上對(duì)人工智能技術(shù)以及語音交互的熱炒和當(dāng)下以智能手機(jī)為主的有屏設(shè)備,對(duì)語音交互應(yīng)用甚少的矛盾思考。文章只試探性的討論下在有屏設(shè)備中,如何更好的使用語音交互這一點(diǎn)。
交互,即交流互動(dòng),是很多互聯(lián)網(wǎng)平臺(tái)追求打造的一個(gè)功能狀態(tài)。觸覺、視覺、聽覺 ,這三種感知在早期的人機(jī)交互形式中已開始一起出現(xiàn)。在過去40年間,人機(jī)交互方式也在隨著技術(shù)的發(fā)展在不斷進(jìn)化,從最初的單一交互方式到多種交互方式相結(jié)合,也是人和機(jī)器交流互動(dòng)的一個(gè)演變史,更是機(jī)器發(fā)展的一個(gè)演變史。
機(jī)器也從被人類奴役的角色向與人類平權(quán)的歷史在不斷發(fā)展,就像《西部世界》中的機(jī)器人的覺醒以及怎么與人類共存的問題探討。在《西部世界》中我們可以看到:機(jī)器人和人類的語音對(duì)話就是很嫻熟的語音交互的方式,但在《西部世界》這個(gè)機(jī)器人開掛的影視作品中,依然能看到以點(diǎn)觸等手勢(shì)交互為主的智能有屏設(shè)備的廣泛使用。
從交互設(shè)計(jì)的角度來思考,不管導(dǎo)演是如何考量,但是語音交互技術(shù)的嫻熟一定不是為了取代其他交互方式,而是和其他交互方式多元共存。
次元這個(gè)名詞我們并不陌生,次元(Dimension)是指未知數(shù)的多重指數(shù),更多表示的是維度或者獨(dú)立空間;在交互的維度中,我們也可以將交互分為不同的次元:
- 一次元交互:物理控件操作的交互方式,如鼠標(biāo)鍵盤交互。
- 二次元交互:物理控件操作+觸屏手勢(shì)相結(jié)合的交互方式;觸屏交互方式大家應(yīng)該很好理解,就好比你在手機(jī)上點(diǎn)來點(diǎn)去……在2011年前,市面上幾乎所有的智能有屏設(shè)備都屬于二次元交互方式范疇。
- 三次元交互:物理控件操作+觸屏手勢(shì)+語音相結(jié)合的交互方式,現(xiàn)在更多的稱之為多模態(tài)交互。在智能設(shè)備中應(yīng)用語音交互方式可以說是三次元交互的誕生,這主要是得益于Apple公司在2011年發(fā)布的新機(jī)iPhone 4s,4s的發(fā)布帶來了一個(gè)全新的功能——Siri,只要你“hi~Siri”,你就可以通過語音命令讓iPhone為你服務(wù)了。
- 四次元交互:除了物理控件操作+觸屏手勢(shì)+語音相結(jié)合的交互方式外,再加上意念交互,當(dāng)然這屬于未來很久遠(yuǎn)的交互方式。那什么是意念交互?簡(jiǎn)單舉個(gè)例子,比如:《X戰(zhàn)警》中的鳳凰女——琴·格蕾,她擁有讀取他人意識(shí)的精神感應(yīng)能力,并可按照自己的意念進(jìn)行控制任何事物,也可以同時(shí)讀取很多種意識(shí),同時(shí)在另一種人格中可以利用精神控制能力使對(duì)手失去意識(shí)。
當(dāng)下我們處于三次元交互階段,未來我們將會(huì)處于四次元交互階段,也可能將處于五次元或異次元的交互階段,但是這都不得我們現(xiàn)在妄自揣測(cè)。
那回歸正題,我們當(dāng)下所在的三次元維度下的語音交互如何更好的應(yīng)用于有屏設(shè)備中呢?
筆者對(duì)于這個(gè)問題的思考源于一個(gè)矛盾——市面上對(duì)人工智能技術(shù)以及語音交互的熱炒和當(dāng)下以智能手機(jī)為主的有屏設(shè)備,對(duì)語音交互應(yīng)用甚少的矛盾思考。
古人曰過,解鈴還須系鈴人,那我們先要剖析一下有屏設(shè)備,其使用者是誰?其有怎樣的使用場(chǎng)景?其使用時(shí)間?其主要的功能?
- 有屏設(shè)備的使用者——活著的人類
- 有屏設(shè)備的使用場(chǎng)景——地球?yàn)橹?,其他星球?yàn)檩o
- 有屏設(shè)備的使用時(shí)間——不睡覺的時(shí)候
- 有屏設(shè)備的主要功能——裝!能裝載app
本文不討論語音交互的眾多難點(diǎn),比如:發(fā)音要標(biāo)準(zhǔn)、環(huán)境要安靜、不能持續(xù)對(duì)話、不能打斷等,我們只試探性的討論下在有屏設(shè)備中,如何更好的使用語音交互這一點(diǎn)。
既然討論語音交互在有屏設(shè)備中的應(yīng)用,就得先說下語音交互和信息交互的不同。
說到語音交互不得不說說科大訊飛這個(gè)號(hào)稱中國聲谷的人工智能公司的產(chǎn)品,有幸以前在科大訊飛實(shí)習(xí)過,實(shí)習(xí)部門是做機(jī)器人的。這個(gè)機(jī)器人最大的特點(diǎn)就是即主打語音交互,也是一個(gè)有屏顯的機(jī)器人,這也是保證用戶通過聽覺和視覺獲取信息的雙重保障。畢竟語音交互受場(chǎng)景局限很大,在嘈雜的環(huán)境下語音識(shí)別是極為困難的。
同時(shí),在公共場(chǎng)合下使用語音交互會(huì)讓用戶有種失去“私密性”的不安全感。這個(gè)機(jī)器人專為b端的企業(yè)、法院、醫(yī)院、銀行等提供解決方案,目的就是為了替代那些重復(fù)低能的勞動(dòng)力。
在科大訊飛這個(gè)優(yōu)秀的AI公司實(shí)習(xí),也讓我對(duì)人工智能和語音交互有了更直觀和更客觀的認(rèn)識(shí),個(gè)人認(rèn)為當(dāng)下人類所做出得人工智能產(chǎn)品還處于“人工智障”階段,但是也要感謝這些優(yōu)秀的AI公司的努力,讓我們感受到人工智能的未來,人類要做到能和人類正常聊天的機(jī)器人真的還有很長(zhǎng)的路要走。
實(shí)習(xí)時(shí)基本每天都要對(duì)著那臺(tái)有屏顯的機(jī)器人說話,最大的感受就是,語音交互并未和app信息交互和諧共存,語音交互依然還是依附于app的信息交互方式所生存,app信息交互中是很講流程性的,比如:你要在微信中綁定銀行卡,首先你要打開微信首頁??我??錢包??銀行卡??添加銀行卡,你要用語音交互需要幾步就能達(dá)到任務(wù)目標(biāo)呢?
理論上應(yīng)該是兩步,你說:“幫我【打開微信】我要【綁定(添加)銀行卡】”,以此對(duì)應(yīng)的有屏設(shè)備界面應(yīng)該跳轉(zhuǎn)兩下即可。但是,很多智能有屏AI產(chǎn)品依然依附信息交互的流程性,依然沒有擺脫“返回”這一道程序。
語音交互所發(fā)出的命令信息必須命中屏幕界面所給出的信息,如果你在【添加銀行卡】頁面,發(fā)出到【朋友圈】,那對(duì)不起,識(shí)別不了。
由此可見,語音交互和信息交互兩大特點(diǎn):
(1)信息交互特點(diǎn):線型流程性
總結(jié):從A到B必須有遵循線型的流程,在app中的體現(xiàn)就是一張張頁面的跳轉(zhuǎn),并且不分iOS還是android系統(tǒng),所有界面左上角都少不了返回/取消/關(guān)閉,這是確保你原路退回的保障。
(2)語音交互特點(diǎn):點(diǎn)狀跳躍性
總結(jié):從A到B只是兩點(diǎn)一線的距離,點(diǎn)狀跳躍性就很符合語音交互的場(chǎng)景,最極致的語音交互場(chǎng)景就是人和人聊天的場(chǎng)景,兩人可以從詩詞歌賦突然跳躍性的聊到人生理想,接著你也可以直接跳躍性的去聊明星八卦,只要一個(gè)人發(fā)起任何聊天內(nèi)容對(duì)方就會(huì)給予相應(yīng)的回應(yīng)。
那語音交互如何更好的應(yīng)用于有屏設(shè)備中?
求同存異,語音交互和信息交互的最終目的都是一樣的,但是使用方式卻有所不同,解決語音交互如何更好的應(yīng)用于有屏設(shè)備中的方法其實(shí)也很多:
- 根據(jù)不同場(chǎng)景切換兩者的主導(dǎo)權(quán),在語音交互場(chǎng)景下就優(yōu)先遵循語音交互特點(diǎn)與規(guī)則。
- 使用“插入法”,在特定的app頁面中局部插入語音交互。
- 建立通用規(guī)則,就像iOS中的手勢(shì)交互屏幕右滑即是“返回上一級(jí)”,語音交互也可建立這樣的通用規(guī)則。
- 點(diǎn)名法,這就需要攻克技術(shù)難題,打破信息交互中的層級(jí)關(guān)系和流程性,將所有功能點(diǎn)平鋪,當(dāng)你通過語音命令,點(diǎn)到誰的“名字”誰就向前一步。
只有讓用戶感受到語音交互“兩點(diǎn)一線”的快速與便捷,才能讓更多用戶所接受,不然,語音交互就只能存活于特定的視力障礙人群中或特定的使用場(chǎng)景下…
本文只是試探性討論,歡迎大家交流討論~
本文由 @黑斑馬與白斑馬的斑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pixabay,基于 CC0 協(xié)議
非常贊同作者“綁定銀行卡”的舉例。語音輸入要跨越繁瑣的步驟,實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)的及時(shí)對(duì)接,減少用戶的不必要的輸入,盡可能減少用戶在繁瑣的步驟禮掙扎。
握手??~多么痛的領(lǐng)悟啊
語音交互應(yīng)用甚少,難點(diǎn)并不在于交互層面(也就是筆者描述的幾個(gè)交互解決方案),更多是因?yàn)槲凑业?價(jià)值=新體驗(yàn)-舊體驗(yàn)-替換成本 >0 的需求點(diǎn);
您說的是一個(gè)點(diǎn),語音交互的應(yīng)用是很少的,但個(gè)人覺的語音交互現(xiàn)階段最大的價(jià)值是視力障礙等特殊人群,然而這可能對(duì)企業(yè)來說回報(bào)率比較低,所以很少有人深入去做吧,同時(shí)對(duì)于有屏設(shè)備來說的話是軟件+硬件的一個(gè)綜合體了,也不能單拿應(yīng)用來說~
ps:語音交互在殘障人群中是有很大價(jià)值的,國內(nèi)對(duì)于無障礙設(shè)計(jì)考量太少了,據(jù)某些數(shù)據(jù)顯示國內(nèi)的殘障人數(shù)是很龐大的
方法是感覺OK的,但是還是沒能更深入~
謝謝,還是缺少實(shí)操經(jīng)驗(yàn),這也是當(dāng)時(shí)的一些感想??