逐漸興起的對話式設(shè)計,你了解多少?
![](http://image.woshipm.com/wp-files/img/65.jpg)
對話式交互將逐漸改變?nèi)祟惖纳詈土?xí)慣,未來的生活是怎樣的正是我們所興奮和期待的:)
對話式交互的崛起
計算機(jī)從簡單的CLI(Command-line interface,命令行界面)發(fā)展到復(fù)雜的GUI(Graphical User Interface,圖形用戶界面),再發(fā)展到以自然交互為主的NUI(Natural User Interface, 自然用戶界面),期間經(jīng)歷了30多年時間。CLI時代計算機(jī)性能欠缺,用戶與計算機(jī)的互動主要以簡單連續(xù)的指令為主;到了GUI時代,計算機(jī)性能大幅度提升,用戶與計算機(jī)的互動還增加了瀏覽、視頻、語音、游戲等方式;再到NUI時代,隨著大數(shù)據(jù)和人工智能和其他新型技術(shù)的出現(xiàn),與計算機(jī)的交互逐漸從鼠標(biāo)鍵盤發(fā)展到觸摸屏、語音交互、與穿戴式設(shè)備的交互、AR(Augmented Reality,增強(qiáng)現(xiàn)實)和VR(Virtual Reality,虛擬現(xiàn)實)的交互。一路下來“界面”這詞逐漸變得模糊甚至未來可能會消失,那么人與計算機(jī)的交互脫離界面后以什么樣的形式承載呢?
這個問題的答案得回歸到計算機(jī)input(輸入)和output(輸出)的本質(zhì)。input類似于我給計算機(jī)一個問題或指令,output類似于計算機(jī)理解我的問題和指令后給予解答或反饋。本質(zhì)上其實是人與計算機(jī)的交流和對話。也就是說即使脫離了界面,人與計算機(jī)的交互能以對話的形式繼續(xù)下去。
談起對話,人生短暫幾十年,人將大部分時間和精力都花在學(xué)習(xí)如何與別人溝通。即使這個人是文盲不懂寫字不懂如何使用計算機(jī),他也能夠通過說的形式將自己的想法表達(dá)出來與別人溝通,因為這是人的本能。有好多老人之前沒有接觸過計算機(jī)和手機(jī)不懂如何使用新科技,加上年齡的增長,他們對這些冷冰冰的科技有著抵觸;但他們愿意學(xué)習(xí)使用微信和遠(yuǎn)在他方的兒女交流,因為微信有語音輸入和視頻聊天,即使不懂文字輸入教一下他們也懂得如何語音聊天甚至視頻交流,與兒女見面交流變得如此簡單。
與朋友親人聊天包括了情感交流,溫馨、喜悅、激動,這也是為什么老人愿意使用微信語音,因為他們覺得微信的另一邊是好久沒見的兒女。如果機(jī)器可以是一個人,也是一個朋友,我們可以通過文字與語音的形式與機(jī)器對話交流,無疑學(xué)習(xí)成本是最低的,而且更多人愿意去嘗試。對話式交互自然而然成為人與計算機(jī)之間最簡單最自然的交互方式。
機(jī)器與人對話難點在于
對話是人與人之間交換信息的普遍方式。人可以在交流時通過判別對方的語氣、眼神和表情判斷對方表達(dá)的情感,以及根據(jù)自身的語言、文化、經(jīng)驗和能力理解對方所發(fā)出的信息,但對于只有0(false)和1(true)的計算機(jī)來講,理解人的對話是一件非常困難的事情,因為計算機(jī)不具備以上能力。對話式交互是計算機(jī)擬人化的關(guān)鍵之一,要實現(xiàn)擬人化需要解決以下問題:
1.詞語和語法理解
計算機(jī)通過NLP(Natural Language Processing,自然語言處理)去理解人說的話。但有些語句和詞語可能會產(chǎn)生歧義,例如:The pen was in the box.(鋼筆在盒子里);然而 The box was in the pen(盒子在鋼筆里)?這句話是不符合常識的,但pen還有一個意思是圍欄,“盒子在圍欄里”這句話是符合常識的。單從一句話計算機(jī)可能無法準(zhǔn)確理解對錯,這需要計算機(jī)對上下文和對現(xiàn)實環(huán)境有充分的感知才能理解人類所表達(dá)的意思。隨著對話次數(shù)的增加,上下文變得更復(fù)雜,這對于計算機(jī)的性能和理解能力是一個非常大的挑戰(zhàn)。
2.命令和問題
目前人與計算機(jī)的對話大多以簡單命令和問題為主,如“今天天氣怎樣?”“元旦節(jié)是什么時候”“最近最便宜的餐館在哪?”“現(xiàn)任美國總統(tǒng)是誰”“順德在哪?”。計算機(jī)可以通過“天氣,餐館,最近,最便宜”等關(guān)鍵詞明確命令和問題后,在自己數(shù)據(jù)庫和互聯(lián)網(wǎng)上進(jìn)行搜索,梳理答案并排序,將最優(yōu)答案反饋給用戶。
以上問題可以總結(jié)為“是什么(What),什么時候(When),哪一個(Which),是誰(Who),什么地點(Where)”,目前計算機(jī)能簡單處理以上問題,但“為什么歐美人頭發(fā)是金色的?”“做九大簋的流程是怎樣的”等涉及“為什么(Why)”“過程(How)”,若之前沒有用戶在網(wǎng)上回答過該問題,計算機(jī)不知道答案是什么,整個對話可能被中斷,體驗也會受到折損。
再舉一個例子,“幫我買一張飛機(jī)票”,人可以從經(jīng)驗判斷出這張飛機(jī)票由多個因素決定:地點,時間,價格,怎么買。若應(yīng)用之前已錄入了解決辦法,如先了解用戶要飛去哪里,然后自動獲取用戶的日程表和未來幾天的機(jī)票價格,合理給出便宜且滿足用戶時間的機(jī)票選擇,用戶確認(rèn)機(jī)票信息后應(yīng)用將用戶的身份信息,飛行時間,目標(biāo)地點反饋給航空公司,預(yù)定好機(jī)票后讓用戶確認(rèn)并付款。若該應(yīng)用的設(shè)計師沒有錄入解決該問題需要哪些參數(shù)(因素),可能機(jī)器無法對此命令作出執(zhí)行;整個對話也會被中斷,體驗受到折損。
3.數(shù)據(jù)積累
人的成長更多在于學(xué)習(xí)和知識、經(jīng)驗的積累,三者也決定了智商這詞。通常智商高的人不太喜歡和智商低的人討論學(xué)術(shù)或技術(shù)問題,因為他總感覺倆人不在一個頻道上,溝通起來會很麻煩。例如Sheldon在和Leonard他們討論學(xué)術(shù)問題幾乎都是輕蔑的語氣,因為Sheldon覺得Leonard他們無法理解他的思維和想法,無法幫助他解決問題,
所以Sheldon更不喜歡和Penny有學(xué)術(shù)上的交流。
同理,目前機(jī)器的智商只有幾歲大,只能執(zhí)行人類的簡單指令,但不能幫助人類解決更多思維上有難度如哲學(xué)、學(xué)術(shù)上的問題,所以人與機(jī)器交流起來可能會很心累而且會這么想:
Alpha Go能在圍棋領(lǐng)域(對話)擊敗李世石是通過幾萬臺服務(wù)器下了幾百萬盤棋經(jīng)驗(數(shù)據(jù))的積累,不斷自我迭代提升自己的智商(算法),所以機(jī)器想和人類有正常的對話交流需要掌握更多的數(shù)據(jù),通過大數(shù)據(jù)和機(jī)器學(xué)習(xí)的形式進(jìn)行自我迭代,把知識和經(jīng)驗沉淀下來,提升自己的智商。
4.語音識別
以上是基于文字的對話,屬于對話的基礎(chǔ)。若要進(jìn)一步發(fā)展則是人通過說話將信息表達(dá)出來而機(jī)器接收語音并轉(zhuǎn)化為文字。語音識別將是對話的一個非常高的門檻。
A.語言
人在聊天時所表達(dá)的意思主要由詞匯、語調(diào)、語言、語法、口音和語速等決定。機(jī)器要將語音識別為文字需要解決以上因素,再通過機(jī)器翻翻譯成能理解的文字再執(zhí)行。
B.情感
人在聊天時往往帶著情感交流,不同的情感語句所表達(dá)的意思也會截然不同,這會導(dǎo)致上下文理解產(chǎn)生明顯的差異。舉一個“臥槽”的例子。
相同一個詞用不同發(fā)音會有不同的表達(dá)情感,這對機(jī)器來講是否能準(zhǔn)確理解人所表達(dá)的意思是一個非常大的挑戰(zhàn)。
C.機(jī)器如何表達(dá)
機(jī)器需要將信息轉(zhuǎn)換成人類可接受的對話,難點包括了信息表達(dá)的轉(zhuǎn)換(文章的表達(dá)(類似文言文)與聊天形式(類似白話)的表達(dá)截然不同)、對話的長度、各國語言、文化、情感化。
技術(shù)限制與解決
說了這么多,其實想說明未來決定對話式產(chǎn)品成功的因素不是產(chǎn)品和設(shè)計,而是技術(shù)能否支撐復(fù)雜的對話流。之前人與計算機(jī)的交互大多數(shù)是人給簡單的指令和問題,計算機(jī)給出反饋和簡單的選項讓人做決定,所以難度較低?,F(xiàn)在是人給出指令和問題后,計算機(jī)需要分析上下文理解用戶的意思,產(chǎn)生選項后自己解答,最后將最優(yōu)解反饋給人,難度提升了很多。
近年來科學(xué)家通過機(jī)器學(xué)習(xí)和大數(shù)據(jù)的方法,人工智能有了新的突破。Google利用大數(shù)據(jù)來訓(xùn)練自己的翻譯模型,使自己的機(jī)器翻譯水平有了質(zhì)變的飛躍;百度推出的Deep Speech 2(深度語音識別系統(tǒng))語音識別準(zhǔn)確率高達(dá)97%,語音輸入比手動文字輸入快達(dá)3倍,且失誤更低;百度的新型情感語音合成系統(tǒng)能夠讓機(jī)器擺脫平鋪直敘的發(fā)聲,為用戶帶來更自然、更接近真人朗讀的聽覺體驗;在20層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,微軟認(rèn)知服務(wù)提供了語音及語言API給開發(fā)者,開發(fā)者可以開發(fā)自己的對話式應(yīng)用。技術(shù)逐步發(fā)展起來,在不久的將來會有更多的對話式產(chǎn)品進(jìn)入市場。
對話式技術(shù)解決方案:
人工對話
主要代表為美國創(chuàng)業(yè)公司設(shè)計的個人助理應(yīng)用Magic。當(dāng)用戶提出要求如“幫我買一張機(jī)票”時,后臺通過人工運營為用戶提供解決方案,簡單理解就是有個貼身客服為你解決問題。該方案的好處是本質(zhì)上是人與人之間的溝通,能避免很多問題;缺點是當(dāng)用戶量漲起來后,后臺的人工運營能否扛住壓力。目前Magic通過一半人工一半機(jī)器回答的形式轉(zhuǎn)型,減少后臺的壓力。
預(yù)埋對話
主要代表為蘋果的Siri,Google的Google Now,微軟的Cortana,Amazon的Echo以及百度的度秘。目前大部分對話式產(chǎn)品都采用該方案,通過識別語句中的關(guān)鍵詞給出預(yù)埋的解答。這方案的實現(xiàn)主要通過設(shè)計師設(shè)計的決策樹來實現(xiàn),例如用戶說“開燈”,機(jī)器需要識別關(guān)鍵詞“開燈”,然后判斷家里是否有燈,幾盞燈?然后問用戶開第幾盞燈?這方案并不智能,只是設(shè)計師通過自己的經(jīng)驗提前把問題和解決流程錄入到機(jī)器中,整個流程下來其實就是設(shè)計師設(shè)計該機(jī)器怎么做。該方案的好處是降低答案的失誤和減少重復(fù)的工作;壞處是當(dāng)設(shè)計師沒有意識到問題的其他最優(yōu)解決辦法或存在的bug,整個系統(tǒng)可能給不出最佳答案甚至無解;以及整個對話下來其實就是人與機(jī)器的獨白,沒有任何交流。
高科技的設(shè)計者常以自己設(shè)計的系統(tǒng)具有“溝通能力”為榮??墒牵M(jìn)一步分析發(fā)現(xiàn),這是“用詞不當(dāng)”:那并不是真正的溝通,即沒有雙向的一問一答的真正對話。充其量只不過是兩句單向的自言自語。我們對機(jī)器發(fā)出指令,然后,機(jī)器對我們回以指令。兩句獨白并不能構(gòu)成對話?!萍{德·A·諾曼
人工智能對話
主要代表還是蘋果的Siri、Google的Google Now、微軟的Cortana、Amazon的Echo以及百度的度秘。該方案主要通過處理大數(shù)據(jù)和機(jī)器學(xué)習(xí)的形式進(jìn)行自我迭代優(yōu)化現(xiàn)有決策樹,實現(xiàn)更完整的決策樹和產(chǎn)生更多最優(yōu)的解決方案,它能理解更多指令和記錄用戶的習(xí)慣;但如何理解上下文,理解用戶情感仍是最重要的難題。只有把它們解決了,智能對話才能到達(dá)科幻電影中的鋼鐵俠Tony Stark的JARVIS智能系統(tǒng)的水準(zhǔn)。
我以為使機(jī)器能與人溝通的關(guān)鍵是發(fā)展更好的對話系統(tǒng)。但我這想法并不對。成功的對話需要共通的知識和經(jīng)驗。它需要對四周環(huán)境、前后脈絡(luò)、導(dǎo)致目前情況的歷史背景以及當(dāng)事人眾多不同的目標(biāo)和動機(jī)等都要有所領(lǐng)悟。現(xiàn)在我認(rèn)為這正是當(dāng)今科技的根本局限,這種局限阻礙了機(jī)器全面、擬人化地與人互動。人與人之間要建立共通的了解本來就很難,那我們?nèi)绾渭耐跈C(jī)器建立這種關(guān)系?——唐納德·A·諾曼
提高機(jī)器對話質(zhì)量
為了解決理解上下文及理解用戶情感的難題,微軟設(shè)計了小冰聊天機(jī)器人,這是一個開放式聊天機(jī)器人,可以在各平臺上如微博,微信公眾號上使用。通過與用戶的不斷聊天,小冰不斷增加自身語料的訓(xùn)練,整個對話體驗也會不斷優(yōu)化。小冰可以初步判斷用戶的情感以及“學(xué)會”用表情聊天,使平均對話可以達(dá)到20多次來回,是其他聊天機(jī)器人如度秘的對話來回5倍以上。后期小冰與小娜做整合,身為個人助手的小娜可以與用戶有更多的交流,體驗上也會大幅增長。今年Facebook在F8大會上發(fā)布的聊天機(jī)器人,目的是替企業(yè)解決客服問題,也為用戶提供查閱新聞,訂購東西的服務(wù),也是為后期對話式產(chǎn)品做準(zhǔn)備。在未來幾年,對話式服務(wù)的產(chǎn)品可能成為主流產(chǎn)品。
對話式產(chǎn)品的形態(tài)
增加對話的形式獲取信息,在一定程度上弱化了以瀏覽為主的信息獲取和操作。對于很多產(chǎn)品例如新聞資訊、訂票、購物等類型會發(fā)生界面和流程上質(zhì)的變化。
新聞資訊
用戶可以通過掃讀的形式閱讀新聞文章了解信息,可能需要一兩分鐘就能了解幾百字新聞講的大概內(nèi)容。如果機(jī)器以對話的形式將新聞幾百字念完那么效率是低下的,更何況文章和對話有本質(zhì)上的區(qū)別,在語法,情感等表達(dá)方面完全不同,用戶可能沒有耐心把一篇文章聽完。所以文章要以對話形式承載,摘要、內(nèi)容拆分、白話化和情感化是關(guān)鍵。
訂票
訂票等流程式操作以對話的形式承載將變得更簡單,體驗可能理解為回歸至客服訂票的時代,可能已不需要界面來承載訂票流程了。
購物
購物應(yīng)用將以對話和界面展示物品的形式推薦相關(guān)商品,就像一名貼在你身邊拿著傳單的導(dǎo)購為你出謀劃策買哪件方便點。
分析大數(shù)據(jù)和建設(shè)一套完整的人工智能對話式系統(tǒng)需要足夠的資源和技術(shù)來支撐,在未來小公司會更依賴于大公司提供的智能對話式平臺,以及有更多的場景和服務(wù)例如新聞資訊、訂票、購物以及健康等集成在類似于Siri的智能對話式平臺。當(dāng)平臺集成更多資源后,未來一臺手機(jī)里多個應(yīng)用的現(xiàn)象將逐漸消失,對話式平臺更像一個個人助理和貼身管家。它能幫你管理信息、解決問題、以及連接線上線下甚至連接虛擬世界。手機(jī)將變得不那么重要,當(dāng)Siri移植到一個可對話的耳機(jī)或音箱后(如Amazon的Echo),你可以解放在現(xiàn)實中或虛擬世界的雙手,若能隨時隨地與個人助理交流,效率能得到進(jìn)一步提升。
對話式設(shè)計與交互
目前對話式設(shè)計逐漸發(fā)展起來但仍處于起步階段,界面設(shè)計從復(fù)雜變回簡單,復(fù)雜的頁面結(jié)構(gòu)將被簡單的上下結(jié)構(gòu)的對話式取代?,F(xiàn)狀是為了實現(xiàn)對話式而采用對話式設(shè)計,把文章、音頻、圖片、視頻等內(nèi)容與對話結(jié)構(gòu)進(jìn)行融合,因為屏幕和界面還是現(xiàn)在主要的載體和展現(xiàn)形式。
設(shè)計師在進(jìn)行對話式設(shè)計時需要更注重心理學(xué)和情感化設(shè)計,因為對話式設(shè)計直觀點來說就是設(shè)計師和用戶在對話。設(shè)計師要學(xué)會提煉信息并口語化,以及將信息與情感結(jié)合。
對話式交互的信息需要根據(jù)上下文和場景來呈現(xiàn),每一次對話將決定下一次對話的內(nèi)容和信息,所以在對話式設(shè)計中,產(chǎn)品的信息架構(gòu)逐漸被決策樹取代,這需要設(shè)計師適應(yīng)從界面流程設(shè)計逐漸轉(zhuǎn)向策略設(shè)計,建立滿足用戶需求的完整決策樹和尋找最優(yōu)路徑,以及更多地考慮前后信息的展現(xiàn)策略。這對于設(shè)計師的水平來說要求變得更高,而且職責(zé)會變得更廣。
在對話里,設(shè)計更偏向策略及內(nèi)容的設(shè)計(后端),交互更多考慮內(nèi)容如何與用戶互動(前端)。
未來的對話式交互
隨著語音對話的成熟,更多的操作和內(nèi)容將以語音對話的形式承載;圖片和視頻等瀏覽內(nèi)容仍需要界面來承載,但不一定依賴屏幕,傳統(tǒng)的屏幕界面概念可能會逐漸消失,VR和AR界面會成為更好的載體,語音對話如何與未來的界面進(jìn)行交互是一個很好的話題。
在未來幾年里個人助理可能滲透在不同領(lǐng)域里,由一個個人助理如Siri、Cortana控制每一樣電子產(chǎn)品,它名副其實就是一個個人數(shù)據(jù)中心。當(dāng)AR和VR接入該數(shù)據(jù)中心時,個人助理也應(yīng)該可以對AR和VR界面進(jìn)行操作。因為現(xiàn)實是三維的,所以AR和VR界面也會是三維的,界面的信息可以增加一個維度展現(xiàn),展現(xiàn)的信息量可以認(rèn)為是一個爆炸性的增長;用戶對界面的操作從手指的精細(xì)操作逐漸發(fā)展到身體也可以對界面進(jìn)行粗略操作,但身體的長期運動處理信息時會導(dǎo)致人類感到疲倦,所以非常有必要有一個方便的操作方式幫助人類,這就是語音對話交互。目前三個系統(tǒng)都在獨立發(fā)展,但后期對話式系統(tǒng)與VR,AR系統(tǒng)應(yīng)該屬于同一個系統(tǒng),就像鋼鐵俠Tony Stark的JARVIS智能系統(tǒng)。
作者:薛志榮(微信公眾號:薛志榮),百度交互設(shè)計師,一年級生,目前負(fù)責(zé)手機(jī)百度相關(guān)交互設(shè)計。
本文由 @薛志榮 ?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
最近研究語音交互,這篇文章梳理的很好,學(xué)習(xí)。
對話式設(shè)計講師另一個完全不同UI界面的導(dǎo)航框架,對一個龐大的系統(tǒng)而言,決策樹和交互路徑的最優(yōu)化是一個很大的命題。兩年過去了,基于深度學(xué)習(xí)和大數(shù)據(jù)的語音識別準(zhǔn)確率已經(jīng)挺高了,但在具體UI產(chǎn)品中,語音交互還是以輔助形態(tài)(搜索輸入、客服)呈現(xiàn)。最近智能音箱與家居的結(jié)合是個方向,后續(xù)與車載、AR、VR等產(chǎn)品結(jié)合想象空間會更大。
對話式交互,由動動手變成動動嘴固然方便了很多,但是受技術(shù)的限制,有時反而變得更復(fù)雜,期待語音識別技術(shù)的快速發(fā)展~
看來蘋果的Siri、Lightning 耳機(jī)和ios10中的iMessage的更新,都是為NUI(Natural User Interface, 自然用戶界面),也就是未來對話式交互打基礎(chǔ)嗎?
看來我還是太年輕了,只看到了現(xiàn)在,而沒有看到未來!
一起努力學(xué)習(xí)哈:)
既然來了何不點個贊??再走。
其實前半部分挺好??,
后半部分不是說不好,是我看不太懂,剛學(xué)UI,了解的東西還不是很多。。。
行文有些累贅,再簡潔些