為什么手勢會是下一個設(shè)計爆點?
語音交互存在其非常明顯的局限性,譬如,當(dāng)你對著空氣大聲喊著:“Hey,Siri”,特別這時身邊還有其他人的時候,是否會覺得特別尷尬?不過別擔(dān)心,手勢交互將會解決這個問題!
譯者篇首語:
從語音識別、語義理解等基礎(chǔ)技術(shù)的日臻成熟,到各大廠商紛紛發(fā)布各自的智能語音產(chǎn)品和語音操作平臺,語音交互正在成為主流交互方式之一。但是語音交互也存在私密性差、易干擾他人等局限性,因此語音交互需要與其他交互方式進行配合組成多模交互才能發(fā)揮最大效用。
而在眾多其他交互方式中,手勢交互符合人類自然心智模型,且已具備成熟的技術(shù)基礎(chǔ),無論是單獨使用還是與其他交互方式組成多模交互,都能發(fā)揮良好作用,極有可能成為下一個設(shè)計引爆點。
本篇文章中,麻省理工學(xué)院媒體實驗室講師David Rose結(jié)合他在全球創(chuàng)新設(shè)計公司IDEO的項目經(jīng)歷,分享了手勢設(shè)計思路與方法、對手勢交互的洞察以及手勢交互的優(yōu)勢。
本文基于他《Why Gesture is the Next Big Thing in Design》一文進行編譯,在不改變作者原意的情況下,做了刪減和編排。
導(dǎo)讀:
- 手勢交互會是下一個設(shè)計爆點?
- 如何設(shè)計手勢交互模型?
- 手勢的特點
- 手勢交互的優(yōu)勢
自2010年Siri(譯者注:蘋果語音助手)問世以來,人們越來越熱衷于語音交互界面。當(dāng)我們需要調(diào)節(jié)室內(nèi)溫度時,我們會找Alexa(譯者注:亞馬遜公司的智能語音助手)。
當(dāng)我們想播放電影時,我們會通過遙控器進行語音搜索。據(jù)報道,截至2017年底,美國家庭中已擁有大約3300萬臺語音智能設(shè)備。
但是,語音交互存在明顯的局限性。語音交互很慢,當(dāng)旁人在場時會使人難為情,而且必須使用令人尷尬的喚醒詞,如“Okay,Google”或“Hey,Siri”。
不過值得慶幸的是,對著空氣說話,不再是我們唯一或最好的選擇。
一、手勢交互會是下一個設(shè)計爆點
蘋果公司的新款手機所采用的攝像頭(譯者注:此處應(yīng)指iPhone X的3D攝像頭“TrueDepth”),可以感知三維空間,能記錄每個像素的深度信息;而諸如Nest IQ(譯者注:谷歌子公司Nest推出的智能家用監(jiān)控攝像頭)、Amazon’s Echo Look(譯者注:亞馬遜推出的一款搭載Alexa語音助手的相機,可根據(jù)用戶的指令來完成拍照等動作)這樣的家庭設(shè)備,也配備有攝像頭。
神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)這些信息,并利用更多的訓(xùn)練集來提升學(xué)習(xí)效果。
結(jié)合神經(jīng)網(wǎng)絡(luò),這些新型相機可以在場景中創(chuàng)建人物的點云(譯者注:計算機視覺領(lǐng)域術(shù)語,指三維空間參考系下表示目標(biāo)表面特性的海量點集合)或深度圖(譯者注:計算機視覺領(lǐng)域術(shù)語,指有深度信息的圖片,可以表示出物體的到鏡頭的距離),描繪他們的運動姿勢,以及運動形態(tài)。
經(jīng)過訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能識別特定的人,對他們的活動進行分類,并從遠處對他們的手勢進行回應(yīng)。神經(jīng)網(wǎng)絡(luò)和攝像頭技術(shù)的進步,共同為手勢設(shè)計和基于手勢的交互模型開辟了新紀(jì)元。
這些新的選擇帶來了一個問題:在現(xiàn)有的交互模式中,觸覺(觸摸),聲音(語音)和視覺(手勢),哪一種更好?它們各自更適用于哪些場景?為什么?
現(xiàn)有用例指向了一個答案。當(dāng)你在潛水、滑水、活在航母甲板上指揮交通時,聽覺通道不可用,手勢或觸摸操作就變得重要了起來。
在手術(shù)室內(nèi),外科醫(yī)生的手是無菌的,所以她無法手動操作放射掃描儀,只能用語音和手勢。如果你正在指揮管弦樂隊或正在進行軍事突襲,你無法喊出指令,因此,我們別無選擇,必須使用手勢。
在進行手勢交流設(shè)計時,從查理卓別林到板球,有各種各樣的資源可以啟發(fā)我們:https://v.qq.com/x/page/a0812soz0nb.html
(譯者注:視頻中展示了各種各樣的手勢,按出現(xiàn)順序依次為:公共空間(臺階上的行為藝術(shù)、公園中的情侶)中的手勢,揮動旗幟的士兵、氣象播報員、隔空手勢控制計算機桌面、卓別林在獅籠中的動作、舞臺劇表演中的手勢、指揮家的手勢、手語中的手勢、猜字游戲中的手勢、板球中手勢、音符的手勢表達、瑜伽中的手勢、校園中見面問候的手勢、日本茶道中的手勢、演唱中的手勢、日常聊天中的手勢、街舞表演中演員及臺下觀眾的手勢、科幻電影中的手勢、哈利波特電影中的魔法手勢、小丑的手勢、太極中的手勢、Butoh舞(日本一種另類舞蹈)中的手勢,其它舞臺表演中的非手勢形態(tài),星際迷航電影中外星人的手勢等。)
二、如何設(shè)計手勢交互模型
為了進一步了解手勢的用途,我們劍橋工作室的團隊利用了一個類似iPhone X上搭載的攝像機,進行了一系列的實驗,來探索什么情況下使用手勢可能是最佳選擇。
首先,設(shè)計師們兩人一組,給每組一個想法,然后讓他們通過四只手的姿勢來表達這個想法。
IDEO設(shè)計師兩人一組用手勢表達想法
然后,兩人相互講故事。利用計算機視覺技術(shù)記錄他們講述的故事,并實時跟蹤他們在講述時手勢,以研究什么時候我們會自然地通過手勢來增強情感或者解釋某個概念。
跟蹤手勢如何幫助講述生活中的故事:https://v.qq.com/x/page/l0812xeo4oj.html
譯者注:
視頻中展示的兩組研究及采集手勢的示例:兩人一組,其中一人向另一人講述一個故事,同時采用計算機視覺技術(shù)去跟蹤講述人在說話過程中的手勢(如視頻中的白點)。兩組講述人分別講了兩個風(fēng)格不同的故事,一個講的是自己想成為超人的夢想,可以控制原子去創(chuàng)造各種東西;另一個講的是自己小時候的一件趣事。)
讓一組人演示同一個動作或指令,能看到不同人動作差異。這樣做的目的是找到盡可能通用的手勢:https://v.qq.com/x/page/u0812u0y5j7.html
最后,我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識別一小部分手勢,用這些手勢來控制飛利浦HUE燈(譯者注:飛利浦推出的智能照明燈,可以通過手機或平板電腦燈光調(diào)節(jié))、Spotify網(wǎng)站(譯者注:瑞典音樂平臺,當(dāng)前最受歡迎的流媒體音樂服務(wù)提供商之一),在辦公室創(chuàng)建了一套支持手勢交互的系統(tǒng)。
通過一組手勢,我們訓(xùn)練辦公室的的一些設(shè)備來響應(yīng)我們的指令,調(diào)節(jié)燈光和音樂:https://v.qq.com/x/page/x08125qhfef.html
三、手勢的特點
在嘗試這些操作時,我們發(fā)現(xiàn),手勢必須具有一定順序。就像在一個句子中,先名詞后動詞,手勢必須順序包含以下信息:施動主語以及動作。例如,對于“打開揚聲器”這一指令,就需要用一只手表示施動主語,另一只手表示動作:用左手指向揚聲器,然后抬高右手調(diào)大音量。
另一個令人意外的發(fā)現(xiàn)是,手勢具有代際特征。
當(dāng)我們發(fā)出“調(diào)高音量”的指令后,只有少數(shù)幾個人作出了扭動旋鈕的動作,而大多數(shù)30歲以下的人則是舉起一只手掌或者用手指做了一個捏合的手勢。
四、手勢交互的優(yōu)勢
分析研究結(jié)果后,我們將選擇手勢而非語音或觸摸的原因歸結(jié)為以下四點:
- 速度:如果需要快速響應(yīng),手勢比說話更快。
- 距離:如果需要跨越房間進行交流,做手勢比動嘴巴更容易。
- 表意簡潔:如果你不是一次要說很多事情,手勢就比較好用。表達一定含義用到的手勢越簡潔,它就越容易被記住。(例如,拇指向上/拇指向下)。
- 當(dāng)強調(diào)表現(xiàn)力勝過準(zhǔn)確性時:手勢非常適合表達情感。樂隊指揮所傳達的信息,除了強拍和節(jié)奏,還有更多含義,如柔和,著重,自信、悲傷、渴望等等。
試想,一個新產(chǎn)品能夠利用手勢巧妙、具有表現(xiàn)力和快速的特點,該是一件多么令人興奮的事情。
我們將如何以意想不到的方式來應(yīng)用手勢呢?我非常期待聆聽你的想法。
作者介紹:
David Rose是一位屢獲殊榮的企業(yè)家、作家,麻省理工學(xué)院媒體實驗室講師。他曾于2017年擔(dān)任IDEO劍橋的家居未來學(xué)家。他的研究致力于使物理環(huán)境成為數(shù)字信息的接口。
他的第一本著作《Enchanted Object》聚焦物聯(lián)網(wǎng)的未來,以及這些技術(shù)將如何影響我們的生活及工作方式。
– END –
作者:David Rose
編譯:AIID非正式編譯組
原文鏈接:https://www.ideo.com/blog/why-gesture-is-the-next-big-thing-in-design
版權(quán)聲明:本文在不改變作者原意的情況下,做了刪減和編排,版權(quán)屬原作者所有。本文僅為翻譯,不代表本院觀點。
本文由 @AIID(百度) 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自網(wǎng)絡(luò)。
還是要結(jié)合場景,試想如果單純是手勢操控,就會遇到現(xiàn)在語音交互中為了順利執(zhí)行一個命令,多次重復(fù)說出指令,很尷尬。會想到手勢交互是因為出現(xiàn)了語音交互尷尬的場景,比如在一家人團聚暢聊的晚上,想要開空調(diào),是會突然中斷大家的說話大喊一聲“hi.siri”嗎,自然這個時候手勢交互會比較好,不會那么突兀,當(dāng)然遙控器也會相對比語音交互有優(yōu)勢。所以真正的人工智能應(yīng)該是多種交互方式并存,更貼近用戶的行為。
難道你們沒有見過羅老師的TNT和無限屏嗎?
大街上多了很多火影忍者
666
智能硬件的場景應(yīng)該沒問題,確實是個真實需求。特別是講究禮貌的中國,很多場合語言交互是不太符合用戶條件的。希望智能硬件在這方面越做越好
很期待在智能家居行業(yè)手勢交互的爆點。
我們現(xiàn)在的手機 不都是手勢交互嗎?
隔空你試試看呢