對話,不是AI交互的終極答案?

0 評論 1262 瀏覽 2 收藏 14 分鐘

許多人認為,自然語言處理和對話界面將徹底改變我們與計算機的互動方式,甚至成為未來人機交互的終極形態(tài)。然而,本文將深入探討對話式交互是否真的能夠成為AI交互的終極答案。

人機交互方式,被認為是AI時代最重要的變化之一。

在這個交互革命的故事里,以對話為代表的自然語言被認為將取代傳統(tǒng)GUI(圖形界面)的交互方式。原因看上去很簡單,因為對話更接近于人類現(xiàn)實世界的溝通方式。

但并不是所有人都這么認為的。不久前,國外一位名叫Julian Lehr的作者,就寫了一篇《反對對話式界面(LUI)的理由》文章。

在這篇文章里,作者從數(shù)據(jù)傳輸?shù)囊暯牵敿氷U述了分析人機交互方式的邏輯,最終得出結(jié)論:語音這種新的交互形態(tài)更多是現(xiàn)有交互形式的補充,并不能完全取代GUI交互。

01 自然語言的第N次革命

每隔幾年,就會出現(xiàn)一個耀眼的人工智能新進展,科技界人士就會大呼“就是它了!下一個計算范式來了!以后我們只會用自然語言了!”。

但之后一切實際上都沒發(fā)生改變,我們?nèi)匀幌褚郧耙粯邮褂糜嬎銠C,直到幾年后這場爭論再次浮出水面。

我們已經(jīng)經(jīng)歷過幾次這樣的周期:虛擬助手(Siri)、智能揚聲器(Alexa、Google Home)、聊天機器人(“對話商務(wù)”)、AirPods即平臺,以及最近的大型語言模型。

不知道為什么大家都會對對話很癡迷?;蛟S是人們看到“自然語言”這個詞,就會想:“好吧,如果它是自然的,那它一定是合乎邏輯的最終狀態(tài)?!?/p>

但我告訴你,事實并非如此。

02 自然語言,一種數(shù)據(jù)傳輸機制

當(dāng)人們說“自然語言”時,他們指的是書面或口頭交流。自然語言是人類之間交換思想和知識的一種方式。換句話說,它是一種數(shù)據(jù)傳輸機制。

在數(shù)據(jù)傳輸機制里,有兩個關(guān)鍵因素:速度和損耗。

速度決定了數(shù)據(jù)從發(fā)送方傳輸?shù)浇邮辗降乃俣?,而損耗則是指數(shù)據(jù)傳輸?shù)臏蚀_性。理想情況下,數(shù)據(jù)傳輸能以最高速度(即時)和完美保真度(無損)進行,但這兩個屬性通常需要權(quán)衡。

那么,自然語言在速度上表現(xiàn)如何呢?

需要指出的是,這些數(shù)據(jù)點只是非常簡化的平均值。這張表格中重要的部分并非單個數(shù)字的準確性,而是整體模式:我們接收數(shù)據(jù)(閱讀、聆聽 )的速度明顯快于發(fā)送數(shù)據(jù)(寫作、說話)。這就是為什么我們可以以2倍速收聽播客,但不能以2倍速錄制。

為了更好地理解書寫和說話的速度,我們以每分鐘1000-3000個單詞的速度形成思維。自然語言雖然很自然,但它卻是一個瓶頸。

然而,想想你與他人的日常互動,你會發(fā)現(xiàn)大多數(shù)交流都感覺非??旖莞咝А_@是因為自然語言只是我們眾多可用的數(shù)據(jù)傳輸機制之一。

比如,與其說“我覺得你剛才說的主意很棒”,我不如直接豎起大拇指,或者點點頭,或者干脆笑一笑。

手勢和面部表情實際上是一種數(shù)據(jù)壓縮技術(shù)。它們以更緊湊但損耗更大的形式對信息進行編碼,以便更快、更方便地傳輸。

自然語言非常適合需要高保真度的數(shù)據(jù)傳輸(或作為異步通信的數(shù)據(jù)存儲機制),但只要有可能,我們就會切換到其他更快捷、更省力的溝通方式。因為速度和便捷永遠信息交互中,最重要的事情。

我最喜歡的真正輕松溝通的例子,是我對祖父母的記憶。在早餐桌上,我的祖母從來不用開口要黃油——我的祖父似乎總是會下意識地把黃油遞給她,因為結(jié)婚五十多年后,他能感覺到祖母要黃油了,他們就像心靈感應(yīng)一樣。

這就是我想要與我的計算機建立的關(guān)系類型。

03 為什么對話不是最佳答案?

與人與人之間的交流類似,人與計算機之間也存在不同的數(shù)據(jù)傳輸機制來交換信息。在計算機發(fā)展的早期,用戶通過命令行與計算機交互。這些基于文本的命令實際上是一種自然語言界面,但需要精確的語法和對系統(tǒng)的深入理解。

GUI(圖形用戶界面)的引入主要解決了一個發(fā)現(xiàn)問題:無需記住確切的文本命令,現(xiàn)在可以通過菜單和按鈕等可視化元素導(dǎo)航和執(zhí)行任務(wù)。這不僅讓操作變得更容易,也更加便捷:點擊按鈕比輸入長文本命令更快。

今天,我們生活在一個將圖形界面與基于鍵盤的命令相結(jié)合的生產(chǎn)力平衡中。

我們?nèi)匀皇褂檬髽?biāo)來導(dǎo)航并告訴計算機下一步做什么,但日常操作通常以快速鍵盤按下的形式來傳達:? b將文本格式化為粗體,? t打開新選項卡,? c / v快速將內(nèi)容從一個地方復(fù)制到另一個地方,等等。

然而,這些快捷方式并非自然語言。它們是另一種形式的數(shù)據(jù)壓縮。就像豎起大拇指或點頭一樣,它們幫助我們更快地溝通。

現(xiàn)代生產(chǎn)力工具將這些數(shù)據(jù)壓縮快捷方式提升到了一個新的高度。在Linear、Raycast或Superhuman等工具中,每個命令都只需按一下鍵即可完成。

一旦建立了肌肉記憶,數(shù)據(jù)輸入就會變得毫不費力。這幾乎就像在早餐桌上有人遞上黃油,而無需開口索要一樣。

觸控界面被認為是人機交互進化史上的第三個關(guān)鍵里程碑,但它一直以來都更多地是對桌面計算的增強,而非替代。智能手機非常適合“遠離鍵盤”的工作流程,但重要的生產(chǎn)力工作仍然在桌面上進行。

這是因為文本并非移動設(shè)備原生的輸入機制。

實體鍵盤感覺就像身心自然延伸,但在手機上打字總是有點不方便——這體現(xiàn)在數(shù)據(jù)傳輸速度上:移動設(shè)備上的平均打字速度僅為每分鐘36個字,明顯低于桌面設(shè)備上每分鐘約60個字的速度。

我們已經(jīng)能夠用移動設(shè)備專用的數(shù)據(jù)壓縮算法(例如表情符號或Snapchat自拍)取代自然語言,但我們從未找到過與鍵盤快捷鍵相當(dāng)?shù)囊苿佣藨?yīng)用。

想想看,為什么iPhone推出近20年后,我們?nèi)匀粵]有一款真正以移動為先的生產(chǎn)力應(yīng)用?

你可以會說,語音為什么不會取代文本?

從數(shù)據(jù)上看,語音信息的使用量正在增加。

雖然說話(每分鐘150字)確實比打字(每分鐘60字)傳輸數(shù)據(jù)更快,但這并不意味著它就是一種更好的與計算機交互的方式。

過去我們總認為,Alexa或Siri這樣的語音界面之所以失敗,是因為AI不夠智能。但這只是故事的一半。

交互的核心問題從來不是輸出功能的質(zhì)量,而是輸入功能的不便:

像“嘿,谷歌,今天舊金山的天氣怎么樣?”這樣的自然語言提示,比直接點擊主屏幕上的天氣應(yīng)用要花10倍的時間。

大模型(LLM)并不能解決這個問題。它們的輸出質(zhì)量正在以驚人的速度提升,但輸入方式卻與我們現(xiàn)有的相比大相徑庭。我明明可以直接按個按鈕或鍵盤快捷鍵,為什么還要用自然語言描述我想要的操作呢?直接遞給我黃油就行了。

04 對話式UI,更像是現(xiàn)有交互的增強

這并不是說大模型不好。事實上,這篇文章就是在大模型幫助下完成的。

但與典型的人機指令不同,與大模型的交互更像是一次真誠、深入的對話和思想交流。在這種特殊的工作流程里,交互的速度并不是最重要的因素。

值得注意的是,ChatGPT開辟了一個新的應(yīng)用場景,而沒有取代現(xiàn)在其他的軟件。

這就是我的核心論點:對話界面的不便性和較差的數(shù)據(jù)傳輸速度,使得它們不太可能取代現(xiàn)有的交互模式,他只是對現(xiàn)有計算交互的一個補充。

讓我印象比較深刻的對話式交互的應(yīng)用案例是,在一次黑客馬拉松比賽中,個團隊將亞馬遜Alexa改造成了《星際爭霸II》的游戲內(nèi)語音助手。語音沒有取代鼠標(biāo)和鍵盤,而是作為一種額外的輸入機制,增加了數(shù)據(jù)傳輸?shù)膸挕?/p>

你會發(fā)現(xiàn),同樣的模式適用于任何類型的知識型工作,當(dāng)你忙于其他事情時,語音命令就成了一種便捷的交互方式。

我們不會用聊天界面取代Figma、Notion或Excel,也不需要在這些工具和大模型之間頻繁切換。

相反,AI應(yīng)該充當(dāng)一個始終在線的命令元層,可以調(diào)用所有工具。用戶應(yīng)該能夠通過簡單的語音提示從任何地方觸發(fā)操作,而無需中斷當(dāng)前正在使用鼠標(biāo)和鍵盤的操作。

要實現(xiàn)這一點,AI需要在操作系統(tǒng)層面發(fā)揮作用。它不僅是單一工具的界面,而是跨工具的界面。

正如Kevin Kwok寫道:“生產(chǎn)力和協(xié)作不應(yīng)是兩個獨立的工作流程。”雖然他指的是人與人之間的協(xié)作,但在人與人工智能協(xié)作的世界里,這句話更加貼切,因為生產(chǎn)力和協(xié)作之間的界限正變得越來越模糊。

我們要做的的第二件事是。如何壓縮語音輸入以加快傳輸速度。

比如,在語音交互里,什么話相當(dāng)于豎起大拇指或鍵盤快捷鍵?或許我能用簡單的聲音和口哨更快地提示克勞德嗎?ChatGPT是否應(yīng)該有權(quán)訪問我的攝像頭,以便它能夠根據(jù)我的面部表情實時更改答案?

畢竟,作為輔助界面,速度和便利性才是最重要的。

05 總結(jié)

我并不是反對對話界面,而是反對將其作用過度夸大。

我們花了太多時間思考人工智能如何替代(界面、工作流程和工作),卻很少思考它如何補充。

從過去看,技術(shù)的進步很少遵循簡單的替代路徑。它往往開啟了全新的、前所未有的事物,而不僅僅是取代之前的一切。

這一點也在AI上也同樣適用。未來,聊天界面并不是要取代現(xiàn)有的計算范式,而是要增強它們,使人機交互變得輕松自如。

原文鏈接:https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/

本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!