音箱狂歡之后:對(duì)話式AI的價(jià)值與沉默

1 評(píng)論 4070 瀏覽 10 收藏 8 分鐘

如何解決對(duì)話式AI的后狂歡之痛?

今年的消費(fèi)者AI領(lǐng)域,最受關(guān)注的一場(chǎng)大戰(zhàn),肯定是智能音箱的狂飆突進(jìn)。

這場(chǎng)堪稱狂歡的運(yùn)動(dòng)中,除了一大波硬件產(chǎn)品的快起快落,更大的收獲在于,我們看到了對(duì)話式AI的技術(shù)本身也許有超越音箱的價(jià)值。

在智能音箱的快速落地之后,消費(fèi)者和資本一方面開始認(rèn)識(shí)到語音交互可能帶來的想象空間與增值潛力,一方面也意識(shí)到智能音箱在技術(shù)體驗(yàn)上存在巨大技術(shù)局限——甚至有聲音斷言,對(duì)話式AI本身不提高,所有今天假想的語音AI生態(tài)都是空談。

泡沫過后,后狂歡時(shí)代中對(duì)話式AI亟待解決的問題開始浮現(xiàn)。今天的對(duì)話式AI中,產(chǎn)業(yè)格局暴露了哪些提升空間?如何理解其所面臨的問題與機(jī)遇?谷歌、亞馬遜、百度等巨頭又在嘗試哪些破局方案?

音箱狂歡之后:對(duì)話式AI的價(jià)值與沉默

所謂對(duì)話式AI,是指機(jī)器與人在對(duì)話服務(wù)場(chǎng)景中展現(xiàn)出的AI技術(shù)集成。

智能音箱的快速進(jìn)入市場(chǎng)的價(jià)值,不僅是是為AI開了個(gè)好頭,更重要的是讓受眾與資本看到了對(duì)話——這種人類最基本的信息釋放模式可能帶來怎樣的價(jià)值想象力。

不僅是內(nèi)容與電商的激活,高度貼合用戶習(xí)慣,且具備多種能力的對(duì)話式AI也許有能力成為接下來的家庭中心與個(gè)人生活助手、商業(yè)秘書。其延伸的商業(yè)價(jià)值當(dāng)然不難想象。并且對(duì)話式AI是牽動(dòng)其他多種AI語音交互的關(guān)鍵,涉及語音理解、語義判斷、語言增強(qiáng)記憶和深度語言交互等多個(gè)技術(shù)端口,可謂NLP技術(shù)向未來發(fā)展的軸心。

但問題是,在音箱狂歡逐漸趨于理性之后,很多對(duì)話式AI在系統(tǒng)端的技術(shù)能力問題開始浮現(xiàn)。比如理解能力有限、喚醒成本過大、深入用戶溝通能力缺失等等。

這些技術(shù)瓶頸導(dǎo)致了對(duì)話式AI全面轉(zhuǎn)向個(gè)人與家庭助手的過度將被限制,很多創(chuàng)意性的語言與聲音AI應(yīng)用也成了無本之源。無論是學(xué)界、巨頭還是創(chuàng)業(yè)者,都在共同期待智能語音完成一個(gè)快速的躍升。

三重門:強(qiáng)AI語音應(yīng)用的難題何在

擺在強(qiáng)語音交互的對(duì)話式AI面前,最急需解決的是三大問題??邕^這三重門,或許終端硬件與服務(wù)將帶給用戶完全不同的認(rèn)知體驗(yàn),甚至重新定義對(duì)話式AI。

  1. 對(duì)用戶語音的貼合認(rèn)知:消弭噪聲、方言、多人、語音不清等因素帶給人機(jī)交互的障礙,讓用戶在現(xiàn)實(shí)環(huán)節(jié)中與智能體溝通沒有磕絆,達(dá)到無成本溝通。
  2. 極限化降低喚醒成本:完成對(duì)喚醒行為的無死角響應(yīng),因?yàn)閱拘研实屯鶎?dǎo)致用戶徹底放棄一次人機(jī)交互。但如何在復(fù)雜環(huán)境中隨時(shí)能被喚醒,做到無處不在,其中有很多技術(shù)場(chǎng)景需要挑戰(zhàn)。
  3. 從語義理解到記憶理解:從“我說你聽”到“共同探討”是一個(gè)非常劇烈的改變,智能體能否記憶并分析用戶的語境、上下文,給出智能化更高的應(yīng)對(duì)方案,甚至主動(dòng)服務(wù)與建議,可說是對(duì)話式AI的未來核心。

這三道技術(shù)挑戰(zhàn)擺放在我們面前,而最有可能的破局者,當(dāng)然是行業(yè)中的幾大技術(shù)巨頭。

對(duì)話式AI難題的破解思路

在對(duì)話式AI的破局路徑中,幾個(gè)AI巨頭也在嘗試不同的方案。

比如谷歌更多是通過收購相關(guān)項(xiàng)目與API解決方案,加強(qiáng)對(duì)谷歌大腦技術(shù)的訓(xùn)練強(qiáng)度,來獲得對(duì)話式AI的提升。在以谷歌大腦為中心的對(duì)話式AI研發(fā)中,谷歌嘗試使用不同的語料因素和學(xué)習(xí)樣本來強(qiáng)化智能體在對(duì)話時(shí)的記憶強(qiáng)度與修辭模式。通過對(duì)文學(xué)作品、社交媒體資料的學(xué)習(xí),來完善對(duì)話式AI的強(qiáng)度溝通可能。另一方面,谷歌也在不斷加強(qiáng)研發(fā)和收購對(duì)話式AI與硬件銜接之間的解決方案,通過軟硬件結(jié)合達(dá)成更好的AI體驗(yàn)。

而在Echo上比較成功的亞馬遜,目前更多資料顯示還是在產(chǎn)業(yè)端戰(zhàn)略布局。在持續(xù)研發(fā)升級(jí)對(duì)話AI技術(shù)的同時(shí),也與智能家居產(chǎn)品、個(gè)人助手軟件,以及其他公司的對(duì)話式AI產(chǎn)品形成聯(lián)動(dòng)模式。依靠使用體驗(yàn)的強(qiáng)化加深產(chǎn)業(yè)占有率。

就在剛剛,百度發(fā)布了一項(xiàng)針對(duì)對(duì)話式AI的計(jì)劃:DuerOS普羅米修斯計(jì)劃。計(jì)劃包含開放數(shù)據(jù)集、跨學(xué)科合作等多種計(jì)劃,還將設(shè)立100萬美元的基金用以資助和培養(yǎng)對(duì)話式AI領(lǐng)域的優(yōu)秀項(xiàng)目和人才。

這個(gè)計(jì)劃與歐美巨頭之間,在兩方面展現(xiàn)了差異:1是將產(chǎn)業(yè)研發(fā)與學(xué)術(shù)研發(fā)結(jié)合起來,引導(dǎo)學(xué)術(shù)力量破解產(chǎn)業(yè)問題;2是相比大公司普遍的秘密研發(fā)計(jì)劃,這個(gè)計(jì)劃的特點(diǎn)是開放。把研究工具進(jìn)行開源,然后期待回收以這些工具完成的研發(fā)結(jié)果。

其中最重要的,顯然是對(duì)大量對(duì)話式AI數(shù)據(jù)集的開源。因?yàn)榇饲暗膶?duì)話式AI領(lǐng)域中,數(shù)據(jù)集普遍非常古老,不適應(yīng)今天的平臺(tái),并且基本需要收費(fèi)且為全英文。對(duì)于中文語言交互的研發(fā)非常不利。

目前所知,百度剛剛開源的數(shù)據(jù)集包括:遠(yuǎn)場(chǎng)喚醒方面五十萬條“小度小度”和其他主流的中文喚醒詞錄音數(shù)據(jù)、數(shù)百小時(shí)的誤喚醒錄音數(shù)據(jù);遠(yuǎn)場(chǎng)識(shí)別方面則有數(shù)千小時(shí)中文遠(yuǎn)場(chǎng)語音識(shí)別數(shù)據(jù);多輪對(duì)話方面含有萬段對(duì)話數(shù)據(jù)。

開源資料與工具包,然后以競(jìng)賽的方式回收成果,是我們此前在機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)方面經(jīng)常見到的模式,但語音交互領(lǐng)域這樣的計(jì)劃還非常稀少。不難看出,巨頭對(duì)于對(duì)話式AI的發(fā)展已經(jīng)表現(xiàn)出了更加急迫的期待。或許在接下來的短時(shí)間內(nèi),國(guó)內(nèi)外巨頭推出更加激進(jìn)、開放的對(duì)話式AI研究計(jì)劃會(huì)成為主流。

對(duì)話服務(wù)與AI,可以說來到了臨門一腳的重要時(shí)期,但最后如何完成射門,可能是大公司們正在頭疼的問題。

 

本文由 @腦極體 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖有作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!