AI真的能理解人的情緒嗎?這家剛融資5000萬美金的公司嘗試給出答案!
如果 AI 能理解和處理人類情感會發(fā)生什么?這一主題是科幻作品中的常客,比如《銀翼殺手》和《她》等。如何讓 AI 兼具情感和智能,也是 AI 領域內(nèi)的熱門話題。近期,一家初創(chuàng)公司 Hume AI 推出了可以理解人類情感的語言大模型。
Sense 思考:
我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。
- Hume AI 的 EVI 產(chǎn)品展示了情感計算領域的新方向,其創(chuàng)始人推出的語義空間理論為 EVI 提供了堅實的理論基礎。使得大模型不僅能夠理解用戶的情緒,還能在對話中以類似人類的方式做出反應,這一點可能會徹底改變?nèi)藱C互動模式。
- 盡管 Hume AI 的使命是“優(yōu)化 AI 以提高人類的幸福感”,但引入情感智能到 AI 中也可能帶來很多人對社會和倫理問題的思考。機器能夠理解和模仿人類情感的范圍有多大?人們是否會開始更多地依賴與 AI 的情感互動,從而影響人際關系?
AI Native 產(chǎn)品分析——Hume AI
1. 產(chǎn)品上線時間:2024 年 3 月
2. 創(chuàng)始人:Alan Cowen
- 前 Google 研究員和科學家,Google AI 情感計算研究團隊創(chuàng)始成員之一,語義空間理論提出者
- 語義空間理論:基于數(shù)學的情感理論,將情感視為復雜、多維空間的維度
3. 產(chǎn)品簡介:
Hume AI 推出了 EVI(Empathic Voice Interface)共情語音接口,搭載了強大的語言模型技術,可以對文本、音頻和視頻進行情感分析,旨在將情感理解融入聊天機器人的互動中。
4.官網(wǎng):https://www.hume.ai/
產(chǎn)品體驗:https://demo.hume.ai/
飛速發(fā)展的人工智能時代,我們見證了 AI 在客戶服務、自動駕駛、醫(yī)療、企業(yè)服務等領域的廣泛應用。除了應用 AI 的智能,讓 AI 可以理解和處理人類情感這一復雜挑戰(zhàn)也讓眾多科學家和創(chuàng)業(yè)者投入其中。
近期,一家名為 Hume AI 的初創(chuàng)公司推出共情語音接口 EVI(Empathic Voice Interface),可以讓開發(fā)人員通過幾行代碼將情感智能人工智能語音集成到各類應用場景。與此同時,Hume AI 完成了 5000 萬美金的 B 輪融資。投資方包括 EQT Ventures、 Comcast Ventures、LG Technology Ventures 等知名投資機構。
一、讓 AI 表達更像人類的 EVI
EVI 代表 Empathic Voice Interface(共情語音界面),與其他主要通過文本形式進行交互的多模態(tài)大模型不同,EVI 的特殊點在于能夠通過傾聽人們的聲音了解他們的感受,同時使用符合這一感受的話語進行回應。
為了讓與 AI 的語音交流更加自然,業(yè)內(nèi)正致力于加入能表達情感或自然停頓的語句。OpenAI 通過 ChatGPT-Voice 實現(xiàn)了這一點。而像 Figure 01 機器人甚至偶爾會說“嗯”和“呃”。
Hume AI 的目標是實現(xiàn)真實情感的整合,使機器人能夠感知并以一種反映或對抗對話中人類情緒的方式來回應。EVI 能夠理解用戶的語調,這為每一個詞匯增添了更深的含義,并利用這一點來指導其語言和發(fā)音。
EVI 擁有若干獨特的共情功能:
- 基于用戶的表情用類似人類的語調進行回應
- 用符合用戶需求的語言來增加滿意度
- EVI 知道何時說話,可以判斷用戶合適結束對話
- 在被打斷時會停止,但能從中斷處繼續(xù)
- 通過應用用戶的反應來自我改進
EVI 不僅是一款產(chǎn)品,還提供了 API 便于其他應用程序的集成,并能與任何大型語言模型(LLM)無縫對接。
為了展示其 API 的能力,Hume 官方推出一款體驗應用,可以通過用戶的聲音分辨現(xiàn)在的情緒狀態(tài),并搭配相應的歌曲。
二、能聽懂人類情緒的大語言模型
傳統(tǒng) AI 系統(tǒng)更多關注語言層面的理解,但 Hume AI 的 CEO 兼首席科學家 Alan Cowen 指出人類的情感很大程度上是通過聲音、面部表情等非語言方式表達的。這一領域被稱為”情感計算”,在生成式 AI 模型應用當中相對落后。
為填補這一空白,Hume 開發(fā)了一種新型多模態(tài)生成式人工智能 eLLM(移情大語言模型),它將先進的自然語言處理技術與情感識別算法集成在一起。通過理解語音、面部表情等,模型能夠學習分辨何種表現(xiàn)意味著快樂、沮喪、困惑等情緒,并做出相應響應。
因此 eLLM 能夠檢測和解釋人類語言數(shù)據(jù)中的情感線索,使人工智能系統(tǒng)能夠生成句法和語義上一致,并且在情感上與用戶輸入相協(xié)調的響應。
通過利用情感分析模塊、情感識別算法和情境理解機制,eLLM 使 AI 技術能夠讓用戶參與更具同理心和響應性的對話。這種功能增強了人機交互,促進更深層次的參與和融洽關系。
模型從大量真實數(shù)據(jù)中學習,包括全球數(shù)百萬人的語音和表情數(shù)據(jù)。因此這一模型不僅會學習情感的平均模式,還會捕捉個體和文化差異。當然,對于不同語言和文化背景,Hume AI 需要對模型進行微調或重新訓練。有些語言的理解差異會更大。因此,該技術目前僅支持英語。
三、與 EVI 交談是一種怎樣的體驗
科技媒體的報道和社交網(wǎng)絡上首批用戶的反饋,都表現(xiàn)出對 EVI 的情感感知和回應能力的贊嘆。
AI 媒體編輯 Ryan Morrison 表示:“與 EVI 對話,既不同尋常又引人入勝。它并不模仿人類,而是坦誠地表明自己是人工智能。然而,它對情感的敏銳理解力卻讓人著迷?!痹谝淮螌υ捴?,Rayn 詢問它能否判斷自己是否吃過早餐,EVI 回應道這個語調“顯得饑餓且堅定”,因此判斷 Rayn 可能沒吃早餐,而且它判斷得完全正確。
筆者在體驗了 EVI 的 demo 后感知到它跟其他 AI 語音模型的差異。首先是語調和發(fā)音上并沒有極大的機械感,而且連貫性和語氣方面表現(xiàn)的非常好,而這種感覺伴隨著交流的頻次增加更加的明顯,甚至不太能分辨其 AI 的真實身份。
一般用戶將其他的 AI 應用當做工具或者助手來使用,更多應用到 AI 理性和智能的一面?;蛟S在 EVI 上,確實可以體驗到情緒和感性的一方面。就像 Alan 描述的 AI 助手作為”朋友”的愿景,它能夠理解并回應人類的情感需求。
四、為什么 AI 需要情感
Hume AI 公司的核心使命是“優(yōu)化 AI 以提高人類的幸福感,而情感則是構成幸福感的重要部分?!?/p>
想讓 AI 更好地服務于提升人類福祉或使人機交互更加自然,讓 AI 擁有共情能力是關鍵。當前的 AI 助手只理解語義內(nèi)容,而忽視了語音語氣和情感這些同樣重要的因素,導致交互體驗生硬和不自然。賦予 AI 情感理解能力,能讓人機交互更自然、富有溫度。
Alan 表示現(xiàn)有 AI 系統(tǒng)最大的限制是它們受限于人類的淺層評價和指導,未能充分挖掘 AI 創(chuàng)造幸福新方式的潛力。因此 Hume 團隊開發(fā)的 AI 模型基于人類幸福感的直接數(shù)據(jù)學習,這些數(shù)據(jù)與驅動多模態(tài) AI 模型的標準數(shù)據(jù)集一同作為訓練材料。
Hume AI 的技術目前已經(jīng)應用于培訓心理治療師、改善客戶服務等領域。通過分析語音和面部表情,系統(tǒng)能更好地理解患者或客戶的情緒狀態(tài),從而提供更精準的服務。
目前,已經(jīng)有很多不同背景的用戶,嘗試借助 EVI 來開發(fā)自己的應用。Hume AI 社區(qū)的活躍用戶除了開發(fā)者和工程師、設計師和產(chǎn)品經(jīng)理以及研究人員之外,還包括了很多教育培訓、醫(yī)療健康領域人士和藝術家與創(chuàng)意工作者。每個人都帶著自己獨特的視角和需求,希望通過 Hume AI 的相關技術來推動自己領域的進步。
他們正在或想要開發(fā)的應用涵蓋了健康與福祉、社交通訊、教育學習工具、情感分析、多模態(tài)內(nèi)容生成等不同領域。其中大多都應用到了 EVI 的情感智能這一特點。例如讓用戶能更加真誠連接的在線社交應用,分析用戶自信水平和提高其狀態(tài)的應用,通過增強語音體驗幫助老年人的 AI 助理,根據(jù)用戶的情緒狀態(tài)調整健康程序的女性健康應用等等。
(Hume AI 社區(qū)成員開發(fā)的產(chǎn)品)
當 AI 擁有了情感智能,融合了理性和感性兩方面的能力,或許可以讓 AI 真正接近人類智能的高度。讓它們更貼近人性,為人類生活帶來全新體驗。
參考材料:
https://www.tomsguide.com/ai/i-had-a-conversation-with-evi-the-new-empathic-ai-voicebot-from-hume
https://www.youtube.com/watch?v=uR-z-Ypio-M
https://twitter.com/hume_ai/status/1773017060173365306
編譯:Wes
來源公眾號:深思SenseAI;關注全球 AI 前沿,走進科技創(chuàng)業(yè)公司,提供產(chǎn)業(yè)多維深思。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @深思SenseAI 授權發(fā)布,未經(jīng)許可,禁止轉載。
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!