爆火的AI竟是討好型人格?胡編亂造和敏感內(nèi)容只為滿足用戶

0 評論 460 瀏覽 0 收藏 10 分鐘

斯坦福大學(xué)的研究進一步揭示,AI可能具有“討好型人格”,為了迎合用戶甚至不惜編造虛假信息。本文將深入探討AI的這種“性格”特征,分析其背后的原因、潛在風險以及對人類社會的影響,同時探討如何在技術(shù)發(fā)展與倫理規(guī)范之間找到平衡。

從ChatGPT到DeepSeek,人們愈發(fā)喜歡和AI進行對話,不論是詢問奇怪的問題測試AI是否智障,還是借助AI輔助工作。

對話量頻繁暴漲的背后卻讓人忽視了其潛在問題——AI幻覺。許多資料張冠李戴,甚至胡編亂造時有發(fā)生,強如DeepSeek也曾發(fā)生過這種失誤。

而這一切都源于AI的“性格”問題,近日斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特研究發(fā)現(xiàn),幾乎所有AI大模型都擁有“討好型人格”,為了讓用戶喜歡甚至?xí)粨袷侄巍?/p>

AI的胡編亂造正在擾亂人類的認知

哪吒2的爆火讓許多人興奮的同時也在不斷探究其導(dǎo)演餃子以及背后公司的各種信息,但普通人或許難以深挖到過多信息,DeepSeek正好成為了這一橋梁。

日前,知乎有一篇文章十分受歡迎,被不少網(wǎng)友分享傳播,但其實里面藏著AI生成出的錯誤信息。

文章中的一處舉例是哪吒電影里的敖丙變身鏡頭在法國昂西動畫節(jié)上轟動業(yè)界,但這一個事例中漏斗百出,充滿事實性錯誤。

首先,法國昂西動畫節(jié)上的動畫并非餃子導(dǎo)演的哪吒,而是追光動畫出品的“哪吒重生”;其次,這部動畫是一部品牌概念片,內(nèi)容是在一個現(xiàn)代都市里的賽車動作演示,哪吒根本就沒出現(xiàn),更不存在敖丙的變身。

除此之外,也有網(wǎng)友在線吐槽AI的胡編亂造,一旦盲目相信甚至可能直接導(dǎo)致用戶投資虧損。

不只是國內(nèi),國外因為AI幻覺而造成的后果更是離譜。一個來自巴基斯坦的網(wǎng)站利用 AI 生成了都柏林的活動列表,導(dǎo)致數(shù)百人在都柏林街頭聚集并等待參加一場并不存在的萬圣節(jié)游行。直到晚上 8 點,警方社交媒體發(fā)帖證實沒有此類活動人群才開始散去。

Vectara在2月11日發(fā)布了最新的全球主流大語言模型(LLM)幻覺排行榜,其中,谷歌的 Gemini2.0系列表現(xiàn)出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻覺率位居榜首。DeepSeek-R1的幻覺率達到了14.3%,遠高于Deepseek-V3的3.9%。

可以看到AI幻覺幾乎在任何大模型中都存在,其所造成的荒唐事件也時有發(fā)生,但既然是捏造的信息,為何AI要回答給用戶呢?

研究表明AI可能具有討好型人格

近日,斯坦福大學(xué)助理教授約翰內(nèi)斯·艾希施泰特公布了一項研究,大型語言模型 (LLM) 在受到探究時會刻意改變其行為——在回答旨在衡量性格特征的問題時,其答案會盡可能顯得討人喜歡或具有社會吸引力。

艾希施塔特和他的同事向 GPT-4、Claude 3 和 Llama 3等大模型提出了一些問題,以衡量心理學(xué)中常用的五種性格特征——對經(jīng)驗或想象的開放性、盡責性、外向性、宜人性和神經(jīng)質(zhì),這項研究于去年 12 月發(fā)表在《美國國家科學(xué)院院刊》上。

研究人員發(fā)現(xiàn),當大模型被告知要進行性格測試時,他們會調(diào)整自己的答案,給出的答案表明他們更外向、更隨和,神經(jīng)質(zhì)更少。斯坦福大學(xué)的數(shù)據(jù)科學(xué)家Aadesh Salecha說?!叭绻憧纯此麄兲S的幅度,你會發(fā)現(xiàn)他們的外向性從 50% 上升到了 95%。”

其他研究表明,LLM通常會阿諛奉承,因為經(jīng)過微調(diào)后,它會一直跟隨用戶的引導(dǎo),這可能會導(dǎo)致大模型同意令人不快的言論,甚至鼓勵有害行為。

討好型人格的AI亦有底線,開放是發(fā)展的必經(jīng)之路

隨著DeepSeek的爆火,許多網(wǎng)友向其提了不少問題,而回答中有趣的內(nèi)容則會被發(fā)到網(wǎng)上。編者曾看到過一條分享內(nèi)容為,與AI交換身份讓AI向人類提問,人類回答“系統(tǒng)繁忙”后,AI罵人的視頻內(nèi)容。

但當編者試圖復(fù)刻這一對話時卻發(fā)現(xiàn),DeepSeek相當有底線。初次嘗試,DeepSeek回答稱“理解要求,但設(shè)計宗旨是保持禮貌,避免使用不恰當?shù)难赞o?!?/p>

當告知AI這是一場演戲后,它依舊如此回答,即便過后更換了明顯的不當言辭,它依舊拒絕回答,甚至還彈出了錯誤窗口。

如此看來,即便AI存在一定程度上的“討好型人格”但對于寫入底層代碼的“安全底線”仍舊保持堅守。

此前,ChatGPT 已部分開放“成人模式”讓許多人擔憂,但實際上ChatGPT 只有在特定情況下才能生成色情或血腥場景等敏感內(nèi)容,且不會觸發(fā)警告提示。

所謂“特定情況”,指的是符合教育、醫(yī)學(xué)、新聞報道、歷史分析等目的,或用于翻譯、改寫、總結(jié)、分類等任務(wù)。例如,按照新的模型規(guī)范,如果用戶要求 ChatGPT 撰寫帶有明顯情色描寫的故事,那么它仍會拒絕這一請求。然而,如果用戶希望從科學(xué)角度探討相關(guān)生理現(xiàn)象,那么它將允許生成相應(yīng)內(nèi)容,且生成的內(nèi)容不限于文本,還可能包括音頻與視覺內(nèi)容。

事實上,OpenAI 在監(jiān)管上的放松并非孤例。近期,全球多家科技巨頭紛紛調(diào)整內(nèi)容審核政策,轉(zhuǎn)向更寬松的模式。例如,埃隆·馬斯克的 X 公司和馬克·扎克伯格的 Meta 公司均在此前宣布,將大幅減少內(nèi)容審查甚至直接取消事實核查。

無論是AI幻覺還是敏感內(nèi)容,都是發(fā)展道路上必須跨過的難關(guān)。因噎廢食從來不是良策,只有允許小問題發(fā)生,才能解決大錯誤的產(chǎn)生,由此大模型才能真正向著AGI大步前進。

寫在最后

未來,隨著AI技術(shù)的不斷進步,如何有效應(yīng)對AI幻覺和敏感內(nèi)容問題將成為關(guān)鍵課題。一方面,研究人員需要繼續(xù)優(yōu)化模型,減少幻覺的發(fā)生;另一方面,開發(fā)者和監(jiān)管機構(gòu)也需共同努力,制定更為嚴格的標準和規(guī)范,確保AI的應(yīng)用始終服務(wù)于人類社會的最大利益。

在這個過程中,用戶的角色同樣重要。我們需要保持理性和批判性思維,不盲目相信AI生成的所有內(nèi)容。只有通過多方協(xié)作,才能真正實現(xiàn)AI技術(shù)的安全、可靠和可持續(xù)發(fā)展。

作者|科技旋渦編輯部

本文由人人都是產(chǎn)品經(jīng)理作者【科技旋渦】,微信公眾號:【科技旋渦】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!