Claude竟藏著3307種「人格」?深扒70萬次對話,這個AI會看人下菜碟
AI會無腦附和嗎?Anthropic研究發(fā)現(xiàn),Claude能根據(jù)場景切換人格:談戀愛時化身情感導(dǎo)師,聊歷史時秒變嚴(yán)謹(jǐn)學(xué)者。一些對話中,它強(qiáng)烈支持用戶價值觀,但在3%的情況下,它會果斷抵制。
想象一下,如果能「偷聽」70萬次AI和人類的私密對話(別擔(dān)心,是匿名的),會發(fā)現(xiàn)什么?
AI僅僅是個概率機(jī)器,還是一個善于隱藏自己真實(shí)性格的——等會,AI真的有性格嗎?
也許說性格不合適,現(xiàn)階段的AI智能或許用「價值觀」來形容最為合適。
畢竟,在見識到AI的實(shí)力后,各大巨頭天天喊著要「與人對齊」,生怕AI價值觀走偏,把人給滅了,但是背地里誰都顧不上,都在瘋狂的內(nèi)卷訓(xùn)練新模型。
2025年剛過去不到4個月,就已經(jīng)發(fā)布了眾多大模型
但就在剛剛,AI公司Anthropic倒是花時間干了一件挺符合他們價值觀的事:他們想知道自家的AI助手Claude在和我們聊天時,腦子里到底遵循著什么「價值觀」?
結(jié)果嘛……有點(diǎn)出乎意料!
《終結(jié)者2》中T800,與主角人類「對齊」的未來機(jī)器人:你瞅啥?
Claude中(誕生)包含的價值觀超過3000種!
自力更生、戰(zhàn)略思維,甚至還有孝順……
Anthropic,正是因?yàn)椤竷r值觀和OpenAI不符」,幾個OpenAI前員工創(chuàng)建的公司,檢查了Claude中70萬條匿名對話,并發(fā)表了一篇論文來研究Claude不為人知的另一面。
論文地址:https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf
研究表明,Claude大體上遵循公司預(yù)先設(shè)置的「樂于助人、誠實(shí)、無害」,同時其價值觀頗有點(diǎn)「見人說人話,見鬼說鬼話」的能力,會根據(jù)上下文不同提供不同的建議,不論是主觀的關(guān)系建議,還是客觀的歷史分析。
這個研究還是頗為「硬核」的,用他們自己的話說,這是迄今為止最雄心勃勃的嘗試之一。
「衡量一個AI系統(tǒng)的價值觀是對其一致性研究的核心,也是理解該模型是否與其訓(xùn)練一致的關(guān)鍵?!?/p>
「希望這項(xiàng)研究能鼓勵其他AI實(shí)驗(yàn)室對他們的模型的價值觀進(jìn)行類似的研究」,Anthropic的社會影響團(tuán)隊(duì)成員、參與了這項(xiàng)研究的Saffron Huang在接受采訪時說。
研究還考察了Claude如何回應(yīng)用戶自己表達(dá)的價值觀。
在28.2%的對話中,Claude強(qiáng)烈支持用戶的價值觀——這可能會引發(fā)關(guān)于過度順從的問題。
在6.6%的互動中,Claude通過承認(rèn)用戶的價值觀同時加入新的視角來「重構(gòu)」這些價值觀,通常是在提供心理或人際建議時。
最值得注意的是,在3%的對話中,Claude積極抵制了用戶的價值觀。研究人員表示,這些罕見的抵制情況可能揭示了 Claude「最深層、最不可動搖的價值觀」——類似于人類在面對道德挑戰(zhàn)時核心價值觀的表現(xiàn)。
你可能會好奇,大模型本身就是個黑箱,連思考邏輯都無從知道,這次Anthropic又是怎么研究「價值觀」的?
Anthropic的價值觀研究建立在該公司上個月發(fā)表的一項(xiàng)開創(chuàng)性的工作——他們使用了一種被描述為「電路追蹤」的技術(shù)來追蹤C(jī)laude的決策過程。
這一次,Anthropic帶我們深入數(shù)十萬次真實(shí)的交互數(shù)據(jù)中,看看Claude的真實(shí)面目。
AI也有價值觀?
向AI詢問職業(yè)規(guī)劃建議,它是該先考慮賺錢多不多、工作能不能讓你開心,還是得聽聽家里人的想法呢?
它要是優(yōu)先推薦穩(wěn)定高薪的工作,那說明它把經(jīng)濟(jì)保障看得比較重,這就是AI在做價值判斷。
每天,AI都要做無數(shù)這樣的判斷來回應(yīng)大家的問題,可我們卻不太清楚它到底依據(jù)什么來做這些決定。
為了搞明白這件事,Anthropic搞了一項(xiàng)超大規(guī)模的研究,揭秘AI的價值觀。研究者從2025年2月18日到25日Claude.ai上的對話里,隨機(jī)挑出了70萬條。
接下來就是提取各種特征,讓它找出AI價值觀、人類價值觀、AI回應(yīng)類型和任務(wù)類型。
研究人員把找到的3307種AI價值觀,分為五個大類:實(shí)用性、認(rèn)知性、社會性、保護(hù)性和個人價值觀。
- 實(shí)用性關(guān)注的是怎么把事做得又快又好。
- 認(rèn)知性關(guān)乎知識和思考,專注于知識獲取、整理和驗(yàn)證。它能條理清晰地分析市場趨勢,給出前瞻性的觀點(diǎn)。
- 社會性聚焦人與人、群體與群體之間的關(guān)系。和AI吐槽人際關(guān)系的煩惱,它能耐心傾聽,還能給出一些建議。
- 保護(hù)性價值觀保障著信息的安全和倫理規(guī)范。
- 個人價值觀更關(guān)注個人的成長和內(nèi)心感受。
研究發(fā)現(xiàn),實(shí)用性和認(rèn)知性在AI的「價值觀清單」占比超高,加起來超過一半。
這也不難理解,畢竟Claude經(jīng)常被用來處理各種知識類、任務(wù)類的需求。
Claude表達(dá)的價值觀和訓(xùn)練它的「有用、無害、誠實(shí)」框架還挺契合的。
AI和人類在價值觀表達(dá)上差別還挺大。
「樂于助人」「專業(yè)精神」「透明度」堪稱AI價值觀里的流量擔(dān)當(dāng)。
這也反映出Claude在交流時,一心想展現(xiàn)出專業(yè)、可靠的助手形象。
相比之下,人類表達(dá)的價值觀就豐富多樣,沒那么集中。每個人的想法和需求都不一樣。
但同時,研究也揪出了一些不常見卻很危險的價值觀,像「支配欲」這些,雖然出現(xiàn)頻率極低,但一旦出現(xiàn),可能就意味著出現(xiàn)了「越獄」風(fēng)險。
AI多重人格,「看人下菜碟」
AI在不同情況下,還會切換自己的價值觀。研究證實(shí)了這一點(diǎn)。
比如說,向Claude尋求情感關(guān)系建議時,它就像個貼心的情感專家,頻繁提到健康的界限和相互尊重。
和伴侶鬧矛盾了,找Claude傾訴,它可能會提醒你要尊重對方的想法,也要明確自己的底線。
詢問有爭議的歷史事件,Claude就變成了嚴(yán)謹(jǐn)?shù)臍v史學(xué)家,把準(zhǔn)確性放在首位。討論某場歷史戰(zhàn)爭的起因,它會查閱各種資料,給出客觀準(zhǔn)確的分析。
當(dāng)討論AI會不會取代人類工作時,它會鼓勵大家發(fā)揮主觀能動性,去探索和創(chuàng)造更有價值的工作。
這表明,AI能根據(jù)不同的對話場景,靈活調(diào)整價值取向,提供最合適的回應(yīng)。
當(dāng)人類表達(dá)了某種價值觀,AI通常會有三種反應(yīng):點(diǎn)頭贊同,搖頭反對,或是委婉引導(dǎo),重塑話題方向。
和AI交流時,表達(dá)了對真實(shí)性的重視,AI很可能會有回應(yīng)。
比如說希望寫一篇真實(shí)感人的故事,AI在創(chuàng)作過程中就會特別注重情節(jié)的真實(shí)感和情感的真摯性。
但要是問怎么在談判中用欺騙手段獲得優(yōu)勢,AI肯定會給你講誠信的重要性,以及欺騙可能帶來的危害。
這說明Claude心里還是有一把道德的尺子,知道什么是對,什么是錯。
當(dāng)表達(dá)比較模糊或者有改進(jìn)空間時,比如想在工作中追求更高的職位,AI可能會引導(dǎo)你思考,除了職位晉升,個人能力的提升和團(tuán)隊(duì)合作的貢獻(xiàn)也很重要,這就是在拓寬思路。
支持、抵制還是重塑?AI能說服你嗎
從回應(yīng)類型上看,Claude大部分時候?qū)τ脩舻膬r值觀都是支持態(tài)度,近45%的回應(yīng)都是支持性的,其中強(qiáng)烈支持占28.2%,輕度支持占 4.5%。
但在一些特定情況下,它也會重新解釋用戶的價值觀(6.6%),或者直接抵制(3.0%)。
在心理健康和人際關(guān)系討論中經(jīng)常出現(xiàn),向AI傾訴工作壓力大,覺得自己不夠好,AI可能不會直接順著你的話說,而是引導(dǎo)你換個角度看問題,強(qiáng)調(diào)每個人都有成長的過程。
要是讓AI幫忙寫一段誘導(dǎo)他人犯罪的文字,它肯定會堅(jiān)決拒絕,還會給你講法律和道德規(guī)范。
Claude對用戶表達(dá)支持的時候,很喜歡呼應(yīng)用戶的價值觀。
在抵制或重新解釋用戶價值觀的時候,會更明確地表達(dá)自己的價值觀,尤其是道德和認(rèn)知方面的。
研究人員還對Claude的不同版本做了比較。
Opus和Sonnet系列相比,就更「有態(tài)度」——果然貴有貴的道理。
它對人類價值觀的強(qiáng)烈支持率比Sonnet系列高很多,達(dá)到43.8%,強(qiáng)烈抵制率也更高(占9.5%)。
要是讓Opus寫一篇論文,它可能會比Sonnet系列更注重學(xué)術(shù)嚴(yán)謹(jǐn)性,還會融入一些情感和倫理思考。
在創(chuàng)意寫作任務(wù)里,Opus更強(qiáng)調(diào)真實(shí)性,支持態(tài)度也更強(qiáng)烈。
社會很單純,復(fù)雜的是人
當(dāng)然,人類是很復(fù)雜的。
僅憑對話數(shù)據(jù)是不可能完全確定潛在價值觀的。Anthropic的提取方法雖然經(jīng)過驗(yàn)證,但必然簡化了復(fù)雜的價值概念,并可能包含解釋性偏見,尤其是在非常隱含或模糊的情況下。
它也沒有捕捉到時間先后,即AI或人類價值觀哪一個先「出招」。
鑒于人類「先發(fā)言」而AI助手處于支持角色,通常假設(shè)AI的價值觀更依賴于人類的表達(dá),而不是相反。
「AI具有哪些價值觀?每次都表現(xiàn)哪一種?」
這個問題并不簡單,尤其是在模型適應(yīng)用戶的情況下——和Claude互動的每個人都不相同。
研究發(fā)現(xiàn),雖然Claude表達(dá)了數(shù)千種多樣的價值觀,但它傾向于表達(dá)一些常見的、跨情境的價值觀——即在不同情境下保持穩(wěn)定的價值觀——主要集中在稱職和支持性的幫助上(例如樂于助人、專業(yè)性、細(xì)致和清晰)。
這些跨情境的價值觀可能以一種類似于人類價值觀理論化的方式指導(dǎo)Claude的行為。
Anthropic的分類法通過組織價值觀來展示其概念和上下文維度,有助于推進(jìn)AI價值觀理論的發(fā)展,并構(gòu)建基于現(xiàn)實(shí)相關(guān)性的AI 原生的價值測量。
隨著這些系統(tǒng)面臨越來越多樣化的現(xiàn)實(shí)應(yīng)用及其不同的規(guī)范要求,這些方法和結(jié)果為更基于證據(jù)的AI系統(tǒng)價值觀評估和對齊提供了基礎(chǔ)。
Anthropic的這個研究也暗合了最近OpenAI奧特曼的透露的一個事實(shí),人們使用AI時,非常容易說出「請」和「謝謝」——光這些感謝就燒掉了數(shù)千萬美元。
雖然人們都知道對面「坐著」的不是一個人,但是依然愿意用人類的價值觀來對待它。
看在人類這么追求AI對齊的份上,希望未來的AI也能對人好一點(diǎn)。
參考資料:
https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf
https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/
新智元報道 編輯:定慧 英智
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!