直面AI價值對齊挑戰(zhàn)
本篇文章主要探討了人工智能的價值對齊問題,包括其重要性、挑戰(zhàn)及其解決辦法。文章指出,為了讓人工智能以對人類和社會無害的方式行事,需要讓人工智能的“價值觀”與人類的價值觀保持一致,這涉及到跨文化交流、技術(shù)和倫理等多個方面的難題。
過去一年多,以ChatGPT為代表的大語言模型(LLM)集中爆發(fā),并衍生出文生圖、文生視頻、文生音樂等多模態(tài)應用,讓人們感受到了人工智能蘊含的無限潛力與可能性。
有預測認為,2032年,生成式人工智能市場規(guī)模有望增長至1.3萬億美元,年復合增速將達到43%。
但是,隨著大模型應用在各個領(lǐng)域不斷深化,“AI威脅論”的聲量不斷擴大。面對AI展現(xiàn)出來的強大實力,人工智能的“價值對齊”成為熱門領(lǐng)域。
簡單來說,“價值對齊”,就是讓人工智能的“價值觀”與人類的價值觀保持一致,以確保人工智能以對人類和社會無害的方式行事,避免對人類的權(quán)利造成干擾和傷害。隨著以O(shè)penAI、谷歌為代表的眾多科技企業(yè)入局,價值對齊也逐漸從一個學術(shù)概念,成為備受人工智能產(chǎn)業(yè)關(guān)注的發(fā)展理念。
一、與人類價值觀對齊
2023年7月,在此次生成式人工智能浪潮中扮演關(guān)鍵角色的企業(yè)OpenAI宣布成立一個名為“超級對齊”(Superalignment)的新部門,該部門的目標旨在4年內(nèi)找到讓超級智能的AI系統(tǒng)實現(xiàn)價值對齊和安全的路徑。OpenAI還承諾,將投入20%的計算資源專門用于對齊超級智能。不僅是OpenAI,谷歌、微軟等知名科技公司也紛紛成立了類似的價值對齊部門或團隊。
隨著深度學習開啟新的階段,人工智能越發(fā)強大復雜,加之其運行邏輯存在“算法黑箱”,使人類從技術(shù)層面理解AI的決策過程越發(fā)具有挑戰(zhàn)性。為規(guī)避風險,人類嘗試從人工智能創(chuàng)建之初,以技術(shù)性手段干預確保人工智能系統(tǒng)與人類價值觀保持一致,即讓AI與人類“價值對齊”。
以當前人工智能發(fā)展進度來看,價值對齊并非杞人憂天之舉。隨著生成式人工智能參與人類工作和生活領(lǐng)域的廣度和深度逐漸擴大,其潛在風險的波及范圍就越大。特別是當AI被應用到司法體系、醫(yī)療系統(tǒng)、社會福利以及教育等公共領(lǐng)域時,AI的安全問題可能進一步演變?yōu)樯鐣栴}。盡可能防止AI的有害輸出或濫用行為,即當前價值對齊工作的一項核心任務。
價值對齊的基本目標,是要確保即便人工智能發(fā)展為通用人工智能(AGI)甚至是超人工智能,擁有了媲美或超越人類能力、能夠執(zhí)行任何任務,其道德原則、倫理規(guī)范和價值觀,也必須與人類保持一致。
二、價值對齊之難
AI價值對齊的前提是人類具有一套相對恒定且統(tǒng)一的價值標準。從安全角度考慮,在推動對AI的價值對齊之前,應先就對齊的價值觀進行協(xié)調(diào)統(tǒng)一。但是,大到生死觀,小到對美丑的認知,全球的多元文化背景和價值體系使得價值對齊的標準統(tǒng)一進程難以推進。
而即使人類準備好一套通行的“人類價值觀”,把價值觀“對齊”給AI是否能夠?qū)崿F(xiàn)?換言之,AI是否能真正理解人類價值觀并納入自己的運行機制中?
在技術(shù)層面上,現(xiàn)在通行的價值對齊方法主要從技術(shù)性和規(guī)范性入手。規(guī)范性的調(diào)整,即設(shè)立人工智能應遵循的倫理和道德原則,諸如透明性、安全性、可追溯性與可解釋性,以指導對應系統(tǒng)的開發(fā)。技術(shù)性手段主要通過包括“人類反饋強化學習(RLHF)”“合作逆強化學習(CIRL)”“監(jiān)督精調(diào)(Supervised Fine-Tuning)”等在內(nèi)的方式,將通用的倫理原則轉(zhuǎn)化成現(xiàn)實可操作的技術(shù)路徑,避免AI的執(zhí)行路線發(fā)生扭曲。
不過,人類復雜的倫理原則和價值基礎(chǔ),哪怕是較為基礎(chǔ)的“有益”“誠實”“公平”等概念,也很難僅僅通過技術(shù)路徑進行抽象、簡化并實現(xiàn)對齊。此外,我們也無法預料,現(xiàn)行的價值觀在未來是否適用,如果不適用,技術(shù)又該如何調(diào)整。
牛津大學人類未來研究院院長尼克·波斯特洛姆認為,創(chuàng)造能夠理解人類價值觀的人工智能至關(guān)重要。然而,人類情感的復雜性和文化的多樣性,使得通過輸入幾行代碼來教導超級智能機器人人類到底關(guān)心什么,幾乎是個不可能完成的任務。
隨著人工智能開始承擔更復雜的任務,人類開展對齊工作甚至是簡單評估,都將變得難以想象的復雜。業(yè)內(nèi)將人工智能系統(tǒng)對齊的額外成本稱為“對齊稅”,底座模型能力為了實現(xiàn)對齊可能會增加額外的開發(fā)時間、產(chǎn)生額外的計算或性能下降等。
這些成本問題也是推行價值對齊的阻礙之一。即便不考慮訓練過程中的碳排放帶來的環(huán)境問題,價值對齊涉及的人工智能再訓練也需耗費巨額成本。數(shù)據(jù)顯示,GPT-4的原始訓練成本就已經(jīng)達到1億多美元,再訓練成本更不可估量。
目前,OpenAI嘗試通過“AI自動對齊研究員”來控制成本,即訓練一個大致達到人類水平的AI研究員,再投入算力快速迭代并實現(xiàn)自動對齊。盡管這種思路可在一定程度上兼顧發(fā)展與安全,但也可能引發(fā)新一輪的信任與監(jiān)督問題:如果人類讓系統(tǒng)接管部分甚至全部的對齊研究,系統(tǒng)是否會試圖欺騙人類?系統(tǒng)的價值安全又該如何保障?
而當AI發(fā)展的速度超過人類價值觀對齊速度時,價值對齊的過程可能將演變?yōu)?,誰掌握了最先進的AI技術(shù),誰就擁有了對齊價值觀的決定權(quán),進而擁有了定義AI甚至人類價值觀的權(quán)利。
三、何解“價值對齊”
價值對齊,是人工智能倫理領(lǐng)域最根本也是最具挑戰(zhàn)性的概念之一。它是推動人工智能向著符合人類利益的方向發(fā)展的必要機制保障,也關(guān)乎未來更強大的人工智能的安全控制。
如同人類尚無法清晰剖解AI的意識生成問題一樣,價值對齊的實現(xiàn)也具有較高的復雜性。它需要廣泛的學科和社會參與,更需要持續(xù)而長期的討論,在有關(guān)“價值”的概念以及在實現(xiàn)“對齊”的方法等層面達成共識。同時,價值對齊的工作事關(guān)人類未來的整體利益,更廣泛緊密的國際合作有助于對齊工作的推進。
另一種思路是,與其花大力氣拓展價值對齊,不如先專注于AI能力的發(fā)展,探索更多應用的可能性。畢竟,在人工智能的發(fā)展水平一定程度上決定著未來人類價值“定義權(quán)”的背景下,一個能力落后但對齊程度高的AI也難以滿足國家競爭力培育的需要,釋放出足夠的潛力。
因此,以發(fā)展的眼光看待價值對齊問題,聚焦實際問題和具體困難,或許也是一種解法。
作者:王煥超
本文由人人都是產(chǎn)品經(jīng)理作者【騰訊研究院】,微信公眾號:【騰訊研究院】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!