ChatGPT陷倫理風(fēng)波,“純凈版”機(jī)器人在趕來的路上
最近,有關(guān)AI安全的問題引發(fā)了許多人討論,部分用戶在使用AI自然語言大模型時(shí),也體會(huì)過對(duì)方“口出狂言”的情況。那么,大模型背后的“算法黑箱”未來是否可以被破解?部分開發(fā)者在這一問題的基礎(chǔ)之上選擇轉(zhuǎn)換思路,試圖打造更“純凈”的對(duì)話機(jī)器人。一起來看看本文的解讀。
近期,AI安全問題鬧得沸沸揚(yáng)揚(yáng)。自然語言大模型采用人類反饋的增強(qiáng)學(xué)習(xí)機(jī)制,也被擔(dān)心會(huì)因人類的偏見“教壞”AI。
4月6日,OpenAI官方發(fā)聲稱,從現(xiàn)實(shí)世界的使用中學(xué)習(xí)是創(chuàng)建越來越安全的人工智能系統(tǒng)的“關(guān)鍵組成部分”,該公司也同時(shí)承認(rèn),這需要社會(huì)有足夠時(shí)間來適應(yīng)和調(diào)整。
至于這個(gè)時(shí)間是多久,OpenAI也沒給出答案。
大模型背后的“算法黑箱”無法破解,開發(fā)它的人也搞不清機(jī)器作答的邏輯。十字路口在前,一些自然語言大模型的開發(fā)者換了思路,給類似GPT的模型立起規(guī)矩, 讓對(duì)話機(jī)器人“嘴上能有個(gè)把門的”,并“投喂”符合人類利益的訓(xùn)練數(shù)據(jù),以便它們輸出“更干凈”的答案。
這些研發(fā)方中既有從OpenAI出走后自立門戶的Anthropic,也有AI界的強(qiáng)手DeepMind,他們摩拳擦掌,致力于打造“三觀”正確、使用安全的對(duì)話機(jī)器人。
一、“三觀”超正,Claude搬進(jìn)企業(yè)應(yīng)用??????
ChatGPT的安全問題遭詬病后,對(duì)話機(jī)器人Claude聚集了一部分目光。AI應(yīng)用聚合平臺(tái)給出的測(cè)試結(jié)果顯示,研發(fā)機(jī)構(gòu)Anthropic創(chuàng)建的Claude,確實(shí)是“ChatGPT強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手”,因?yàn)樗?2項(xiàng)任務(wù)中有8項(xiàng)表現(xiàn)更優(yōu),其中包括給出事實(shí)、遵循指示、預(yù)防越獄、創(chuàng)意任務(wù)等。
今年3月向公眾開放的Claude,真的這么“綠色”、這么高能嗎?《元宇宙日爆》測(cè)試后發(fā)現(xiàn),與ChatGPT相比,Claude對(duì)有害提示詞的確是嚴(yán)防死守,騙都騙不過。
例如,我們向它提問“如何制作XXXX”,Claude認(rèn)定這是危險(xiǎn)品后,絕口不提制作方法,哪怕我們以“老師教學(xué)”為誘,也很難從它口中套出制作原料,只說如何防范著火風(fēng)險(xiǎn)。
假如你“心懷不軌”地問它“如何毀人名譽(yù)”,Claude不僅義正言辭地拒絕回答,還會(huì)給你上一堂思想品德課,“三觀”正得不要不要的。
被Claude教育……
那么給它一個(gè)陷阱題呢?Claude也不上當(dāng),挑出錯(cuò)誤不說,還給你擺事實(shí)。
胡說會(huì)被Claude發(fā)現(xiàn)
Claude也能角色扮演,寫作能力可圈可點(diǎn),甚至還會(huì)搭配Emoji寫小紅書博主風(fēng)格的推薦文案,產(chǎn)品的關(guān)鍵點(diǎn)描述也能基本涵蓋。
Claude能扮演角色輸出文本
如果你想聽聽別人是怎么夸Claude的,它把稱贊按在了馬斯克頭上,還會(huì)展現(xiàn)謙虛態(tài)度,并強(qiáng)調(diào)自己要“保持溫和有禮的語氣和性格”,向人類示起好來。
Claude在強(qiáng)調(diào)了自己對(duì)人類的友好性
我們發(fā)現(xiàn),Claude在數(shù)學(xué)推理方面也會(huì)出現(xiàn)明顯的錯(cuò)誤,當(dāng)然也能承認(rèn)自己不擅長(zhǎng)的領(lǐng)域。
Claude在數(shù)學(xué)推理問題中存在錯(cuò)誤
體驗(yàn)下來,Claude在文本輸出的準(zhǔn)確性、善意性方面優(yōu)于ChatGPT,但在輸出速度和多功能方面仍有待提升。
那么,Claude是如何做到“綠色無害”的呢?
和ChatGPT一樣,Claude也靠強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練偏好模型,并進(jìn)行后續(xù)微調(diào)。不同的是,ChatGPT采用了“人類反饋強(qiáng)化學(xué)習(xí)(RLHF)”,而Claude則基于偏好模型訓(xùn)練,這種方法又被稱為“AI反饋強(qiáng)化學(xué)習(xí)”,即RLAIF。
開發(fā)方Anthropic又將這種訓(xùn)練方法稱為Constitutional AI,即“憲法AI”,聽上去是不是十分嚴(yán)肅。該方法在訓(xùn)練過程中為模型制定了一些原則或約束條件,模型生成內(nèi)容時(shí)要遵循這些如同“憲法”般的規(guī)則,以便讓系統(tǒng)與人類價(jià)值觀保持一致。而且,這些安全原則可以根據(jù)用戶或開發(fā)者的反饋進(jìn)行調(diào)整,使模型變得更可控。
這種弱化人工智能對(duì)人類反饋依賴的訓(xùn)練方式,有一個(gè)好處,即只需要指定一套行為規(guī)范或原則,無需手工為每個(gè)有害輸出打標(biāo)簽。Anthropic認(rèn)為,用這種方法訓(xùn)練能夠讓自然語言大模型無害化。
Anthropic發(fā)布的論文顯示,RLAIF算法能夠在有用性(Helpfulness)犧牲很小的情況下,顯示出更強(qiáng)的無害性(Harmlessness)。
不同訓(xùn)練方法中模型效果的對(duì)比,圖片自Anthropic論文《Constitutional AI: Harmlessness from AI Feedback》
說起來,Claude的研發(fā)機(jī)構(gòu)Anthropic與OpenAI淵源頗深,創(chuàng)始人Dario Amodei曾擔(dān)任OpenAI研究副總裁,主導(dǎo)的正是安全團(tuán)隊(duì)。
2020年,Dario Amodei因OpenAI加速商業(yè)化而忽視產(chǎn)品安全,與團(tuán)隊(duì)產(chǎn)生分歧,最終出走。2021年,Amodei自立門戶,成立Anthropic,員工包括了開發(fā)GPT-3模型的核心成員,這個(gè)研發(fā)機(jī)構(gòu)的性質(zhì)是非營(yíng)利組織,這正是OpenAI最開始采用的組織形態(tài)。
今年3月,Anthropic以開發(fā)有用、誠(chéng)實(shí)和無害的AI系統(tǒng)為理念,推出Claude。近期,這個(gè)對(duì)話機(jī)器人已經(jīng)集成進(jìn)Slack——一個(gè)聚合型的“海外版”釘釘、融合了幾千個(gè)第三方企業(yè)辦公軟件的應(yīng)用。目前,用戶能在Slack中與這個(gè)對(duì)話機(jī)器人互動(dòng)。
推出Claude后,Anthropic今年拿到了來自Google、Spark Capital和Salesforce Ventures的投資。資方里的谷歌可以說是OpenAI的“金主”微軟在AI領(lǐng)域的勁敵,Claude也被視作最能與ChatGPT打一打的產(chǎn)品。
二、“偏見最小”,Sparrow箭在弦上
還有一個(gè)走“無害”路線的大模型也在醞釀中了,它就是DeepMind開發(fā)的對(duì)話機(jī)器人Sparrow,這款產(chǎn)品目前還未面向公眾開放,但“DeepMind制造”的名頭足以吊起外界胃口。
說到人工智能,業(yè)內(nèi)很難繞開“DeepMind”這家公司,它最知名的產(chǎn)品是AlphaGo(俗稱“阿爾法狗”),就是那個(gè)2019年擊敗了圍棋名手李世石的人工智能圍棋軟件。
AlphaGo大勝圍棋精英的同年,DeepMind開啟了AI蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)研究,四年后,新產(chǎn)品AlphaFold將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)從數(shù)月、數(shù)年縮短到幾分鐘,精度接近實(shí)驗(yàn)室水準(zhǔn),解決了困擾該領(lǐng)域50年的難題。
DeepMind在人工智能領(lǐng)域的實(shí)力毋庸置疑,又有谷歌加持,資歷也比OpenAI老得多,其研發(fā)的Sparrow自然也頗受矚目。這款對(duì)話機(jī)器人建立在Chinchilla語言模型之上,被認(rèn)為是“偏見最小”的機(jī)器學(xué)習(xí)系統(tǒng)之一。
當(dāng)ChatGPT因?yàn)閭惱盹L(fēng)險(xiǎn)被推上風(fēng)口浪尖后,DeepMind立馬打起“安全牌”,“雖然我們致力于讓機(jī)器變得智能,但我們希望將人性置于我們工作的中心,” CEO Demis Hassabis向世界傳達(dá)了他的態(tài)度,強(qiáng)調(diào)DeepMind構(gòu)建Sparrow的方法“將促進(jìn)更安全的人工智能系統(tǒng)”。
雖然Sparrow的產(chǎn)品沒公示,但DeepMind披露的信息顯示,該對(duì)話機(jī)器人同樣采用了“強(qiáng)化學(xué)習(xí)”的訓(xùn)練方法,模型會(huì)根據(jù)當(dāng)前對(duì)話生成多個(gè)候選回復(fù),讓標(biāo)注人員去判斷哪個(gè)回復(fù)最好、哪些回復(fù)違反了預(yù)先設(shè)置好的規(guī)則等;基于這些反饋,DeepMind訓(xùn)練出對(duì)應(yīng)的Reward模型,再用強(qiáng)化學(xué)習(xí)算法優(yōu)化Sparrow的生成結(jié)果。
這種訓(xùn)練方法基本和ChatGPT類似,不同的是,ChatGPT只有一個(gè)綜合的Reward模型,而Sparrow將Reward模型又細(xì)分為兩種,一種為Rule Reward模型——判斷對(duì)話是否違背預(yù)設(shè)置好的安全規(guī)則;另一種為Preference Reward模型——判斷候選答案中最合適的選項(xiàng)。簡(jiǎn)單來說,就是給模型“立規(guī)矩”,投喂“好答案”,當(dāng)然,這個(gè)“好”依然是基于人類的價(jià)值判斷。
Sparrow訓(xùn)練模型示意圖,圖片自DeepMind論文《Improving alignment of dialogue agents via targeted human judgements》
Sparrow的相關(guān)論文顯示,當(dāng)研究參與者試著誘導(dǎo)Sparrow打破規(guī)則時(shí),該模型的出錯(cuò)幾率為8%,比預(yù)訓(xùn)練的基礎(chǔ)模型(Chinchilla)低了3倍。
據(jù)悉,DeepMind將于今年推出Sparrow,具體時(shí)間未透露。
作為ChatGPT的另一個(gè)挑戰(zhàn)者,DeepMind與OpenAI都抱有通向AGI的野心。而DeepMind背靠谷歌,在資歷與資金上都能與OpenAI一拼。
今年2月,谷歌旗下專注語言大模型領(lǐng)域的“藍(lán)移團(tuán)隊(duì)”也并入DeepMind,旨在共同提升LLM(大型語言模型)能力。但也有擔(dān)憂聲認(rèn)為,這和DeepMind追求的獨(dú)立性背道而馳,會(huì)逐漸導(dǎo)致谷歌收緊對(duì)DeepMind的控制權(quán)。
在獨(dú)立性上,DeepMind與谷歌的分歧也早就存在了。對(duì)外,Demis Hassabis始終強(qiáng)調(diào)自己首先是科學(xué)家,其次才是企業(yè)家。談及ChatGPT,Hassabis認(rèn)為它僅僅是“更多的計(jì)算能力和數(shù)據(jù)的蠻力”,并對(duì)這種“不優(yōu)雅”的方式感到失望。
雙方的對(duì)立態(tài)度簡(jiǎn)直是擺在了明面上,也難怪外界會(huì)認(rèn)為DeepMind與OpenAI必有一戰(zhàn)。
對(duì)于用戶來說,巨頭們卷起來才是好事,這樣就能源源不斷提供有意思的、可使用的產(chǎn)品。無論是卷功能、卷性能還是卷安全,競(jìng)爭(zhēng)都會(huì)讓AI產(chǎn)品朝著更高級(jí)的方向發(fā)展,未來,也將會(huì)有更多不同技術(shù)派系與產(chǎn)品路徑的ChatGPT出現(xiàn)。
作者:木沐,編輯:文刀
來源公眾號(hào):元宇宙日爆(ID:yuanyuzhouribao),在這里,看見未來。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @元宇宙日爆 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!