激情五月亚洲色五月，欧美午夜精品免费理论片，久久精品手机观看，亚洲AV秘片一区二区三，五月天国产亚洲激情在线观看，亚洲无码高清视频，一级无码毛片在线免费看，中文字幕无码不卡顿

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

新智元

2023-05-11

0 評論 3939 瀏覽 5 收藏

15 分鐘

最近，OpenAI發(fā)布了令人震驚的新發(fā)現(xiàn)，即GPT-4已經(jīng)可以解釋GPT-2的行為。這樣看來，難道AI的“可解釋性”真的被AI自己破解了？大語言模型的黑箱問題，真的可以被解答嗎？不妨來看看本文的解讀。

OpenAI發(fā)布了震驚的新發(fā)現(xiàn)：GPT-4，已經(jīng)可以解釋GPT-2的行為！

大語言模型的黑箱問題，是一直困擾著人類研究者的難題。

模型內(nèi)部究竟是怎樣的原理？模型為什么會做出這樣那樣的反應(yīng)？LLM的哪些部分，究竟負(fù)責(zé)哪些行為？這些都讓他們百思不得其解。

萬萬沒想到，AI的「可解釋性」，竟然被AI自己破解了？

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

網(wǎng)友驚呼，現(xiàn)在AI能理解AI，用不了多久，AI就能創(chuàng)造出新的AI了。

就是說，搞快點，趕緊快進(jìn)到天網(wǎng)吧。

一、GPT-4破解GPT-2黑箱之謎

剛剛，OpenAI在官網(wǎng)發(fā)布了的博文《語言模型可以解釋語言模型中的神經(jīng)元》（Language models can explain neurons in language models），震驚了全網(wǎng)。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

論文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

只要調(diào)用GPT-4，就能計算出其他架構(gòu)更簡單的語言模型上神經(jīng)元的行為。

GPT-2，就這樣被明明白白地解釋了。

要想研究大模型的「可解釋性」，一個方法是了解單個神經(jīng)元的具體含義。這就需要人類手動檢測神經(jīng)元，但是，神經(jīng)網(wǎng)絡(luò)中有數(shù)百億或數(shù)千億個神經(jīng)元。

OpenAI的思路是，對這個過程進(jìn)行自動化改造，讓GPT-4對神經(jīng)元的行為進(jìn)行自然語言解釋，然后把這個過程應(yīng)用到GPT-2中。

這何以成為可能？首先，我們需要「解剖」一下LLM。

像大腦一樣，它們由「神經(jīng)元」組成，它們會觀察文本中的某些特定模式，這就會決定整個模型接下來要說什么。

比如，如果給出這么一個prompt，「哪些漫威超級英雄擁有最有用的超能力？」「漫威超級英雄神經(jīng)元」可能就會增加模型命名漫威電影中特定超級英雄的概率。

OpenAI的工具就是利用這種設(shè)定，把模型分解為單獨的部分。

第一步：使用GPT-4生成解釋

首先，找一個GPT-2的神經(jīng)元，并向GPT-4展示相關(guān)的文本序列和激活。

然后，讓GPT-4根據(jù)這些行為，生成一個可能的解釋。

比如，在下面的例子中GPT-4就認(rèn)為，這個神經(jīng)元與電影、人物和娛樂有關(guān)。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

第二步：使用GPT-4進(jìn)行模擬

接著，讓GPT-4根據(jù)自己生成的解釋，模擬以此激活的神經(jīng)元會做什么。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

第三步：對比打分

最后，將模擬神經(jīng)元（GPT-4）的行為與實際神經(jīng)元（GPT-2）的行為進(jìn)行比較，看看GPT-4究竟猜得有多準(zhǔn)。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

還有局限

通過評分，OpenAI的研究者衡量了這項技術(shù)在神經(jīng)網(wǎng)絡(luò)的不同部分都是怎樣的效果。對于較大的模型，這項技術(shù)的解釋效果就不佳，可能是因為后面的層更難解釋。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

目前，絕大多數(shù)解釋評分都很低，但研究者也發(fā)現(xiàn)，可以通過迭代解釋、使用更大的模型、更改所解釋模型的體系結(jié)構(gòu)等方法，來提高分?jǐn)?shù)。

現(xiàn)在，OpenAI正在開源「用GPT-4來解釋GPT-2中全部307,200個神經(jīng)元」結(jié)果的數(shù)據(jù)集和可視化工具，也通過OpenAI API公開了市面上現(xiàn)有模型的解釋和評分的代碼，并且呼吁學(xué)界開發(fā)出更好的技術(shù)，產(chǎn)生得分更高的解釋。

此外，團(tuán)隊還發(fā)現(xiàn)，越大的模型，解釋的一致率也越高。其中，GPT-4最接近人類，但依然有不小的差距。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

以下是不同層神經(jīng)元被激活的例子，可以看到，層數(shù)越高，就越抽象。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

二、把AI的對齊問題，交給AI

這項研究，對于OpenAI的「對齊」大業(yè)，意義重大。

在2022年夏天，OpenAI就曾發(fā)布博文「Our approach to alignment research」，在那篇文章中，OpenAI就曾做出預(yù)測：對齊將由三大支柱支撐。

利用人工反饋訓(xùn)練 AI
訓(xùn)練AI系統(tǒng)協(xié)助人類評估
訓(xùn)練AI系統(tǒng)進(jìn)行對齊研究

在前不久，萬名大佬聯(lián)名簽署公開信，要求在六個月內(nèi)暫停訓(xùn)練比GPT-4更強(qiáng)大的AI。

Sam Altman在一天之后，做出的回應(yīng)是：構(gòu)建更好的通用人工智能，就需要有對齊超級智能的技術(shù)能力。

究竟怎樣讓AI「與設(shè)計者的意圖對齊」，讓AGI惠及全人類？

今天的這項研究，無疑讓OpenAI離目標(biāo)更邁進(jìn)了一步。

Sam Altman轉(zhuǎn)發(fā)：GPT-4對GPT-2做了一些可解釋性工作

OpenAI的對齊團(tuán)隊負(fù)責(zé)人也表示，這是一個新的方向，可以讓我們同時獲得：

詳細(xì)理解模型到單個神經(jīng)元的層
運(yùn)行整個模型，這樣我們就不會錯過任何重要的東西

令人興奮的是，這給了我們一種衡量神經(jīng)元解釋好壞的方法：我們模擬人類如何預(yù)測未來的模式，并將此與實際的模式進(jìn)行比較。

目前這種衡量方式并不準(zhǔn)確，但隨著LLM的改進(jìn)，它會變得更好。

雖然現(xiàn)在還處于初期階段，但已經(jīng)展現(xiàn)了一些有趣的趨勢：

后期的層比早期的更難解釋
簡單的預(yù)訓(xùn)練干預(yù)可以提高神經(jīng)元的可解釋性
簡單的技巧，如迭代細(xì)化，可以改進(jìn)解釋

OpenAI可解釋性團(tuán)隊負(fù)責(zé)人William Saunders也表示，團(tuán)隊希望開發(fā)出一種方法，來預(yù)測AI系統(tǒng)會出現(xiàn)什么問題?！肝覀兿Ｍ苷嬲屵@些模型的行為和生產(chǎn)的回答可以被信任?！?/p>

三、有趣的神經(jīng)元

在這個項目中，研究者還發(fā)現(xiàn)了許多有趣的神經(jīng)元。

GPT-4為一些神經(jīng)元做出了解釋，比如「比喻」神經(jīng)元、與確定性和信心有關(guān)的短語的神經(jīng)元，以及做對事情的神經(jīng)元。

這些有趣的神經(jīng)元是怎么發(fā)現(xiàn)的？策略就是，找到那些token空間解釋很差的神經(jīng)元。

就這樣，背景神經(jīng)元被發(fā)現(xiàn)了，也就是在某些語境中密集激活的神經(jīng)元，和許多在文檔開頭的特定單詞上激活的神經(jīng)元。

另外，通過尋找在上下文被截斷時以不同方式激活的上下文敏感神經(jīng)元，研究者發(fā)現(xiàn)了一個模式破壞神經(jīng)元，它會對正在進(jìn)行的列表中打破既定模式的token進(jìn)行激活（如下圖所示）。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

研究者還發(fā)現(xiàn)了一個后typo神經(jīng)元，它經(jīng)常在奇怪或截斷的詞之后激活。

還有某些神經(jīng)元，似乎會在與特定的下一個token匹配時被激活。

比如，當(dāng)下一個標(biāo)記可能是「from」時，一個神經(jīng)元會被激活。

這是怎么回事？起初研究者猜測，這些神經(jīng)元可能是根據(jù)其他信號對下一個token進(jìn)行預(yù)測。然而，其中一些神經(jīng)元并不符合這種說法。

目前，研究者還沒有進(jìn)行足夠的調(diào)查，但有可能許多神經(jīng)元編碼了以特定輸入為條件的輸出分布的特定微妙變化，而不是執(zhí)行其激活所提示的明顯功能。

總的來說，這些神經(jīng)元給人的主觀感覺是，更有能力的模型的神經(jīng)元往往更有趣。

毫不意外地，網(wǎng)友們又炸了。

咱就是說，OpenAI，你搞慢點行不？

在評論區(qū)，有人祭出這樣一張梗圖。

這就是傳說中的「存在主義風(fēng)險神經(jīng)元」吧，只要把它關(guān)掉，你就安全了（Doge）。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

ChatGPT從互聯(lián)網(wǎng)中學(xué)習(xí)，現(xiàn)在它正在創(chuàng)造更多的互聯(lián)網(wǎng)。很快，它就會自我反哺，真正的天網(wǎng)就要來臨。

聽說GPT-5已經(jīng)達(dá)到奇點，并且它正在與地外生命談判和平條約。

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

有網(wǎng)友惡搞了一個關(guān)于「Yudkowsky」的解釋，他一直是「AI將殺死所有人」陣營的主要聲音之一。

之前「暫停AI訓(xùn)練」公開信在網(wǎng)上炒得沸沸揚(yáng)揚(yáng)時，他就曾表示：「暫停AI開發(fā)是不夠的，我們需要把AI全部關(guān)閉！如果繼續(xù)下去，我們每個人都會死?！?/p>

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

他知道我們在計劃什么

我們必須不惜一切代價讓他喪失信譽(yù)

一旦他走了，就沒有人能夠反對我們了

「Eliezer Yudkowsky看到這一幕，一定又笑又哭——讓我們使用自己不能信任的技術(shù)來告訴我們，它是如何工作的，并且它是對齊的?！?/p>

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

現(xiàn)在，人類反饋強(qiáng)化學(xué)習(xí)（RLHF）是主場，當(dāng)AI懂了AI，將會在微調(diào)模型上開辟一個新紀(jì)元：

人工智能反饋的神經(jīng)元過濾器（NFAIF）

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

參考資料：

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/

作者：新智元；編輯：編輯部

來源公眾號：新智元（ID：AI_era），“智能+”中國主平臺，致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于CC0協(xié)議。

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

新智元

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

105篇作品 262044總閱讀量

Axure高保真教程：自動識別文件類型的上傳列表

01-126068 瀏覽

元宇宙當(dāng)年吹的牛，一個個都爛了尾

04-216779 瀏覽

復(fù)盤：0成本營收百萬，家裝小紅書如何私域變現(xiàn)？

12-305367 瀏覽

設(shè)計系統(tǒng)面臨的問題與未來的發(fā)展

05-313259 瀏覽

2個億銷售額，如何翻一番

08-032352 瀏覽

評論

目前還沒評論，等你發(fā)揮！

如果智能客服產(chǎn)品是一款游戲（新手教程和任務(wù)篇）

07-262632 瀏覽
小紅書上線蒲公英低差營銷規(guī)則，對品牌方和博主的影響是有哪些？

12-25918 瀏覽
地圖功能更全、行業(yè)更卷，離錢景還差幾步？

10-271756 瀏覽

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

一、GPT-4破解GPT-2黑箱之謎

還有局限

二、把AI的對齊問題，交給AI

三、有趣的神經(jīng)元

OpenAI炸裂新作：GPT-4破解GPT-2大腦！30萬神經(jīng)元全被看透

一、GPT-4破解GPT-2黑箱之謎

二、把AI的對齊問題，交給AI

三、有趣的神經(jīng)元