全球首個「開源GPT-4」出世!Llama 3震撼發(fā)布,Meta AI免登錄可用

0 評論 1762 瀏覽 16 收藏 25 分鐘

蟄伏許久,Meta剛剛?cè)映隽酥匕跽◤棧捍蠹移诖丫玫腖lama 3,用了24000塊GPU訓練,一亮相便登上開源大模型鐵王座。8B和70B取得同規(guī)模參數(shù)下開源領(lǐng)域的SOTA,推理編碼大幅提升,代碼和權(quán)重全開源!而且,400B的Llama 3,也在路上了。

LLM界的「真·Open AI」,又來整頓AI圈了!

業(yè)內(nèi)驚呼:首個開源GPT-4級的模型,終于來了!開源模型追上閉源模型的歷史性一刻,或許就在眼前了?

一石激起千層浪,Llama 3才剛剛發(fā)布沒幾小時,就破紀錄地登頂了Hugging Face排行榜。

這次,Meta共開源了Llama 3 8B和Llama 3 70B兩款模型,分別有預訓練和指令微調(diào)兩個版本。

小扎、LeCun也紛紛在第一時間開啟了宣傳模式。

Llama 3是在由24000塊GPU組成的定制集群上,使用15萬億個token訓練的。

甚至就連最小8B版本,有時都能打敗大出一個數(shù)量級的Llama 2 70B!

值得期待的是,在未來幾個月,Llama 3還將推出更多版本

不過,雖然上下文長度相較之前實現(xiàn)了翻倍,但依然只有8K。

順帶提一句,Llama 3已經(jīng)可以在網(wǎng)頁版Meta AI用上了,還是免登錄那種。

對此,Hugging Face聯(lián)創(chuàng)兼CEO表示:「Llama 1和Llama 2現(xiàn)在已經(jīng)衍生出了30,000個新模型。我迫不及待地想看到Llama 3將會給AI生態(tài)帶來怎樣的沖擊了。」

一、400B性能野獸,刷新開源SOTA

然而,8B和70B版本的Llama 3,還只是開胃菜,更大的還在后面呢!

真正的性能野獸——Llama 3 400B不久便要解禁,目前還在訓練中。

其中,預訓練版本在推理挑戰(zhàn)測試集ARC-Challenge上,拿下了96的高分。

而指令微調(diào)版的Llama 3 400B更是在數(shù)學(GSM-8K)、代碼(Human-Eval)、大規(guī)模多任務(wù)語言理解基準(MMLU)上,表現(xiàn)非常亮眼。

這些數(shù)據(jù)是什么概念?

英偉達高級科學家Jim Fan做了一個對比圖,與Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基準數(shù)據(jù)中的結(jié)果:

看得出,Llama 3 400B已經(jīng)在多語言推理任務(wù)、代碼能力,可與GPT-4、Claude 3相匹敵。

更亮眼的是,它在所有能力上,均打敗了Gemini Ultra 1.0。

還有一個更詳細的數(shù)據(jù)對比圖,自己體會。

一時間,全網(wǎng)陷入了瘋狂。

網(wǎng)友:首個「開源GPT-4」來了

Karpathy精辟地總結(jié)道,400B模型將會是「首個開源GPT-4級別的模型」。

Jim Fan感慨道:

即將推出的Llama 3 400B將成為一個分水嶺,即社區(qū)將獲得開源重量級的GPT-4模型。它將改變許多研究工作和草根創(chuàng)業(yè)公司的計算方式。

Llama 3 400B還在訓練中,希望在接下來的幾個月里會有更好的表現(xiàn)。有了如此強大的后盾,我們可以釋放出更多的研究潛能。期待整個生態(tài)系統(tǒng)的建設(shè)能量激增!

OpenAI研究科學家Will Depue也表達的同樣的看法,非常期待一款開源GPT-4級別的模型——Llama 3 400B,未來的可能性無窮無盡!

昨天剛剛發(fā)布的Mixtral 8×22B刷新SOTA之后,沒想到,卻被Llama 3 70B碾壓了。

開源模型的SOTA,當屬于Llama 3 400B。

吳恩達的生日,卻收到一份別致的「禮物」。

Meta在博客中預告了,接下來幾個月,將發(fā)布多個新功能的模型,包括多語言對話、更長上下文,以及整體能力提升。

一旦Llama 3完成訓練,技術(shù)報告將直接發(fā)布。

二、Meta重回開源模型「鐵王座」

在性能上,8B和70B顯著優(yōu)于Llama 2,取得了SOTA。

預訓練模型和指令微調(diào)模型在8B和70B的參數(shù)規(guī)模上取得了如此先進的性能,都是得益于預訓練和訓練后的優(yōu)化改進。

而Meta的研究團隊,還對訓練后優(yōu)化過程進行了改進,這就大大降低了錯誤拒絕執(zhí)行任務(wù)的比率,提高了模型輸出與人類意圖的一致性,還讓模型響應的多樣性也增加了。

同時,模型的邏輯推理、代碼生成和指令遵循等能力也都大幅提升,讓Llama 3成為了一個可控性更強的模型。

與近乎同等規(guī)模預訓練的開源模型相比,Llama 3 8B完全打敗了Mistral,以及Gemma。不過推理能力,比Gemma-7B弱一些。

與閉源Gemini Pro 1.0,以及開源Mixtral 8×22B相比,Llama 3-70B在多項基準測試中拔得頭籌。

再來看看,Llama 3兩個參數(shù)版本與Llama 2-7B、13B、70B的預訓練模型對比。

毋庸置疑,Llama 3 8B肯定是要超越Llama 2 7B,甚至碾壓了Llama 2 13B。

Llama 3 70B要比Llama 2 70B,尤其在推理(MMLU、ARC-Challenge)、AGIEval基準上上,實現(xiàn)了巨大提升。

指令微調(diào)版本比較,Llama 3 8B同樣超越了開源的Gemma 7B,以及Mistral 7B Instuct。

70B版本的Llama 3在推理(MMLU)、數(shù)學(GSM-8K)、甚至代碼(HumanEval)基準上,比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。

再來看看與自家Llama 2指令微調(diào)不同參數(shù)版本的性能對比。

Llama 3 8B與70B都要比相對同等參數(shù)的Llama 2,得到了很大的提升。

而在Llama 3的開發(fā)過程中,Meta不僅關(guān)注基準測試,還致力于優(yōu)化模型在真實場景中的表現(xiàn)。

為此,Meta開發(fā)了一個高質(zhì)量人工評估數(shù)據(jù)集,包含1,800個提示,這些提示了涵蓋了12個關(guān)鍵的應用場景,包括詢問建議、頭腦風暴、分類、選擇題、編碼、創(chuàng)意寫作、信息提取、角色扮演、開放性問答、邏輯推理、改寫和總結(jié)。

為了防止Llama 3在評估數(shù)據(jù)集上過擬合,建模團隊自己也無法訪問它。

人工評估結(jié)果顯示,Llama 3 70B的表現(xiàn)遠勝于Llama 2、GPT-3.5、Mistral Medium和Claude Sonnet。

大模型發(fā)展到如今,再要往哪里創(chuàng)新?

在整個項目中,Meta重點關(guān)注了四個關(guān)鍵要素:模型架構(gòu)、訓練數(shù)據(jù)、擴大訓練規(guī)模以及指令微調(diào)。

1. 128K token分詞器+GQA

在架構(gòu)上,Meta依然為Llama 3選擇了Transformer架構(gòu)。

這個架構(gòu)是相對標準的純解碼器Transformer,不過相比于Llama 2做了幾個關(guān)鍵改進。

比如,Llama 3使用了一個具有128K個token的分詞器,可以更有效地編碼語言,這就顯著提高了模型性能。

而為了提高Llama 3模型的推理速度,Meta在8B和70B兩種規(guī)模上都采用了分組查詢注意力(Grouped Query Attention,GQA)機制。

此外,Meta還在8,192個token的序列上訓練模型,并通過掩碼確保自注意力機制不會跨越文檔邊界。

2. 15萬億token訓練,7倍于Llama 2

同時,大型高質(zhì)量的訓練數(shù)據(jù)集也至關(guān)重要。

為了預訓練數(shù)據(jù),團隊投入了大量資源。

最終,Llama 3在超過15萬億個token上進行了預訓練,而這些token都是從公開可用的來源收集的。

它的訓練數(shù)據(jù)集比Llama 2的大7倍,并且包含4倍多的代碼。

為了應對多語言場景,Llama 3的預訓練數(shù)據(jù)集中有超過5%是高質(zhì)量的非英語數(shù)據(jù),涵蓋了30多種語言。

同時,為了讓訓練數(shù)據(jù)具有足夠高的質(zhì)量,Meta開發(fā)了一系列數(shù)據(jù)過濾管道。

這些管道包括使用了啟發(fā)式過濾器、NSFW過濾器、語義去重方法和文本分類器,用來預測數(shù)據(jù)質(zhì)量。

在這個過程中一個有意思的點就是——

前幾代的Llama 在識別高質(zhì)量數(shù)據(jù)方面居然出奇得好,因此,Meta使用Llama 2來生成了用于訓練Llama 3的文本質(zhì)量分類器的訓練數(shù)據(jù)。

此外,為了評估在最終的預訓練數(shù)據(jù)集中混合來自不同來源的數(shù)據(jù)的最佳方式,Meta還進行了大量實驗。

最終,Meta就能夠選擇一個數(shù)據(jù)組合,讓Llama 3在STEM、編碼、歷史知識等各種使用場景中,都能表現(xiàn)良好。

3. Scaling Law依舊是王道

為了有效利用預訓練數(shù)據(jù),團隊在擴大預訓練規(guī)模上,投入了大量精力。

針對下游基準評估,Meta開發(fā)了一系列詳細的縮放定律。這就保證團隊能夠選擇最佳的數(shù)據(jù)組合,同時最佳地利用訓練計算資源。

而縮放定律可以幫助團隊在實際訓練模型之前,預測最大模型在關(guān)鍵任務(wù)上的性能,這是至關(guān)重要的,因為這就能確保,模型在各種使用場景和能力方面,都有出色的表現(xiàn)。

在這個過程中,團隊對縮放行為觀察到了有了幾個有趣的新現(xiàn)象。

比如,雖然一個8B參數(shù)模型的Chinchilla最優(yōu)訓練計算量,對應于約2000億個token,但Meta發(fā)現(xiàn),即使在模型接受了兩個數(shù)量級以上的數(shù)據(jù)訓練后,模型性能仍在繼續(xù)提高!

而8B和70B參數(shù)的Llama 3在接受了高達15T個token的訓練后,繼續(xù)呈對數(shù)線性提高。

更大的模型可以用更少的訓練計算,來匹配這些較小模型的性能,不過,由于小模型在推理過程中的效率更高,因此反而更受青睞。

為了訓練最大的Llama 3模型,團隊結(jié)合了三種并行化方式:數(shù)據(jù)并行、模型并行和流水線并行。

由此,團隊達到了最高效的實現(xiàn):在同時使用16K個GPU訓練時,每個GPU的計算利用率超過了400 TFLOPS。

團隊在兩個定制的24K GPU集群上進行了訓練。為了最大限度地提高GPU正常運行時間,Meta還開發(fā)了一個先進的新訓練技術(shù)棧,可以自動進行錯誤檢測、處理和維護。

同時,Meta還大大提高了硬件可靠性和靜默數(shù)據(jù)損壞的檢測機制,開發(fā)了新的可擴展存儲系統(tǒng),減少了檢查點和回滾的開銷。

而這些改進,讓總體的有效訓練時間超過了95%。

和與Llama 2相比,這些改進直接讓Llama 3的訓練效率提高了大概三倍!

4. 創(chuàng)新指令微調(diào)

同時,團隊也對指令微調(diào)進行了創(chuàng)新。

Meta采用的后訓練方法,是監(jiān)督微調(diào)(SFT)、拒絕采樣、近端策略優(yōu)化(PPO)和直接策略優(yōu)化(DPO)的組合。

Meta發(fā)現(xiàn),在SFT中使用的提示和在PPO與DPO中使用的偏好排序,對對齊模型的性能的影響完全超出了預期。

Llama 3在性能上取得的最大改進,就是歸功于對這些數(shù)據(jù)的仔細策劃,并且對人類標注者提供的標準進行了多輪質(zhì)量保證。

而通過PPO和DPO從偏好排序中學習,Llama 3在推理和編碼任務(wù)上的性能也大大提高了。

如果問Llama 3一個很難回答的推理問題,它有時竟然能產(chǎn)生正確的推理過程。

這個過程中的難點在于,它知道如何得出正確答案,但不知道該如何選擇。但通過在偏好排序上進行訓練,就能讓模型學會如何選擇正確答案。

5. 更安全

在部署上,團隊采用了一種新的系統(tǒng)級方法。

Meta將Llama模型設(shè)想為一個更廣泛系統(tǒng)的一部分,讓開發(fā)者坐在駕駛座上。Llama模型將作為系統(tǒng)的基礎(chǔ)部分,開發(fā)者在設(shè)計時會考慮最終的目標。

在模型安全上,指令微調(diào)起了重要作用。

通過內(nèi)部和外部努力,團隊對指令微調(diào)模型進行了安全測試。

紅隊方法會利用人類專家和自動化方法來生成對抗性提示,試圖引發(fā)有問題的響應,比如化學、生物、網(wǎng)絡(luò)安全、其他風險領(lǐng)域相關(guān)的濫用風險。

在這個過程中,團隊讓Llama Guard模型,成為安全的基礎(chǔ),并且可以根據(jù)應用需求進行微調(diào)。

新的Llama Guard 2使用MLCommons 分類法。此外,CyberSecEval 2在其前作的基礎(chǔ)上進行了擴展,增加了評估LLM濫用代碼解釋器的傾向、攻擊性網(wǎng)絡(luò)安全能力和對提示注入攻擊的敏感性的措施。

最后,引入的Code Shield也增加了對生成的LLM不安全代碼的推理時過濾的支持。這樣就能降低不安全的代碼建議、代碼解釋器的濫用等。

另外,Meta還更新了負責任使用指南(RUG),建議根據(jù)適合應用的內(nèi)容指南,檢查和過濾所有輸入和輸出。

此外,云服務(wù)提供商也會提供內(nèi)容審核API等工具,鼓勵開發(fā)者進行負責任地部署。

三、網(wǎng)頁版Meta AI免登錄,即可聊

與此同時,今天Meta還放出了網(wǎng)頁版Meta AI,由最新Llama 3加持,號稱是全球頂尖的AI助手之一。

整個頁面UI設(shè)計非常簡潔,不僅可以對話,還支持生圖功能。

與ChatGPT-3.5免注冊登錄類似,與Meta AI聊天功能,進入網(wǎng)頁隨時隨地即可開啟,無需登錄。

傳送門:https://www.meta.ai/

不過,作圖的話,是個例外。

其實,Meta AI助手在去年的Connect大會上,小扎首次做了預告。

而現(xiàn)在,全世界更多的人可以通過前所未有的方式與之互動。

不僅僅在網(wǎng)頁上能聊,Meta AI還集成到了自家旗下社交應用中,比如Facebook、Ins、WhatsApp和Messenger。

接下來,一起感受下,Meta AI助手帶來的與眾不同的魅力吧。

想要組織周末短途旅行,卻來不及做出行計劃?不用擔心!

Meta AI首先會根據(jù)要求提出三個關(guān)于旅行問題,再去量身定制一份旅行清單!

– 目的地:您要去哪里?

– 持續(xù)時間:您將旅行多少天?

– 旅行類型:是海灘度假、城市探險、戶外探險還是其他?

又或是你在數(shù)學問題上苦苦掙扎?需要讓工作郵件顯得更專業(yè)?Meta AI都可以提供幫助!

甚至,你可以登錄以保存自己與Meta AI的對話,以供將來參考。

讓Llama 3畫一幅自畫像。

Ins、Facebook等APP無縫集成

正如前面所說,Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

這樣的優(yōu)勢在于,可以隨時訪問來自網(wǎng)絡(luò)的實時信息,無需在不同應用程序之間切換。
舉個栗子,假設(shè)你正在Messenger群聊中計劃一次滑雪之旅。

直接通過Messenger的搜索,可以讓Meta AI查找從紐約到科羅拉多的航班,并找出時間段人最少的周末去旅行——所有這些都無需跳出Messenger即可完成。

當你正在刷Facebook,看到一個感興趣的帖子,附有一張冰島北極光圖。

你可以直接問Meta AI,「一年中什么時候最適合觀賞極光」?

除了在網(wǎng)頁版,Meta AI的圖像功能還可以在WhatsApp中體驗。

當你在搜索框開始輸入prompt,便會看到一個浮現(xiàn)的圖像,會隨著你輸入的每幾個字而變化。

可以清晰看到,Meta AI如何將你的想象變?yōu)楝F(xiàn)實。

據(jù)介紹,Meta AI生成的圖像更加清晰、質(zhì)量更好,而且在圖像中融入文字的能力也得到了提升。

不論是專輯封面設(shè)計、婚禮指示牌、生日裝飾,還是服裝搭配靈感,Meta AI都可以生成相應的圖像,以前所未有的速度和質(zhì)量將你的想象變?yōu)楝F(xiàn)實。

它甚至會提供有用的提示和建議,提供改進圖像的思路,讓你可以在初始點的基礎(chǔ)上不斷迭代。

這還不是全部……

當你找到一張自己喜歡的圖片,可以讓Meta AI制作動畫,以新的風格對其進行改進,甚至將其轉(zhuǎn)化為GIF,與朋友分享。

可以看出,有了強大的Llama 3加持,Meta AI的表現(xiàn)比以往更要出色。

不久后,Meta AI即將在Quest頭顯中推出。

參考資料:

https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/

https://ai.meta.com/blog/meta-llama-3/

https://llama.meta.com/llama3/

編輯:編輯部

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!