訓(xùn)練LLMs的過程就像寫教科書

0 評論 422 瀏覽 1 收藏 7 分鐘

大模型都是通過數(shù)據(jù)進(jìn)行訓(xùn)練的,對不懂的人來說,以為大模型的訓(xùn)練過程很神秘。其實不然,作者的觀點是:其實就和寫教科書一樣,有背景、例題和練習(xí)題。這篇文章,我們就來學(xué)習(xí)一下。

看到推上Karpathy的比喻真的有趣且非常貼切。他把大語言模型(LLMs)的訓(xùn)練過程比作學(xué)生學(xué)習(xí)的過程,而訓(xùn)練數(shù)據(jù)就像一本教科書。

為了讓模型更像有智慧的學(xué)生,我們需要給它提供三種不同類型的信息,分別對應(yīng)教科書中的不同部分:背景信息、帶解答的例題、以及練習(xí)題。下面我們用簡單易懂的方式逐步拆解這個觀點。

souce:https://x.com/karpathy/status/1885026028428681698

一】背景信息/講解性內(nèi)容(Background information / Exposition)

是什么?

這是教科書的核心部分,主要以解釋概念、理論和背景知識為主。例如,數(shù)學(xué)教科書會先解釋什么是“微積分”,它的定義、用途,以及相關(guān)公式。這部分的目的是讓學(xué)生了解基礎(chǔ)知識,并建立對主題的總體理解。

對應(yīng)LLM的什么?

這是模型的【預(yù)訓(xùn)練階段(Pretraining)】。在這個階段,模型會讀取大量的互聯(lián)網(wǎng)數(shù)據(jù)(比如維基百科、新聞文章、書籍等),以此積累“背景知識”。就像我們學(xué)生時代在學(xué)習(xí)新學(xué)科時先看書了解基礎(chǔ)內(nèi)容一樣,模型通過預(yù)訓(xùn)練掌握了自然語言的廣泛知識。

為什么重要?

沒有背景知識,就無法理解更復(fù)雜的內(nèi)容。例如,如果學(xué)生從來沒聽說過“微積分”,即使給他再多的例題,他的學(xué)習(xí)也會事倍功半。同樣,對于LLMs來說,預(yù)訓(xùn)練階段的背景信息是理解和生成語言的基礎(chǔ)。

二、帶解答的例解(Worked Problems with Solutions)

是什么?

這是教科書中帶有詳細(xì)解答的例題。比如,教科書會先展示一個數(shù)學(xué)問題,然后一步步講解如何解答。這些例題是專家的示范,告訴學(xué)生正確的思路和方法。

對應(yīng)LLM的什么?

這是模型的【監(jiān)督微調(diào)(Supervised Fine-tuning)】階段。在這一階段,專家提供“參考答案”,并教會模型如何在特定情境下生成理想的回答。例如,給模型一個問題:“如何寫一封禮貌的商業(yè)郵件?” 然后訓(xùn)練數(shù)據(jù)里會有一個高質(zhì)量、經(jīng)過精心編寫的參考答案。

為什么重要?

有了背景知識,學(xué)生依然需要看到“如何實際運用這些知識”的示范。通過觀察專家的解題過程,學(xué)生可以模仿并內(nèi)化這些思路。同樣,LLMs通過監(jiān)督微調(diào)學(xué)習(xí)人類語言的優(yōu)雅表達(dá)和邏輯推理。

三、練習(xí)題(Practice Problems)

是什么?

這是最后一章參考答案寫著「略」的練習(xí)題,通常只有問題和最終答案。例如,“求以下函數(shù)的導(dǎo)數(shù)”,后面只提供答案“f'(x) = 2x”。學(xué)生需要通過自己的嘗試,用學(xué)到的方法解答這些問題。

對應(yīng)LLM的什么?

這是模型的【強化學(xué)習(xí)(Reinforcement Learning)】階段。在這個階段,模型不再依賴人類直接提供的“標(biāo)準(zhǔn)解答”,而是通過反復(fù)嘗試生成答案,并根據(jù)反饋(獎勵或懲罰)調(diào)整它的行為。比如,在RLHF(通過人類反饋的強化學(xué)習(xí))中,模型生成答案后,反饋系統(tǒng)會告訴它回答得好不好,模型通過這種反饋機制不斷改進(jìn)。

為什么重要?

學(xué)生只有通過練習(xí),才能真正掌握知識,發(fā)現(xiàn)自己的錯誤并改進(jìn)。同樣,模型也需要通過試錯來優(yōu)化生成的答案質(zhì)量。如果只給示范而沒有練習(xí),學(xué)生和模型都會停留在被動學(xué)習(xí)的階段,無法主動解決問題。

四、為什么第3點(練習(xí)題)是新興的前沿?

Karpathy指出,我們已經(jīng)在第1點(預(yù)訓(xùn)練)和第2點(微調(diào))上投入了大量精力,但第3點(強化學(xué)習(xí))還處于初步發(fā)展階段,被認(rèn)為是LLMs訓(xùn)練的下一個重要方向。

  • 對于學(xué)生來說,練習(xí)題通常是最耗時但也是最有效的學(xué)習(xí)方式。沒有足夠的練習(xí),學(xué)生可能會覺得自己懂了,但實際上并沒有真正掌握。
  • 對于LLMs來說,強化學(xué)習(xí)可以讓模型在復(fù)雜或開放性任務(wù)上進(jìn)一步提升能力,而不僅僅是機械地模仿人類的回答。

五、總結(jié):如何給LLMs“寫教科書”?

Karpathy的核心觀點是:訓(xùn)練LLMs的過程就像寫教科書,我們需要同時包含三種數(shù)據(jù):

  1. 背景知識(預(yù)訓(xùn)練):讓模型了解世界的基本規(guī)則和概念。
  2. 示范解題(監(jiān)督微調(diào)):教模型如何生成高質(zhì)量的答案。
  3. 練習(xí)題(強化學(xué)習(xí)):通過試錯讓模型學(xué)會主動解決問題。(接下來的重要方向)

這種分層學(xué)習(xí)方法不僅對學(xué)生有效,對LLMs也同樣適用。通過這種“教育方式”,我們可以培養(yǎng)出更智能、更靈活的模型,真正像一個優(yōu)秀的學(xué)生一樣,不僅能夠理解知識,還能運用知識解決實際問題。

本文由 @Timjune 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!