亚洲中文字幕超麻，亚洲国产成人AⅤ片在线观看，日韩熟妇啪啪无码视频精品，国产精品国产精品一区，亚洲人成日本在线观看，亚洲亚洲人成无码网，国产亚洲成AV在线下载，东京热无码中文字幕电影

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

訓(xùn)練LLMs的過程就像寫教科書

Timjune

2025-02-05

0 評論 422 瀏覽 1 收藏

7 分鐘

大模型都是通過數(shù)據(jù)進(jìn)行訓(xùn)練的，對不懂的人來說，以為大模型的訓(xùn)練過程很神秘。其實不然，作者的觀點是：其實就和寫教科書一樣，有背景、例題和練習(xí)題。這篇文章，我們就來學(xué)習(xí)一下。

看到推上Karpathy的比喻真的有趣且非常貼切。他把大語言模型（LLMs）的訓(xùn)練過程比作學(xué)生學(xué)習(xí)的過程，而訓(xùn)練數(shù)據(jù)就像一本教科書。

為了讓模型更像有智慧的學(xué)生，我們需要給它提供三種不同類型的信息，分別對應(yīng)教科書中的不同部分：背景信息、帶解答的例題、以及練習(xí)題。下面我們用簡單易懂的方式逐步拆解這個觀點。

souce：https://x.com/karpathy/status/1885026028428681698

一】背景信息/講解性內(nèi)容（Background information / Exposition）

是什么？

這是教科書的核心部分，主要以解釋概念、理論和背景知識為主。例如，數(shù)學(xué)教科書會先解釋什么是“微積分”，它的定義、用途，以及相關(guān)公式。這部分的目的是讓學(xué)生了解基礎(chǔ)知識，并建立對主題的總體理解。

對應(yīng)LLM的什么？

這是模型的【預(yù)訓(xùn)練階段（Pretraining）】。在這個階段，模型會讀取大量的互聯(lián)網(wǎng)數(shù)據(jù)（比如維基百科、新聞文章、書籍等），以此積累“背景知識”。就像我們學(xué)生時代在學(xué)習(xí)新學(xué)科時先看書了解基礎(chǔ)內(nèi)容一樣，模型通過預(yù)訓(xùn)練掌握了自然語言的廣泛知識。

為什么重要？

沒有背景知識，就無法理解更復(fù)雜的內(nèi)容。例如，如果學(xué)生從來沒聽說過“微積分”，即使給他再多的例題，他的學(xué)習(xí)也會事倍功半。同樣，對于LLMs來說，預(yù)訓(xùn)練階段的背景信息是理解和生成語言的基礎(chǔ)。

二、帶解答的例解（Worked Problems with Solutions）

是什么？

這是教科書中帶有詳細(xì)解答的例題。比如，教科書會先展示一個數(shù)學(xué)問題，然后一步步講解如何解答。這些例題是專家的示范，告訴學(xué)生正確的思路和方法。

對應(yīng)LLM的什么？

這是模型的【監(jiān)督微調(diào)（Supervised Fine-tuning）】階段。在這一階段，專家提供“參考答案”，并教會模型如何在特定情境下生成理想的回答。例如，給模型一個問題：“如何寫一封禮貌的商業(yè)郵件？” 然后訓(xùn)練數(shù)據(jù)里會有一個高質(zhì)量、經(jīng)過精心編寫的參考答案。

為什么重要？

有了背景知識，學(xué)生依然需要看到“如何實際運用這些知識”的示范。通過觀察專家的解題過程，學(xué)生可以模仿并內(nèi)化這些思路。同樣，LLMs通過監(jiān)督微調(diào)學(xué)習(xí)人類語言的優(yōu)雅表達(dá)和邏輯推理。

三、練習(xí)題（Practice Problems）

是什么？

這是最后一章參考答案寫著「略」的練習(xí)題，通常只有問題和最終答案。例如，“求以下函數(shù)的導(dǎo)數(shù)”，后面只提供答案“f'(x) = 2x”。學(xué)生需要通過自己的嘗試，用學(xué)到的方法解答這些問題。

對應(yīng)LLM的什么？

這是模型的【強化學(xué)習(xí)（Reinforcement Learning）】階段。在這個階段，模型不再依賴人類直接提供的“標(biāo)準(zhǔn)解答”，而是通過反復(fù)嘗試生成答案，并根據(jù)反饋（獎勵或懲罰）調(diào)整它的行為。比如，在RLHF（通過人類反饋的強化學(xué)習(xí)）中，模型生成答案后，反饋系統(tǒng)會告訴它回答得好不好，模型通過這種反饋機制不斷改進(jìn)。

為什么重要？

學(xué)生只有通過練習(xí)，才能真正掌握知識，發(fā)現(xiàn)自己的錯誤并改進(jìn)。同樣，模型也需要通過試錯來優(yōu)化生成的答案質(zhì)量。如果只給示范而沒有練習(xí)，學(xué)生和模型都會停留在被動學(xué)習(xí)的階段，無法主動解決問題。

四、為什么第3點（練習(xí)題）是新興的前沿？

Karpathy指出，我們已經(jīng)在第1點（預(yù)訓(xùn)練）和第2點（微調(diào)）上投入了大量精力，但第3點（強化學(xué)習(xí)）還處于初步發(fā)展階段，被認(rèn)為是LLMs訓(xùn)練的下一個重要方向。

對于學(xué)生來說，練習(xí)題通常是最耗時但也是最有效的學(xué)習(xí)方式。沒有足夠的練習(xí)，學(xué)生可能會覺得自己懂了，但實際上并沒有真正掌握。
對于LLMs來說，強化學(xué)習(xí)可以讓模型在復(fù)雜或開放性任務(wù)上進(jìn)一步提升能力，而不僅僅是機械地模仿人類的回答。