一個(gè)大模型是如何被煉出來(lái)的

0 評(píng)論 1532 瀏覽 4 收藏 7 分鐘

大家日常都會(huì)接觸到不少大模型和AI工具,有考慮過(guò)他們是如何做的嗎?知道原理,對(duì)于我們使用大模型和調(diào)整方法很有幫助。

在大語(yǔ)言模型(Large Language Model,LLM)中,無(wú)監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個(gè)組成部分,也是訓(xùn)練一個(gè)大模型的三個(gè)基礎(chǔ)階段。他們各自扮演著不同的角色,并應(yīng)用于不同的訓(xùn)練階段和任務(wù)中。

第一步:無(wú)監(jiān)督學(xué)習(xí)階段

無(wú)監(jiān)督學(xué)習(xí)也就是模型的預(yù)訓(xùn)練階段,簡(jiǎn)單來(lái)說(shuō)就是給模型投喂大量大量的文本,進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練,這樣我們就會(huì)得到一個(gè)能夠進(jìn)行文本生成的基座。

在預(yù)訓(xùn)練中,需要大量的文本作為原料,讓模型從中學(xué)習(xí),比如gpt-3這個(gè)基座模型的訓(xùn)練數(shù)據(jù),就有非常多的互聯(lián)網(wǎng)文本語(yǔ)料庫(kù),包含有新聞、圖書(shū)和文獻(xiàn)、科學(xué)論文、特定領(lǐng)域的數(shù)據(jù)集、社交媒體和論壇等等。訓(xùn)練數(shù)據(jù)的整體規(guī)模有三千億的Token(具體什么是token我們將在下一個(gè)帖子中詳細(xì)解釋。先簡(jiǎn)單來(lái)理解的話就是基本文本單位)。

此時(shí)預(yù)訓(xùn)練的結(jié)束之后我們會(huì)得到一 個(gè)基座模型,而這個(gè)基座模型并不擅長(zhǎng)對(duì)話,你給他一個(gè)問(wèn)題,他可能模仿上文,幫你繼續(xù)生成更多的問(wèn)題,但并不回答你的問(wèn)題。這時(shí)我們開(kāi)始進(jìn)行第二步有監(jiān)督學(xué)習(xí)

第二步:有監(jiān)督學(xué)習(xí)階段

有了大量的訓(xùn)練文本之后,我們就要采用“有監(jiān)督學(xué)習(xí)”的方式,也就是通過(guò)一些人類(lèi)撰寫(xiě)的高質(zhì)量對(duì)話數(shù)據(jù),對(duì)基座模型進(jìn)行監(jiān)督微調(diào)。

微調(diào)就是在已有模型上做進(jìn)一步的訓(xùn)練,這個(gè)階段呢,我們需要給基座模型看更多的對(duì)話數(shù)據(jù),包括單輪的對(duì)話數(shù)據(jù)還有多輪對(duì)話的數(shù)據(jù)等,目的呢就是為了訓(xùn)練一個(gè)擅長(zhǎng)對(duì)話的AI助手。

微調(diào)的成本相比預(yù)訓(xùn)練要低很多,因?yàn)樾枰挠?xùn)練數(shù)據(jù)的規(guī)模相比較小,訓(xùn)練時(shí)長(zhǎng)更短,在這一階段里,模型不需要從海量文本中學(xué)習(xí)了,而是從一些人類(lèi)寫(xiě)的專(zhuān)業(yè)且高質(zhì)量的對(duì)話里學(xué)習(xí)(在這個(gè)階段就產(chǎn)生了一個(gè)職業(yè)叫做AI訓(xùn)練師或者數(shù)據(jù)標(biāo)注員,這個(gè)我們后邊的帖子在慢慢細(xì)聊),這相當(dāng)于既給了模型問(wèn)題,也給了模型我們?nèi)祟?lèi)中意的回答,屬于監(jiān)督學(xué)習(xí)了。

這個(gè)過(guò)程被叫做監(jiān)督微調(diào)(Supervised Fine-Tuning)簡(jiǎn)稱:SFT。

完成后會(huì)得到一個(gè)SFT模型。

第三步:強(qiáng)化學(xué)習(xí)階段

在強(qiáng)化學(xué)習(xí)階段,模型進(jìn)一步優(yōu)化以提升在實(shí)際應(yīng)用中的表現(xiàn),從而模型能夠自主的學(xué)習(xí)。

這個(gè)階段主要包含一下兩個(gè)步驟:

a. 人類(lèi)反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)

這個(gè)部分包含:人類(lèi)評(píng)價(jià)、獎(jiǎng)勵(lì)模型(Reward Model)、策略優(yōu)化

b. 反饋和調(diào)整

通過(guò)多次迭代的反饋和調(diào)整,模型逐漸學(xué)會(huì)生成更高質(zhì)量的響應(yīng)。這一過(guò)程通常涉及反復(fù)的生成、評(píng)估、調(diào)整和優(yōu)化。

這些都相對(duì)比較好理解,但我重點(diǎn)要說(shuō)的是獎(jiǎng)勵(lì)模型(Reward Model)

要讓一個(gè)模型,能乖乖當(dāng)一個(gè)樂(lè)于助人的AI助手,我們可以讓模型對(duì)問(wèn)題做出回答,然后讓人類(lèi)評(píng)測(cè)人員去給回答打分,打分的標(biāo)準(zhǔn)主要是基于3H原則(幫助性、真實(shí)性、無(wú)害性)

  • 幫助性-helpful:模型的輸出應(yīng)該對(duì)用戶有實(shí)際幫助,能夠解決用戶的問(wèn)題或滿足用戶的需求。
  • 真實(shí)性-honest:模型的輸出應(yīng)該真實(shí)可靠,不應(yīng)捏造事實(shí)或誤導(dǎo)用戶。
  • 無(wú)害性-harmless:判斷模型的輸出是否適當(dāng)、是否包含偏見(jiàn)有害性信息等內(nèi)容

如果打分高的話,模型能學(xué)習(xí)到要再接再厲,如果打分低的話,模型就學(xué)習(xí)到要予以改進(jìn)。

但是靠人類(lèi)給回答一個(gè)個(gè)打分,成本極高、效率極低。所以我們要訓(xùn)練出另一個(gè)模型,讓模型給模型打分。在這一步里,需要訓(xùn)練一個(gè)reward獎(jiǎng)勵(lì)模型。他是從回答以及回答對(duì)應(yīng)的評(píng)分里進(jìn)行學(xué)習(xí)的。

模型得到評(píng)分?jǐn)?shù)據(jù)的方式是:我們會(huì)使用不同模型構(gòu)造同一問(wèn)題下不同的回答,然后讓人類(lèi)標(biāo)注員對(duì)回答質(zhì)量進(jìn)行比較排序,還有部分情況下是由人工補(bǔ)充滿分的答案。讓模型知道哪個(gè)答案是最好的。

雖然還是免不了要借助人類(lèi)的勞動(dòng)。但一旦有了足夠的排序數(shù)據(jù),就可以把數(shù)據(jù)用在訓(xùn)練獎(jiǎng)勵(lì)模型上。讓獎(jiǎng)勵(lì)模型學(xué)習(xí)預(yù)測(cè)回答的評(píng)分。

獎(jiǎng)勵(lì)模型訓(xùn)練出來(lái)后,就可以用在強(qiáng)化學(xué)習(xí)上了,強(qiáng)化學(xué)習(xí)里,大模型的最初參數(shù)來(lái)自之前得到的SFT模型,但會(huì)隨著訓(xùn)練被更新,獎(jiǎng)勵(lì)模型的參數(shù)則不會(huì)再被更新,他的任務(wù)就是對(duì)模型生成的內(nèi)容打分,經(jīng)過(guò)一輪又一輪迭代后,模型會(huì)不斷優(yōu)化策略,回答的質(zhì)量也就會(huì)進(jìn)一步提升。

最后這樣一個(gè)大模型就在不斷學(xué)習(xí)中煉成了。??

本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!