深度理解:OpenAI最新發(fā)布的“強化微調(diào)”
今天主要分享一下OpenAl發(fā)布會第二天發(fā)布的核心內(nèi)容"強化微調(diào)”,為什么奧特曼會覺得這是一項驚喜技術(shù),為了深入了理解它,我周末花了一天的時間深入的去研究它,本文分享一下我的研究結(jié)果!
個人對OpenAI發(fā)布“強化微調(diào)”的感受:
OpenAI發(fā)布會第二天發(fā)布的內(nèi)容依然沒有推出全新的模型,仍舊是在原有的技術(shù)體系下推出升級的內(nèi)容,說實話網(wǎng)上罵聲一片都是痛批“這是什么玩意的?”,基本都是營銷人而不是開發(fā)者,他們要的是營銷噱頭,根本不管推出的東西有沒有用,而作為AI應(yīng)用開發(fā)者而言,反而覺得能推出一些立刻應(yīng)用于應(yīng)用研發(fā)的能力更加實在,像Sora這種噱頭性的東西,于我們這些創(chuàng)業(yè)者而言完全沒有意義,所以個人反而覺得,OpenAI第二天推出“強化微調(diào)”這個能力,雖然沒有太多的驚喜,但是更加實在;
一、強化微調(diào)是什么,和傳統(tǒng)SFT有什么區(qū)別?
1. 從實現(xiàn)方法上看
SFT是通過提供人工標(biāo)注數(shù)據(jù)(例如正確的輸入-輸出對),告訴模型什么才是正確的答案,然后讓模型學(xué)會模仿這些答案,做出正確的回答;
而RFT是把傳統(tǒng)的SFT+獎勵模型+強化學(xué)習(xí)這三個環(huán)節(jié)整合在一起,在一套閉環(huán)的流程里面完成三者的運行,并且該流程是自動運行的,它的作用,就是可以自動的優(yōu)化基礎(chǔ)模型,讓模型越來越聰明,回答的效果越來越好;
RFT能夠讓模型和回答結(jié)果越來越好的原理是“它讓SFT+獎勵模型+強化學(xué)習(xí)這個優(yōu)化模型和生成結(jié)果的機制能夠不停的運轉(zhuǎn)”;
首先我們提供一部分“正確答案”的數(shù)據(jù)讓模型完成SFT從而能回答正確的答案;之后,該流程會根據(jù)人工提供的、或者系統(tǒng)實時收集的反饋數(shù)據(jù)(比如生成結(jié)果的評分數(shù)據(jù))訓(xùn)練一個獎勵模型(一個評分模型,用于對生成結(jié)果打分),并且這個模型會隨著反饋數(shù)據(jù)的動態(tài)更新自動的優(yōu)化評分函數(shù)和評分能力,并通過這個獎勵模型,優(yōu)化基礎(chǔ)模型,讓基礎(chǔ)模型越來也好;并且這整個閉環(huán)是循環(huán)自動完成的,因為這套循環(huán)機制,從而讓生成結(jié)果越來越好;
RFT看起來像是把之前的“SFT+獎勵模型+強化學(xué)習(xí)”這三個合并一下然后重新包裝一下,實際上還是有些不同,具體看下一部分的內(nèi)容,簡單講:
RFT=自動化運行且動態(tài)更新的“SFT+獎勵模型+強化學(xué)習(xí)”
2.本質(zhì)差異
SFT不會動態(tài)的迭代和優(yōu)化基礎(chǔ)模型,只是讓模型模仿一部分正確的答案然后做出回答;RFT則會動態(tài)的迭代和優(yōu)化基礎(chǔ)模型,并且會動態(tài)迭代正確答案以便持續(xù)的完成SFT的過程,同時還會動態(tài)的優(yōu)化獎勵模型,從而讓獎勵模型越來越好,進而用獎勵模型優(yōu)化基礎(chǔ)模型;整個過程,基礎(chǔ)模型慢慢的掌握回答正確答案的方法,越來越聰明,相比SFT只是模仿作答有明顯的差異;
3.需要的數(shù)據(jù)量
需要大量的人工標(biāo)注數(shù)據(jù),并且SFT的效果,依賴數(shù)據(jù)規(guī)模;而RFT只需要少量的微調(diào)數(shù)據(jù),然后利用RFT動態(tài)優(yōu)化模型的機制,就可以讓模型變強大;
二、強化微調(diào)和傳統(tǒng)的”SFT+獎勵模型+強化學(xué)習(xí)RLHF“有什么區(qū)別?
SFT+獎勵模型+強化學(xué)習(xí)RLHF 這一套機制已經(jīng)不是什么新鮮玩意了,所以當(dāng)看到RFT其實就是把三者合并在一起這個觀點的時候會以為這僅僅是簡單做了一個合并然后重新包裝一個概念出來,事實上并不完全如此,如果僅僅是這樣的話,根本無法實現(xiàn)推理效果變得更好,認真研究了一下其中的差異,具體如下,為了方便理解,我整理了兩個邏輯圖如下:
1. 傳統(tǒng)的SFT+獎勵模型+強化學(xué)習(xí) 的工作原理
1.SFT:通過提供人工標(biāo)注數(shù)據(jù)(例如正確的輸入-輸出對),告訴基礎(chǔ)模型什么才是正確的答案,然后讓模型學(xué)會模仿這些答案,做出正確的回答;
2.獎勵模型:通過提供對生成結(jié)果的反饋數(shù)據(jù)(比如多個生成結(jié)果的評分和排序數(shù)據(jù)),訓(xùn)練一個評分模型,用于對模型生成的多個結(jié)果進行評分,獎勵模型本質(zhì)上也是一個小一點的模型,它可以是基于大模型訓(xùn)練的模型,也可以是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型;獎勵模型的核心包括2部分內(nèi)容:
①評分函數(shù):包括多個對生成結(jié)果評分的維度,比如生成結(jié)果的準(zhǔn)確性、簡易性、專業(yè)度等等,然后構(gòu)建一個評分函數(shù);
②反饋數(shù)據(jù):人工或者機器對生成結(jié)果做反饋和評分的數(shù)據(jù),用于訓(xùn)練評分模型
3.強化學(xué)習(xí):獎勵模型對模型初始生成的多個結(jié)果做評分后,將這些評分結(jié)果提供給基礎(chǔ)模型,然后基于強化學(xué)習(xí)算法,調(diào)整基礎(chǔ)模型的參數(shù),讓模型根據(jù)評分結(jié)果調(diào)整生成的策略,這個過程中,模型可能會了解評分結(jié)果中哪些維度得分低,哪些維度得分高,從而嘗試生成更好的結(jié)果;
2. SFT+獎勵模型+強化學(xué)習(xí) 運行的過程
基礎(chǔ)模型結(jié)合人工標(biāo)注數(shù)據(jù)之后,微調(diào)一個模型出來,用于生成回答結(jié)果,這時模型生成的結(jié)果可能有ABCD多個;
獎勵模型對多個生成結(jié)果進行評分,評估生成結(jié)果的得分,如果其中最高的得分已經(jīng)達到了優(yōu)秀結(jié)果的標(biāo)準(zhǔn)(標(biāo)準(zhǔn)可以是人工或者算法制定),則直接輸出最高得分的結(jié)果;如果生成結(jié)果不行,則啟動強化學(xué)習(xí);
通過強化學(xué)習(xí)算法,模型基于評分結(jié)果進一步的調(diào)整模型,讓模型嘗試生成更好的結(jié)果,并循環(huán)整個過程,知道輸出滿意的結(jié)果;
3. SFT+獎勵模型+強化學(xué)習(xí)存在的問題
- SFT階段:需要整理大量的人工標(biāo)注數(shù)據(jù),成本比較高,并且每次迭代都需要更新數(shù)據(jù),整個過程是離線進行的;
- 獎勵模型階段:獎勵模型的評分函數(shù)不能動態(tài)更新,每次更新都需要離線進行,并且反饋數(shù)據(jù)也是離線的,無法實時的更新反饋數(shù)據(jù);
- 基礎(chǔ)模型優(yōu)化階段:基礎(chǔ)模型的優(yōu)化也是離線的,無法自動優(yōu)化基礎(chǔ)模型;
4. RFT與SFT+獎勵模型+強化學(xué)習(xí)的區(qū)別
- SFT階段:動態(tài)的獲取評分比較高的結(jié)果用于做微調(diào)數(shù)據(jù),持續(xù)的調(diào)整SFT的效果;
- 獎勵模型階段:獎勵模型的評分函數(shù)自動優(yōu)化和調(diào)整,反饋數(shù)據(jù)動態(tài)更新;
- 基礎(chǔ)模型優(yōu)化階段:動態(tài)的獲取獎勵模型的評估結(jié)果,通過強化模型,動態(tài)的優(yōu)化基礎(chǔ)模型
- 以上的整個過程,都是自動完成,并且動態(tài)的更新;
三、奧特曼為什么要強調(diào)這個更新點,為何模型的迭代方向是重視微調(diào)環(huán)節(jié)
1. 微調(diào)技術(shù)有利于讓開發(fā)者更好的利用現(xiàn)有的模型能力
當(dāng)下的模型事實上還沒有真正的被充分的利用,現(xiàn)在市場對于現(xiàn)有模型能力都還沒有消化完,持續(xù)的推出新的能力對于應(yīng)用的落地并沒有太大的幫助,所以預(yù)期持續(xù)的推出很多信息量很大的新的東西,不如首先先把現(xiàn)有的模型能力利用好,而提供更好的模型訓(xùn)練和微調(diào)的能力,有利于幫助開發(fā)者更好的利用現(xiàn)有的模型開發(fā)出更好的應(yīng)用;
2. 微調(diào)技術(shù)有利于幫助開發(fā)者更好的將大模型落地于應(yīng)用場景
大模型的落地需要結(jié)合場景,將大模型應(yīng)用到具體的應(yīng)用場景的核心,就是微調(diào)技術(shù)
四、強化微調(diào)模型怎么使用?
目前通過OpenAI官網(wǎng)創(chuàng)建微調(diào)模型,并上傳微調(diào)數(shù)據(jù),就可以通過強化微調(diào)微調(diào)一個模型,操作還是相對比較簡單的;目前可以基于O1和GPT4o做強化微調(diào),兩者在價格和能力上有明顯差別;
五、強化微調(diào)會帶來什么改變?
1. 開發(fā)者可以投入更少的成本,微調(diào)獲得一個更強大的模型;
如前面提到了,開發(fā)者只需要上傳少量的數(shù)據(jù),就可以完成微調(diào),這可以極大的降低開發(fā)者微調(diào)模型的成本,提高微調(diào)的效率,并且根據(jù)官方發(fā)表的觀點,通過微調(diào)后的O1,運行效果甚至可以超過O1完整版和O1-mini,這讓大模型的微調(diào)成本進一步的下降,普通創(chuàng)業(yè)者也能輕松的微調(diào)模型;
2. 開發(fā)者可以更好的將大模型應(yīng)用于具體的場景;
大模型的場景化應(yīng)用邏輯,依賴模型微調(diào),微調(diào)門檻的下降,意味著開發(fā)者可以更加輕松的實現(xiàn)AI應(yīng)用的落地并提升應(yīng)用的效果;
六、強化微調(diào)對于企業(yè)的應(yīng)用有哪些?
以我的創(chuàng)業(yè)產(chǎn)品AI快研俠(kuaiyanai.com)的業(yè)務(wù)為例,強化微調(diào)的好處,可能是能夠讓我們能夠基于可以整理的數(shù)據(jù),快速的微調(diào)一個用于研報生成的模型,從而提升研報的生成的效果;
不過目前海外的模型使用不了的情況下,只能依賴國內(nèi)的模型也能盡快實現(xiàn)該能力,還是希望國內(nèi)大模型廠商們能加油,盡快追趕上海外的技術(shù),造福我等創(chuàng)業(yè)者;
七、我的一些思考
1)從當(dāng)下模型的發(fā)展方向的角度上,大模型的迭代路徑依然集中在如下幾個方向:
- 解決數(shù)學(xué)計算、編程、科學(xué)方面的問題上,這三者代表了模型的智能程度,從OpenAI最新發(fā)布O1完整版能力,可以看到這點,
- 支持更強大的多模態(tài)能力:提升多模態(tài)大模型的能力,Day1發(fā)布會的時候,現(xiàn)場演示了拍攝一個手繪圖,就能計算復(fù)雜的問題,除了體現(xiàn)計算能力,也在體現(xiàn)多模態(tài)的能力;
- 提升思考能力:增強以思維鏈為代表的,自我學(xué)習(xí)和自我思考的能力;
- 降低訓(xùn)練和微調(diào)的難度:讓開發(fā)者可以更輕松的完成模型的訓(xùn)練和微調(diào);
2)當(dāng)下提升模型的能力的重點,除了模型架構(gòu)的優(yōu)化,其次可能術(shù)、微調(diào)技術(shù)
我們可以看到之前從GPT3.5到GPT4,其中模型能力的迭代關(guān)鍵可能在于模型的架構(gòu),現(xiàn)在模型的架構(gòu)的邊際優(yōu)化提升可能比較低了,接下來可能重點在于訓(xùn)練技術(shù),其中強化學(xué)習(xí)可能是提升模型能力的關(guān)鍵手段,因此國內(nèi)的模型應(yīng)該會重點聚焦在強化學(xué)習(xí)的能力提升上;還是在訓(xùn)練技
還是比較期待接下來10天,OpenAI發(fā)布會的內(nèi)容,或許還有很多壓艙底的黑科技還沒有釋放出來,我會在接下來針對每天發(fā)布會的內(nèi)容輸出一些個人的認知和思考。
作者:三白有話說,公眾號:三白有話說
本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!