OpenAI 的神秘項(xiàng)目 Q* 與通往 AGI 的一小步
?最近這些天,OpenAI 的神秘項(xiàng)目 Q* 引發(fā)了許多人的關(guān)注,因?yàn)檫@個(gè)項(xiàng)目可能意味著實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵突破。這篇文章里,作者就對 Q* 做了猜測與解讀,一起來看看本文的分享。
故事要從 11 月 23 日的感恩節(jié)前夕說起,路透社發(fā)文報(bào)道稱 OpenAI 的幾名研究員給董事會(huì)寫了一封信提示一個(gè)強(qiáng)大的人工智能發(fā)現(xiàn)可能會(huì)威脅人類,這可能是奧特曼被解雇的重要原因。
隨后 OpenAI 在發(fā)給員工的內(nèi)部消息中承認(rèn)有一個(gè)名為 Q* 的項(xiàng)目,在擁有大量計(jì)算資源的情況下,它能夠解決某些數(shù)學(xué)問題。只有一個(gè)名字,沒有論文,沒有產(chǎn)品,Jim Fan 說在他做 AI 的十年里還沒有見過一個(gè)算法能讓這么多人好奇。
雖然 Q* 的數(shù)學(xué)能力據(jù)悉只有小學(xué)生的水平,但它標(biāo)志著 LLM 推理能力的增強(qiáng)和幻覺問題的處理,是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵突破。目前沒有官方解釋 Q* 究竟是什么,但 Nathan Lambert 和 Jim Fan 等技術(shù)大 V 給出了最靠譜的假設(shè),也是對于如何進(jìn)一步提升模型推理能力的方法猜想,解讀如下。
Let’s learn step by step.
Sense 思考
我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。
Q* 與傳統(tǒng)大語言模型的區(qū)別:現(xiàn)有模型很難在所訓(xùn)練的數(shù)據(jù)之外進(jìn)行泛化,展現(xiàn)出的邏輯推理能力更像是“直覺”,而 Q* 似乎把 Q 學(xué)習(xí)與 A 搜索模型結(jié)合,將基于經(jīng)驗(yàn)的知識和事實(shí)推理結(jié)合,實(shí)現(xiàn)真正的推理能力、解決幻覺問題。
Q* 的技術(shù)路線猜測:自我對弈+思維樹推理+過程獎(jiǎng)勵(lì)+合成數(shù)據(jù)增強(qiáng)。使用過程獎(jiǎng)勵(lì)模型(PRM)對思維樹推理過程結(jié)果進(jìn)行評分,然后使用離線強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。
過程獎(jiǎng)勵(lì)模型依賴龐大的數(shù)據(jù),即對每個(gè)中間步驟打分。僅靠模仿人類數(shù)據(jù),人工智能無法成為“超人”。AI 合成數(shù)據(jù)是增強(qiáng)數(shù)據(jù)集的方式之一,但對于其生成數(shù)據(jù)質(zhì)量和可擴(kuò)展程度還有待驗(yàn)證。
一、重溫 AlphaGo
要理解搜索與學(xué)習(xí)算法之間的強(qiáng)強(qiáng)聯(lián)手,我們需要回到 2016 年,重溫人工智能歷史上的輝煌時(shí)刻 AlphaGo。
它有 4 個(gè)關(guān)鍵要素:
- 策略 NN(學(xué)習(xí)):負(fù)責(zé)選擇好的棋步。它能估算出每一步棋獲勝的概率。
- 價(jià)值 NN(學(xué)習(xí)):評估棋盤并預(yù)測圍棋中任何給定可行局面的勝負(fù)。
- MCTS(搜索):蒙特卡羅樹搜索。它使用策略 NN 模擬從當(dāng)前位置出發(fā)的許多可能的走棋順序,然后匯總這些模擬的結(jié)果,決定最有希望的走棋。這是 “慢思考 “部分,與 LLM 的快速標(biāo)記采樣形成鮮明對比。
- 驅(qū)動(dòng)整個(gè)系統(tǒng)的地面實(shí)況信號(Groundtruth signal)。在圍棋中,它就像二進(jìn)制標(biāo)簽 “誰贏了 “一樣簡單,由一套既定的游戲規(guī)則決定??梢园阉醋魇蔷S持學(xué)習(xí)進(jìn)度的能量源。
那么上面四個(gè)部分如何協(xié)同?
AlphaGo 進(jìn)行自我對弈,即與自己的舊檢查點(diǎn)對弈。隨著自我對弈的繼續(xù),”策略網(wǎng)絡(luò)”(Policy NN)和 “價(jià)值網(wǎng)絡(luò)”(Value NN)都會(huì)得到迭代改進(jìn):隨著策略在選擇棋步方面變得越來越好,”價(jià)值網(wǎng)絡(luò)”(Value NN)也會(huì)獲得更好的數(shù)據(jù)來進(jìn)行學(xué)習(xí),進(jìn)而為策略提供更好的反饋。更強(qiáng)的策略也有助于 MCTS 探索更好的策略。
這就完成了一個(gè)巧妙的“永動(dòng)機(jī)”。通過這種方式,AlphaGo 能夠引導(dǎo)自己的能力,并在 2016 年以 4 比 1 的比分擊敗人類世界冠軍李世石。
僅靠模仿人類數(shù)據(jù),人工智能無法成為“超人”。
二、Q* 的合理猜測
僅憑一個(gè)項(xiàng)目的名稱,就能引發(fā)如此廣泛的猜測,這還是第一次。不過,這個(gè)簡單的名字可能并不僅僅是《沙丘》宇宙中的另一個(gè)代號。
核心結(jié)論:Jim Fan 認(rèn)為 Q* 包括下面四個(gè)組成部分。與 AlphaGo 一樣,”策略 LLM “和 “價(jià)值 LLM “可以相互迭代改進(jìn),并隨時(shí)從人類專家的注釋中學(xué)習(xí)。更好的策略 LLM 將幫助思維樹搜索探索更好的策略,進(jìn)而為下一輪收集更好的數(shù)據(jù)。
- 策略 NN:這是 OpenAI 最強(qiáng)大的內(nèi)部 GPT,負(fù)責(zé)實(shí)現(xiàn)解決數(shù)學(xué)問題的思維軌跡。
- 價(jià)值 NN:另一個(gè) GPT,用于評估每個(gè)中間推理步驟的正確性。
- 搜索:與 AlphaGo 的離散狀態(tài)和行為不同,LLM 是在 “所有合理的字符串 “這一更為復(fù)雜的空間中運(yùn)行的,因此需要新的搜索程序。
- 地面實(shí)況信號(Groundtruth signal):可以理解為是對過程結(jié)果的打分?jǐn)?shù)據(jù)。OpenAI 可能已從現(xiàn)有的數(shù)學(xué)考試或競賽中收集了大量語料,或者使用模型本身合成數(shù)據(jù)做增強(qiáng)。
Nathan 最初的猜測是將 Q-learning 和 A* 搜索模糊地合并在一起,但隨著對這個(gè)問題研究的深入,可以越來越相信,他們通過思維樹推理搜索語言/推理步驟的能力很強(qiáng),但這種飛躍比人們想象的要小得多。
夸大其詞的原因在于,他們的目標(biāo)是將大型語言模型的訓(xùn)練和使用與 Deep RL 的核心組成部分聯(lián)系起來,而正是這些核心組成部分促成了 AlphaGo 的成功:自我博弈(Self-play)和前瞻性規(guī)劃(Look-ahead planning)。
- 自我對弈(Self-play):是指代理(agent)可以通過與略有不同的自己進(jìn)行博弈來提高自己的博弈水平,因?yàn)樗鼤?huì)逐漸遇到更具挑戰(zhàn)性的情況。在 LLM 的空間中,幾乎可以肯定的是,自我對弈的最大部分將看起來像人工智能反饋,而不是競爭過程。
- 前瞻性規(guī)劃(Look-ahead planning):是指使用世界模型來推理未來,并產(chǎn)生更好的行動(dòng)或產(chǎn)出。兩種變體分別基于模型預(yù)測控制(MPC)和蒙特卡洛樹搜索(MCTS),前者通常用于連續(xù)狀態(tài),后者則用于離散行動(dòng)和狀態(tài)。
要了解這兩者之間的聯(lián)系,我們需要了解 OpenAI 和其他公司最近發(fā)表的成果,這些成果將回答兩個(gè)問題:
- 我們?nèi)绾螛?gòu)建可以搜索的語言表征?
- 我們該如何構(gòu)建一種價(jià)值概念,并將其覆蓋到分門別類且有意義的語言片段,而非整個(gè)語篇上?
有了這些問題的答案,我們就可以清楚地知道如何使用用于 RLHF 的現(xiàn)有 RL 方法。我們使用 RL 優(yōu)化器對語言模型進(jìn)行微調(diào),并通過模塊化獎(jiǎng)勵(lì)獲得更高質(zhì)量的生成(而不是像現(xiàn)在這樣獲得完整序列)。
三、通過 ToT 提示進(jìn)行 LLMs 模塊化推理
提示詞里“深呼吸”(take a deep breath)和 “一步步思考 “(think step by step)等技巧的推廣,如今已經(jīng)擴(kuò)展到了利用并行計(jì)算和啟發(fā)式(搜索的一些基本原理)進(jìn)行推理的高級方法。
思維樹 (ToT)聽起來確實(shí)如此。這是一種促使語言模型創(chuàng)建推理路徑樹的方法,推理路徑樹可能會(huì)也可能不會(huì)匯聚到正確答案。論文中對使用 LLMs 解決問題的其他方法進(jìn)行了比較:
基礎(chǔ)模型在大規(guī)模數(shù)據(jù)集上訓(xùn)練,可以執(zhí)行廣泛的任務(wù)。開發(fā)人員使用基礎(chǔ)模型作為強(qiáng)大的生成式AI應(yīng)用的基礎(chǔ),例如ChatGPT。
選擇基礎(chǔ)模型時(shí)的一個(gè)關(guān)鍵考慮因素是開源與非開源,下面概述了兩種模型各自的優(yōu)點(diǎn)和缺點(diǎn):
ToT 的創(chuàng)新之處在于將推理步驟分塊,并促使模型創(chuàng)建新的推理步驟。這應(yīng)該是第一種用于提高推理性能的 “遞歸 “提示技術(shù),與人工智能安全所關(guān)注的遞歸自我改進(jìn)模型非常接近。
對于推理樹,可以采用不同的方法對每個(gè)頂點(diǎn)(節(jié)點(diǎn))進(jìn)行評分,或?qū)ψ罱K路徑進(jìn)行采樣。它可以基于諸如到最一致答案的最短路徑,也可以基于需要外部反饋的復(fù)雜路徑,這又把我們引向了 RLHF 的方向。
ToT 論文地址:https://arxiv.org/abs/2305.10601
四、細(xì)粒度獎(jiǎng)勵(lì):過程獎(jiǎng)勵(lì)模型 PRM
迄今為止,大多數(shù) RLHF 的方法都是讓語言模型的整個(gè)響應(yīng)得到一個(gè)相關(guān)的分?jǐn)?shù)。對于任何具有 RL 背景的人來說,這都是令人失望的,因?yàn)樗?strong>限制了 RL 方法將文本的每個(gè)子部分的價(jià)值聯(lián)系起來的能力。
有人指出,未來由于需要有人類或一些提示源在循環(huán)中,這種多步驟優(yōu)化將在多個(gè)對話回合的層面上進(jìn)行,但這比較牽強(qiáng)。這可以很容易地?cái)U(kuò)展到自我對弈式的對話中,但很難賦予 LLMs 目標(biāo),使其轉(zhuǎn)化為持續(xù)改進(jìn)的自我對弈動(dòng)態(tài)。我們想讓 LLMs 做的大多數(shù)事情都是重復(fù)性任務(wù),而不會(huì)像圍棋那樣對性能設(shè)置近乎無限的上限。
另一方面,有一種 LLM 用例可以很自然地抽象為文本塊:逐步推理,數(shù)學(xué)問題就是最好的例子。
過程獎(jiǎng)勵(lì)模型(PRMs)是 Nathan 在過去 6 個(gè)月里從 RLHF 朋友那里聽到的一個(gè)非公開話題。關(guān)于這些模型的文獻(xiàn)很多,但關(guān)于如何在 RL 中使用這些模型的文獻(xiàn)卻很少。PRM 的核心理念是為每個(gè)推理步驟而不是完整的信息分配分?jǐn)?shù)。下面是 OpenAI 論文《讓我們一步步驗(yàn)證》( Let’s Verify Step by Step)中的一個(gè)例子:
圖 2 為同一個(gè)問題的兩種解決方案,左邊答案是正確的,右邊的答案錯(cuò)誤。綠色背景表示 PRM 得分高,紅色背景表示 PRM 得分低。PRM 可以正確識別錯(cuò)誤解決方案中的錯(cuò)誤。對于錯(cuò)誤的解決方案,兩種方法都揭示出至少存在一個(gè)錯(cuò)誤,但過程監(jiān)督還揭示了該錯(cuò)誤的確切位置。
而他們使用的有趣的反饋界面(將被人工智能取代),卻很有啟發(fā)性:
這樣就可以通過對最大平均獎(jiǎng)勵(lì)或其他指標(biāo)進(jìn)行采樣,而不是僅僅依靠一個(gè)分?jǐn)?shù)(標(biāo)準(zhǔn) RM 在該文獻(xiàn)中被稱為結(jié)果 RM),對推理問題的生成進(jìn)行更精細(xì)的調(diào)整。
使用 “N最優(yōu)采樣”(Best-of-N sampling),即生成一系列次數(shù),并使用獎(jiǎng)勵(lì)模型得分最高的一次(這是 “拒絕采樣”(Rejection Sampling)的推理方式之一,在 Llama 2 中廣為流傳),PRM 在推理任務(wù)中的表現(xiàn)優(yōu)于標(biāo)準(zhǔn) RM。
迄今為止,大多數(shù) PRMs 資源只是展示了如何在推理時(shí)使用它們。當(dāng)這種信號針對訓(xùn)練進(jìn)行優(yōu)化時(shí),才能發(fā)揮真正的威力。要?jiǎng)?chuàng)建最豐富的優(yōu)化設(shè)置,必須能夠生成多種推理路徑,用于評分和學(xué)習(xí)。這就是思維樹的作用所在。ToT 的提示為人們提供了多樣性,可以通過訪問 PRM 來學(xué)習(xí)利用這種多樣性。
此外,還有一種流行的公開數(shù)學(xué)模型被記錄為使用 PRMs 進(jìn)行訓(xùn)練:Wizard-LM-Math。同時(shí),OpenAI 在今年早些時(shí)候發(fā)布了用于訓(xùn)練 PRM 的《逐步驗(yàn)證》(Verify Step by Step)論文中的細(xì)粒度獎(jiǎng)勵(lì)標(biāo)簽。
五、回頭來看 Q* 與模型推理
Q* 似乎是在使用 PRM 對思維樹推理數(shù)據(jù)進(jìn)行評分,然后使用離線 RL 對其進(jìn)行優(yōu)化。這看起來與現(xiàn)有的 RLHF 工具并無太大區(qū)別,后者使用的是 DPO 或 ILQL 等離線算法,無需在訓(xùn)練期間從 LLM 中生成。RL 算法看到的 “軌跡 “是推理步驟的序列,因此我們最終是在以多步驟方式而非上下文綁定的方式進(jìn)行 RLHF。
由于有聽聞已經(jīng)表明 OpenAI 正在使用離線 RL 進(jìn)行 RLHF,這或許并不是一個(gè)大的飛躍。這種方法的復(fù)雜之處在于:收集正確的提示、建立模型以生成出色的推理步驟,以及最重要的一點(diǎn):對數(shù)以萬計(jì)的完成情況進(jìn)行準(zhǔn)確評分。
最后一步就是傳聞中的 “龐大計(jì)算資源 “所在:用人工智能代替人類給每個(gè)步驟打分。合成數(shù)據(jù)才是王道,用樹狀而非單寬路徑(通過思維鏈)在后面給出越來越多的選項(xiàng),從而得出正確答案。
據(jù)悉有一家或幾家大型科技公司(谷歌、Anthropic、Cohere 等)正在通過過程監(jiān)督或類似 RLAIF 的方法創(chuàng)建一個(gè)預(yù)訓(xùn)練大小的數(shù)據(jù)集,這將快速耗費(fèi)數(shù)萬個(gè) GPU 小時(shí)。
在這一領(lǐng)域,公開可用模型的差距令人擔(dān)憂??偨Y(jié)來看,雖然核心理念似乎很清晰,但實(shí)施起來卻很難。所有對 ToT 和 PRM 的評估都是針對數(shù)學(xué)等推理問題的,而這正是所有新聞報(bào)道所說的這種泄露方法的目的所在。即使它不是 Q*,也會(huì)是一個(gè)有趣的實(shí)驗(yàn)。
對于超大規(guī)模人工智能反饋的數(shù)據(jù)與未來:
大模型訓(xùn)練過程中數(shù)據(jù)不足,合成數(shù)據(jù)是擴(kuò)大數(shù)據(jù)集的方式之一。在短期內(nèi),我們是可以利用它創(chuàng)建一些有用的數(shù)據(jù)。
然而,目前尚不清楚的是它的擴(kuò)展程度。
它是否能完全取代互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)?
Let’sverify step by step.
參考材料:
Nathan 觀點(diǎn):https://www.interconnects.ai/p/q-star?lli=1&utm_source=profile&utm_medium=reader2
Jim 觀點(diǎn):https://x.com/DrJimFan/status/1728100123862004105?s=20
PRM 參考論文:
- https://arxiv.org/abs/2305.20050
- https://arxiv.org/abs/2211.14275
- https://arxiv.org/abs/2308.01825
- https://arxiv.org/abs/2310.10080
編輯:Vela
來源公眾號:深思SenseAI;關(guān)注全球 AI 前沿,走進(jìn)科技創(chuàng)業(yè)公司,提供產(chǎn)業(yè)多維深思。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @深思SenseAI 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!