91情侣在线精品国产，国产欧美一二三区男女交配，国产精品大片免费在线观看，五月天一区二区精品，亚洲AⅤ无码一区东京热，国产在线98视频播放，国产V欧美V日韩在线观看，女人高潮被爽到呻吟在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Deep Research 團(tuán)隊(duì)：Agent 的終極形態(tài)是所有任務(wù) All-in-one

海外獨(dú)角獸

2025-02-28

0 評(píng)論 3921 瀏覽 11 收藏

24 分鐘

隨著AI技術(shù)的飛速發(fā)展，Agent（智能體）正在成為未來生產(chǎn)力的核心。OpenAI推出的Deep Research作為其第二個(gè)Agent，展示了強(qiáng)大的在線研究能力，能夠在短時(shí)間內(nèi)生成全面的報(bào)告。本文通過與Deep Research團(tuán)隊(duì)的對(duì)話，深入探討了該工具的技術(shù)細(xì)節(jié)、產(chǎn)品設(shè)計(jì)思路以及未來發(fā)展方向。

三周前，OpenAI 推出了 Deep Research，這是 OpenAI 的第二個(gè) Agent，可以通過搜索多個(gè)網(wǎng)站，在 5-30 分鐘內(nèi)完成全面的 online research，并綜合引用輸出詳細(xì)的報(bào)告。

本文是 Sequoia Capital 對(duì) OpenAI Deep Research 負(fù)責(zé)人 Isa Fulford 和 Josh Tobin 的專訪編譯整理，兩位成員詳細(xì)分享了 OpenAI 在構(gòu)建 Deep Research 時(shí)的技術(shù)細(xì)節(jié)和產(chǎn)品思路，以及目前他們說觀察到的 use case。

Deep Research 源于 OpenAI 內(nèi)部對(duì)模型 long-horizon 任務(wù)的處理能力的探索，團(tuán)隊(duì)長期的目標(biāo)是在未來更夠給到用戶一個(gè)終極 Agent：網(wǎng)絡(luò)搜索、使用計(jì)算機(jī)或完成其他希望 Agent 完成的任務(wù)自然地 All-in-one。

Deep Research 在產(chǎn)品層面也做了專門優(yōu)化，例如，和我們?cè)?DeepSeek 的分析判斷中提到的一樣，Deep Research 也通過清晰的引用和 CoT 來增強(qiáng)用戶信任。此外，團(tuán)隊(duì)還設(shè)計(jì)出了一個(gè)澄清流程（clarification flow），即確保對(duì)任務(wù)理解的一致性。Deep Research 在信息查找和梳理上比 AI 搜索和 ChatGPT 都要強(qiáng)，但現(xiàn)階段 Deep Research 從已有信息中提煉出新的見解的效果不佳，還不能做出新的科學(xué)發(fā)現(xiàn)。

?? 目錄 ??

01 OpenAI 的第二個(gè) Agent

02 Agent 能力來自模型端到端的訓(xùn)練

03 Deep Research 的優(yōu)勢(shì)

04 Deep Research 的使用場(chǎng)景

05 Agent 會(huì)在 2025 年嶄露新頭角

01.OpenAI 的第二個(gè) Agent

Deep Research 是一個(gè)能夠搜索多個(gè)在線網(wǎng)站并生成非常全面報(bào)告的 Agent，可以完成人類需要花費(fèi)數(shù)小時(shí)才能完成的許多任務(wù)。Deep Research 在 ChatGPT 中運(yùn)行，回答問題的時(shí)間大約在 5-30 分鐘之間，因此能夠進(jìn)行更深入的研究，并能比普通 ChatGPT 更詳細(xì)、更加具體地回答問題。之前 OpenAI 已經(jīng)推出了 Operator，Deep Research 是 OpenAI 的第二個(gè) Agent，OpenAI 未來還會(huì)發(fā)布更多的 Agents。

1. 起源

大約一年前，OpenAI 內(nèi)部開始采用 reasoning 范式，并想要訓(xùn)練模型能夠在回答之前進(jìn)行思考的這個(gè)行為，這個(gè)嘗試取得了很大成功。

一開始，OpenAI 將重點(diǎn)領(lǐng)域放在了 Math 和 Science，但發(fā)現(xiàn)這種新的推理模型體系還解鎖了更長時(shí)間跨度任務(wù)的處理能力，即涉及到了 Agent 的能力。

與此同時(shí)， OpenAI 意識(shí)到，很多任務(wù)的完成需要大量的 online research 或外部 context，需要有很強(qiáng)的推理能力，以及對(duì)信息來源的辨別能力，而且必須具備一定的創(chuàng)造力。最終，OpenAI 開發(fā)出了能夠應(yīng)對(duì)這些任務(wù)的模型訓(xùn)練方法。OpenAI 決定開始訓(xùn)練模型執(zhí)行瀏覽任務(wù)，使用了與訓(xùn)練推理模型相同的方法，但應(yīng)用于更貼近現(xiàn)實(shí)世界的任務(wù)。

Deep Research 項(xiàng)目最初是 Isa Fulford 和 Yash Patil 一起合作了一個(gè)原創(chuàng) demo。Josh Tobin 大約 6 個(gè)月前從創(chuàng)業(yè)公司回來，重新加入 OpenAI，對(duì)原創(chuàng)性工作產(chǎn)生了濃厚的興趣，所以加入 Deep Research 項(xiàng)目。

Isa Fulford：OpenAI Post-training 團(tuán)隊(duì)的 AI researcher，ChatGPT Retrieval Plugin 的主要貢獻(xiàn)者；
Yash Patil：OpenAI Post-training 團(tuán)隊(duì)里 core model 的成員，已經(jīng)從斯坦福輟學(xué)；
Josh Tobin：曾在 OpenAI 擔(dān)任 Research Scientist，后離職成立 Gantry（一個(gè)通過分析、警報(bào)和人工反饋幫助提升 ML 的產(chǎn)品）。后再次加入 OpenAI，目前領(lǐng)導(dǎo) Agents 產(chǎn)品 research team。

2. 澄清流程（clarification flow）

Deep Research 有一個(gè)特殊的設(shè)計(jì)是澄清流程（clarification flow），即 Deep Research 模型在開始研究之前會(huì)向用戶提問，通常情況下， ChatGPT 只會(huì)在回答結(jié)束時(shí)提出 follow on questions 或者詢問答案是否滿意，而不會(huì)像 Deep Research 那樣在前期就進(jìn)行這類行為。

這一點(diǎn)其實(shí)是團(tuán)隊(duì)專門設(shè)計(jì)的，因?yàn)橹挥杏脩舻?prompt 非常明確和詳細(xì)，用戶才會(huì)從 Deep Research 模型中得到最好的響應(yīng)。但用戶通常并不會(huì)在第一次輸入 prompt 時(shí)就提供所有的信息，因此， OpenAI 希望確保用戶在等待 5 分鐘或者 30 分鐘后，最終得到的回答是足夠詳細(xì)和令人滿意的，所以添加了這個(gè)額外的步驟，確保用戶提供模型所需要的所有細(xì)節(jié)。

很多用戶在 X 上說他們會(huì)先與 o1 或 o1 Pro 互動(dòng)，使 prompt 更加詳細(xì)，用戶對(duì) prompt 滿意后，再將 prompt 發(fā)送給 Deep Research。

3. Agent 的終極形態(tài)

實(shí)際上，過去幾個(gè)月里 OpenAI 已經(jīng)推出了三種不同的 Deep Research，這些產(chǎn)品都叫做 Deep Research，Josh Tobin 認(rèn)為雖然這些產(chǎn)品各有優(yōu)缺點(diǎn)，但產(chǎn)品之間的質(zhì)量差異是很明顯的。歸根結(jié)底是因?yàn)槟Ｐ偷臉?gòu)建方式，以及在構(gòu)建數(shù)據(jù)集時(shí)投入的努力，再加上 OpenAI 使用 O 系列模型作為引擎，使得 Deep Research 模型能夠被優(yōu)化，創(chuàng)造出非常聰明且高質(zhì)量的工具。

目前 Deep Research和 O3、Operator 之間還比較獨(dú)立，但 OpenAI 希望在未來，用戶能夠通過一個(gè)終極 Agent 實(shí)現(xiàn)網(wǎng)絡(luò)搜索、使用計(jì)算機(jī)或完成其他希望 Agent 完成的任務(wù)，而且還能夠以更自然的方式將所有這些功能融為一體。

02. Agent 能力來自模型端到端訓(xùn)練

1. 端到端訓(xùn)練是模型強(qiáng)大的本質(zhì)原因

Deep Research 的底層模型是 O3 的 fine tuned 版本，O3 是 OpenAI 最先進(jìn)的推理模型，Deep Research 很多分析能力來源于底層 O3 模型。OpenAI 專門對(duì) Deep Research 模型在復(fù)雜瀏覽任務(wù)和其他推理任務(wù)上進(jìn)行了訓(xùn)練，因此，Deep Research 還可以使用瀏覽工具和 Python 工具。通過在這些任務(wù)上進(jìn)行端到端的訓(xùn)練，Deep Research 學(xué)會(huì)了應(yīng)對(duì)這些任務(wù)的策略，最終使得該模型在在線搜索分析方面表現(xiàn)出色。

直觀地說，用戶提出一個(gè)請(qǐng)求，模型會(huì)先仔細(xì)思考這個(gè)請(qǐng)求，然后搜索相關(guān)信息，提取信息并閱讀。模型理解這些信息如何與請(qǐng)求相關(guān)后，再?zèng)Q定接下來搜索什么，以便更接近用戶想要的最終答案。Deep Research 能夠?qū)⑺羞@些信息整合成一份整潔的報(bào)告，并附上指向原始信息來源的引用。

Deep Research 能有 Agent 能力的創(chuàng)新之處就在于 OpenAI 對(duì)模型進(jìn)行了端到端的訓(xùn)練，這意味著在進(jìn)行研究的過程中，很多操作是事先無法預(yù)測(cè)的，不可能通過編寫某種語言模型、程序或腳本，來達(dá)到模型通過訓(xùn)練所能得到的靈活程度。Deep Research 模型通過訓(xùn)練，學(xué)會(huì)了如何對(duì)實(shí)時(shí)的網(wǎng)頁信息做出反應(yīng)，并根據(jù)所看到的信息及時(shí)調(diào)整策略等，所以 Deep Research 模型實(shí)際上在進(jìn)行非常創(chuàng)造性的搜索，用戶可以通過閱讀 CoT 的總結(jié)發(fā)現(xiàn)模型在如何決定接下來要搜索什么或如何繞過某些問題方面非常聰明。

2. Deep Research 和 AI 搜索的差異

對(duì)于 John Collison 提出的“Deep Research 的能力有多少來自于實(shí)時(shí)訪問網(wǎng)頁內(nèi)容，又有多少來自于 CoT”的問題，OpenAI 的兩位研究員認(rèn)為， Deep Research 的突出能力是兩者組合的結(jié)果。

其他 AI 搜索產(chǎn)品并不是端到端訓(xùn)練的，所以在響應(yīng)信息時(shí)不會(huì)像 Deep Research 那樣靈活，也不會(huì)像 Deep Research 那樣在解決特定問題時(shí)表現(xiàn)得那么有創(chuàng)意。

Josh Tobin 在加入 OpenAI 之前在一家初創(chuàng)公司工作，曾嘗試按照大多數(shù)人描述的構(gòu)建 Agent 的方式來構(gòu)建 Agent，基本上就是構(gòu)建一個(gè)操作圖，而其中一些節(jié)點(diǎn)上會(huì)有 LLM 介入。雖然 LLM 可以決定接下來做什么，但整個(gè)步驟序列的邏輯是由人定義的。

Josh Tobin 發(fā)現(xiàn)這是一個(gè)快速構(gòu)建原型的強(qiáng)大方法，但在現(xiàn)實(shí)世界中很快就會(huì)出現(xiàn)問題，因?yàn)楹茈y預(yù)見模型可能面臨的所有情境，也難以考慮可能想要采取的路徑的所有不同分支。此外，由于這些模型并沒有專門接受做決策的訓(xùn)練，它們通常不是節(jié)點(diǎn)上最好的決策者，它們是被訓(xùn)練來做一些與決策類似的事情。

這再次說明了 Deep Research 模型的真正強(qiáng)大之處來源于端到端直接訓(xùn)練，目的是解決用戶實(shí)際需要解決的任務(wù)，所以不需要在后臺(tái)架構(gòu)中設(shè)置操作圖或做節(jié)點(diǎn)決策，一切都是由模型本身驅(qū)動(dòng)的。

更近一步，如果用戶有一個(gè)非常具體且可預(yù)測(cè)的工作流程，那么按照上文 Josh Tobin 描述的方式來做是很有價(jià)值的。但如果需要非常靈活的處理，那么類似 Deep Research 的方法可能是最好的選擇。

Josh Tobin 建議不應(yīng)該將一些嚴(yán)格的規(guī)則硬性嵌入到模型中，如果有類似“不希望模型訪問某個(gè)數(shù)據(jù)庫”的需求，最好還是用人工編寫的邏輯來實(shí)現(xiàn)。人們往往認(rèn)為自己可以通過編寫代碼做得比模型更聰明，但實(shí)際上，隨著領(lǐng)域的發(fā)展，模型通常會(huì)比人類提出更好的解決方案。

機(jī)器學(xué)習(xí)的一個(gè)最重要的教訓(xùn)就是，你得到的結(jié)果取決于你優(yōu)化的目標(biāo)。所以，如果用戶能設(shè)置一個(gè)系統(tǒng)來直接優(yōu)化想要的結(jié)果，那么會(huì)比用戶嘗試將不適配整個(gè)任務(wù)的模型拼湊在一起要好得多。所以在模型整體基礎(chǔ)上進(jìn)行 RL 調(diào)優(yōu)，可能會(huì)成為構(gòu)建最強(qiáng)大的 Agent 的關(guān)鍵部分。

3. 模型成功的關(guān)鍵因素之一在于高質(zhì)量數(shù)據(jù)

Deep Research 模型能夠成功的關(guān)鍵因素之一是有高質(zhì)量的數(shù)據(jù)集。投入到模型中的數(shù)據(jù)質(zhì)量，很可能是決定模型質(zhì)量的關(guān)鍵因素。在 Deep Research 項(xiàng)目中，Edward Sun 會(huì)對(duì)所有數(shù)據(jù)集進(jìn)行優(yōu)化。

03.Deep Research 的優(yōu)勢(shì)

Deep Research 的優(yōu)勢(shì)在于，當(dāng)用戶有一個(gè)詳細(xì)的需求描述時(shí)，Deep Research 能夠通過閱讀大量的互聯(lián)網(wǎng)內(nèi)容來提供最佳答案，但如果用戶的問題比較模糊，Deep Research 也能理清想要的信息。Deep Research 最強(qiáng)大的時(shí)候是用戶在尋找一組具體信息的時(shí)候。

Deep Research 不僅能廣泛地收集關(guān)于某個(gè)來源的所有信息，還能很好地找到一些非常冷門的事實(shí)，比如在傳統(tǒng)搜索中不會(huì)出現(xiàn)在前幾頁的長尾內(nèi)容，某部冷門電視節(jié)目其中某一集的細(xì)節(jié)信息等。在一個(gè)有關(guān)奧地利將軍的問題中，ChatGPT 曾經(jīng)給出了錯(cuò)誤的答案，而 Deep Research 成功找到了正確的答案。

Deep Research 非常擅長綜合信息，尤其是在找到一些特定的、難以找到的信息上。不過，Deep Research 從已有信息中提煉出新的見解的效果不佳，還不能做出新的科學(xué)發(fā)現(xiàn)。

04.Deep Research 的使用場(chǎng)景

1. 目標(biāo)用戶

Deep Research 是為任何在日常工作或生活中從事知識(shí)性工作的人員設(shè)計(jì)的，特別適合需要大量收集信息、分析數(shù)據(jù)并做出決策的人。很多使用者將 Deep Research 應(yīng)用于工作中，比如在做研究的時(shí)候，用于了解市場(chǎng)、公司、房地產(chǎn)等領(lǐng)域的情況。

2. Use Case

OpenAI 希望 Deep Research 能兼顧商業(yè)場(chǎng)景和個(gè)人生活場(chǎng)景，因?yàn)?Deep Research 實(shí)際上是一種非常通用的能力，既適用于工作，也適用于個(gè)人生活。Deep Research 的魅力在于能夠節(jié)省很多時(shí)間，有些任務(wù)原來可能需要花費(fèi)數(shù)個(gè)小時(shí)，甚至幾天時(shí)間，但現(xiàn)在人們可以用 Deep Research 得到 90% 的答案。OpenAI 認(rèn)為商業(yè)場(chǎng)景中的類似任務(wù)會(huì)更多，但 Deep Research 也會(huì)成為人們個(gè)人生活的一部分。

Deep Research 不是取代勞動(dòng)力，對(duì)于知識(shí)型工作，尤其是需要花大量時(shí)間查找信息并得出結(jié)論的工作，Deep Research 將賦予人們超能力，使得原來可能需要 4 或 8 小時(shí)才能完成的事情可以在 5 分鐘內(nèi)完成，用戶因此可以實(shí)現(xiàn)更多的事情。

訪談中提及的 use case 包括：醫(yī)療、投資等工作場(chǎng)景，購物、旅行等家庭場(chǎng)景，編程和個(gè)性化教育等。

? 醫(yī)療、投資等專業(yè)工作場(chǎng)景

在醫(yī)療上，Deep Research 能夠幫助尋找某種疾病的所有文獻(xiàn)或最近的病例，從而節(jié)省了時(shí)間。

在投資上，在 Deep Research 幫助下，投資人可以選擇對(duì)每一個(gè)可能投資的初創(chuàng)公司都進(jìn)行研究，而不僅僅是只研究有時(shí)間會(huì)面的公司。

在公司經(jīng)營上，有一個(gè)正在考慮創(chuàng)辦一家消費(fèi)品公司的用戶，他一直在大量使用 Deep Research 來確定特定的品牌名稱是否已經(jīng)被注冊(cè)，域名是否被占用，市場(chǎng)規(guī)模等各種信息。

? 購物、旅行等家庭場(chǎng)景

有用戶在考慮買新車的時(shí)候，想知道下一款車型什么時(shí)候發(fā)布，而網(wǎng)上有很多猜測(cè)性的文章，因此用戶讓 Deep Research 整理相關(guān)的所有傳聞等，最后 Deep Research 整理出了一份很出色的報(bào)告，告訴用戶可能會(huì)在接下來的幾個(gè)月里發(fā)布新車。

在日本推出 Deep Research 時(shí)，用戶發(fā)現(xiàn) Deep Research 在找到符合特定要求的餐廳方面非常有幫助，還能幫用戶發(fā)現(xiàn)一些本來可能找不到的東西。

用戶需要購買某個(gè)貴重物品，或者規(guī)劃一趟特別的旅行，或者需要花很多時(shí)間去思考某個(gè)問題時(shí)，用戶可能會(huì)花費(fèi)幾個(gè)小時(shí)在網(wǎng)上查找相關(guān)信息，瀏覽所有的評(píng)論等，而 Deep Research 可以迅速把這些信息整理出來，像是做一個(gè)總結(jié)報(bào)告，提供詳細(xì)和個(gè)性化的建議。

忙碌的職場(chǎng)媽媽往往沒時(shí)間為孩子策劃生日派對(duì)，但現(xiàn)在在 Deep Research 的幫助下可以快速做到。

Deep Research 在指令跟隨方面也非常出色。如果用戶不僅想要了解某個(gè)產(chǎn)品的信息，還想要與其他所有產(chǎn)品進(jìn)行對(duì)比，甚至想要查看來自 Reddit 等網(wǎng)站的評(píng)論，用戶可以對(duì) Deep Research 提出許多不同的要求，Deep Research 會(huì)一次性完成這些任務(wù)，用戶還可以讓 Deep Research 把信息做成表格。

? 編程

很多人把 Deep Research 用于編程，這個(gè)場(chǎng)景并不是 OpenAI 最初所考慮在內(nèi)的，但確實(shí)有很多人用來編寫代碼、進(jìn)行代碼搜索，甚至查找某個(gè)包的最新文檔，或者寫腳本等，效果令人印象深刻。

? 教育

個(gè)性化教育是一個(gè)非常有趣的應(yīng)用場(chǎng)景。如果用戶有一個(gè)想學(xué)的主題，比如需要復(fù)習(xí)生物學(xué)，或者想了解一些時(shí)事，用戶只需要提供自身不理解的部分，或者想深入研究的信息，Deep Research 就能整理出一份詳細(xì)的報(bào)告?；蛟S在未來可以做到根據(jù) Deep Research 了解到的用戶情況，提供個(gè)性化的教育。

05.Agent 會(huì)在 2025 年嶄露新頭角

1. Deep Research 未來發(fā)展方向

在產(chǎn)品形態(tài)上，OpenAI 希望未來 Deep Research 能夠嵌入圖像，可以找到產(chǎn)品的圖片，也能生成圖表，并將這些圖表嵌入回答中。

在信息來源上，OpenAI 希望能夠擴(kuò)展模型可以訪問的數(shù)據(jù)源，希望模型未來能夠搜索私人數(shù)據(jù)，OpenAI 接下來會(huì)進(jìn)一步提升模型的能力，使得模型在瀏覽和分析方面做得更好。

在信息準(zhǔn)確度上，為了讓用戶能夠信任 Deep Research 的輸出，用戶可以看到模型引用的信息來源。在訓(xùn)練模型的過程中，OpenAI 也會(huì)努力確保引用的正確性，但模型仍然有可能出錯(cuò)，或者產(chǎn)生幻覺，甚至信任一個(gè)可能不是最可信的信息來源。因此，這是 OpenAI 希望繼續(xù)改進(jìn)的領(lǐng)域。

為了更廣泛地融入 OpenAI Agent 路線圖，OpenAI 希望 Deep Research 能夠擴(kuò)展到許多不同的應(yīng)用場(chǎng)景，將最先進(jìn)的推理模型與人類可以用來完成工作或日常生活任務(wù)的工具結(jié)合起來，然后直接優(yōu)化模型以實(shí)現(xiàn)用戶希望 Agent 能夠完成的結(jié)果。

現(xiàn)階段實(shí)際上沒有什么能夠阻止 Deep Research 擴(kuò)展到更加復(fù)雜的任務(wù)場(chǎng)景上，AGI 現(xiàn)在是一個(gè)操作性問題，未來還會(huì)有很多值得期待的進(jìn)展。

Sam Altman 認(rèn)為，Deep Research 能夠完成的任務(wù)將占到世界上所有經(jīng)濟(jì)上可行的任務(wù)的百分之幾。Josh Tobin 認(rèn)為， Deep Research 并不能為用戶做所有的工作，但能夠?yàn)橛脩艄?jié)省幾個(gè)小時(shí)，甚至是幾天的時(shí)間。OpenAI 希望相對(duì)接近的目標(biāo)是，Deep Research 和接下來構(gòu)建的 Agent，以及在這個(gè)基礎(chǔ)上構(gòu)建的其他 Agent，可以根據(jù)用戶所從事的工作類型，幫用戶節(jié)省 1%、5%、10% 或 25% 的時(shí)間。

2. Agent & RL

Isa Fulford 和 Josh Tobin 一致認(rèn)為今年 Agent 會(huì)嶄露頭角。

RL 經(jīng)歷了一個(gè)高峰，之后感覺又有點(diǎn)低谷，現(xiàn)在又受到人們關(guān)注。Yan LeCunn 曾經(jīng)有一個(gè)類比，如果人們?cè)谧龅案猓谴蟛糠质堑案?，?huì)有一點(diǎn)糖霜，最后放上幾顆櫻桃，無監(jiān)督學(xué)習(xí)就像是蛋糕，監(jiān)督學(xué)習(xí)是糖霜，RL 就是櫻桃。

Josh Tobin 認(rèn)為，在 2015-2016 年做 RL 的時(shí)候，以做蛋糕類比，可能是試圖在沒有蛋糕的情況下先加櫻桃，但現(xiàn)在，已經(jīng)有了在大量數(shù)據(jù)上預(yù)訓(xùn)練的語言模型，這些模型非常強(qiáng)大，并且知道了如何對(duì)這些語言模型進(jìn)行監(jiān)督微調(diào)，使模型擅長執(zhí)行指令和做出人們想要的事情，現(xiàn)在一切運(yùn)作得非常好，非常適合根據(jù)用戶定義的獎(jiǎng)勵(lì)函數(shù)來調(diào)整這些模型，用于任何用例。

編譯：haozhen 編輯：siqi

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】，微信公眾號(hào)：【海外獨(dú)角獸】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App