強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化?

0 評(píng)論 3270 瀏覽 5 收藏 8 分鐘

強(qiáng)化學(xué)習(xí)(RL)為優(yōu)化面向目標(biāo)的行為提供了一個(gè)統(tǒng)一而靈活的框架,在解決諸如玩電子游戲、連續(xù)控制和機(jī)器人學(xué)習(xí)等具有挑戰(zhàn)性的任務(wù)方面取得了顯著的成功。在這些應(yīng)用領(lǐng)域中,RL 算法的成功通常取決于高質(zhì)量和高密度反饋的可用性。然而,將 RL 算法的適用范圍擴(kuò)大到稀疏和反饋不明確的環(huán)境是一個(gè)持續(xù)的挑戰(zhàn)。

近日,谷歌 AI 發(fā)布以一篇博文討論了這個(gè)問(wèn)題,筆者編譯整理如下:

研究此類(lèi)問(wèn)題中 RL 算法性能的一種常用方法是通過(guò)語(yǔ)言理解任務(wù),在該任務(wù)中,代理接收自然語(yǔ)言輸入,并且生成復(fù)雜的響應(yīng)以實(shí)現(xiàn)輸入中指定的目標(biāo),同時(shí)它只接收二進(jìn)制形式的成功或者失敗反饋。

例如一個(gè)「盲」代理,通過(guò)遵循一系列自然語(yǔ)言命令(例如,「right,up,up,right」)來(lái)獲得迷宮中目標(biāo)的位置。給定輸入文本,代理(綠圈)需要解釋命令,并根據(jù)這些解釋采取措施來(lái)生成操作序列(a)。如果達(dá)到目標(biāo)(紅星),代理將獲得 1 次獎(jiǎng)勵(lì),否則沒(méi)有獎(jiǎng)勵(lì)。由于代理無(wú)法訪問(wèn)任何可視信息,因此代理完成此任務(wù)并歸納出新指令的唯一方法是正確理解指令。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

可以看到,按照軌跡 a1、a2 和 a3 可以達(dá)到目標(biāo)。

在這些任務(wù)中,RL 代理需要從稀疏(只有一些軌跡會(huì)產(chǎn)生反饋)和未指定(沒(méi)有區(qū)分有意義的成功和偶然的成功)反饋中學(xué)習(xí)泛化。重要的是,由于未指定反饋,代理可能會(huì)收到虛假的正反饋。這可能導(dǎo)致獎(jiǎng)勵(lì)黑客行為,使得部署實(shí)際系統(tǒng)時(shí)出現(xiàn)意外和有害行為。

在「從稀疏和不確定的反饋中學(xué)習(xí)泛化」時(shí),我們通過(guò)開(kāi)發(fā)元獎(jiǎng)勵(lì)學(xué)習(xí)(MeRL)來(lái)解決反饋不確定的問(wèn)題,該方法通過(guò)優(yōu)化輔助獎(jiǎng)勵(lì)函數(shù)向代理提供更精細(xì)的反饋。MERL 使用一種新的探索策略與成功軌跡的記憶緩沖區(qū)相結(jié)合,并從稀疏反饋中學(xué)習(xí)。我們方法的有效性在語(yǔ)義分析上得到了證明,語(yǔ)義分析的目標(biāo)是學(xué)習(xí)從自然語(yǔ)言到邏輯形式的映射(例如,將問(wèn)題映射到 SQL 程序)。

本文研究了弱監(jiān)督問(wèn)題的設(shè)置,其目的是在沒(méi)有任何形式的程序監(jiān)督的情況下,自動(dòng)從問(wèn)答對(duì)中發(fā)現(xiàn)邏輯程序。例如,給定問(wèn)題「哪個(gè)國(guó)家獲得的銀牌最多?」以及與之相關(guān)的維基百科表格,代理需要生成一個(gè)類(lèi)似 SQL 的程序,從而得到正確的答案(例如,「尼日利亞」)。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

該方法在 WikiTableQuestions 和 WikiSQL 達(dá)到了最先進(jìn)成果的基準(zhǔn),相比于之前的方法,其效果分別提高了 1.2% 和 2.4%。不同于以前的學(xué)習(xí)方法,MeRL 自動(dòng)學(xué)習(xí)輔助獎(jiǎng)勵(lì)函數(shù)而不需要任何專(zhuān)家演示,這使其應(yīng)用更加廣泛。下圖是我們方法的概述:

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

本文方法概述。我們采用:

(1)涵蓋探索的模式,在內(nèi)存緩沖區(qū)中收集一組不同的成功軌跡;

(2)采用元學(xué)習(xí)或貝葉斯優(yōu)化,以學(xué)習(xí)輔助獎(jiǎng)勵(lì),為策略優(yōu)化提供更精確的反饋。

元獎(jiǎng)勵(lì)學(xué)習(xí)(MeRL)

MeRL 在處理不明確反饋方面的關(guān)鍵是,意外成功的虛假軌跡和程序?qū)Υ淼姆夯阅苡泻Α?/p>

例如,代理可能只能處理上面迷宮問(wèn)題的特定實(shí)例。然而,如果它在訓(xùn)練中學(xué)習(xí)了虛假的實(shí)例,那么當(dāng)它遇到?jīng)]有見(jiàn)過(guò)的指令時(shí),很可能會(huì)失敗。為了改善這個(gè)問(wèn)題,MeRL 優(yōu)化了一個(gè)更精細(xì)的輔助獎(jiǎng)勵(lì)函數(shù),它可以根據(jù)軌跡的特征區(qū)分是否為意外成功。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

MeRL 示意圖:通過(guò)從輔助獎(jiǎng)勵(lì)模型中獲得的獎(jiǎng)勵(lì)信號(hào)對(duì) RL 代理進(jìn)行訓(xùn)練,而輔助獎(jiǎng)勵(lì)則通過(guò)代理的泛化誤差進(jìn)行訓(xùn)練。

從稀疏反饋中學(xué)習(xí)

要從稀疏反饋中學(xué)習(xí),有效的探索對(duì)于找到一系列成功的軌跡至關(guān)重要。本文利用 Kullback–Leibler (KL) 散度的兩個(gè)方向來(lái)解決這一挑戰(zhàn)。

在下面的例子中,我們使用 kl 散度來(lái)最小化固定雙峰(紫色陰影)和學(xué)習(xí)高斯(綠色陰影)分布之間的差異,這可以分別表示代理的最優(yōu)策略和我們的學(xué)習(xí)策略的分布。KL 目標(biāo)的一個(gè)方向?qū)W習(xí)一個(gè)分布,該分布試圖涵蓋兩種模式,而其他目標(biāo)學(xué)習(xí)的分布尋求一種特定模式(即,它更喜歡一種模式而不是另一種模式)。我們的方法利用了 KL 集中于多個(gè)峰值模式的傾向來(lái)收集不同的成功軌跡集,并通過(guò)模式尋找 KL 在軌跡之間的隱含偏好來(lái)學(xué)習(xí)一個(gè)穩(wěn)健的策略。

強(qiáng)化學(xué)習(xí)中,如何從稀疏和不明確的反饋中學(xué)習(xí)泛化

左:覆蓋模式 KL,右:尋優(yōu)模式 KL

結(jié)論

設(shè)計(jì)區(qū)分最優(yōu)和次優(yōu)行為的獎(jiǎng)勵(lì)函數(shù)對(duì)于將 RL 應(yīng)用到實(shí)際中至關(guān)重要。這項(xiàng)研究在沒(méi)有任何人類(lèi)監(jiān)督的情況下,朝著創(chuàng)建獎(jiǎng)勵(lì)函數(shù)的方向邁出了一小步。

在今后的工作中,我們希望從自動(dòng)學(xué)習(xí)密集獎(jiǎng)勵(lì)函數(shù)的角度來(lái)解決 RL 中的信用分配問(wèn)題。

 

來(lái)源:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

本文來(lái)源于人人都是產(chǎn)品經(jīng)理合作媒體 @雷鋒網(wǎng),翻譯@王雪佩

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!