Physical Intelligence 創(chuàng)始人:人形機器人被高估了
在人工智能和機器人技術(shù)飛速發(fā)展的今天,人形機器人成為了科技界的熱門話題。然而,Physical Intelligence(PI)的創(chuàng)始人Chelsea Finn卻認(rèn)為,人形機器人目前被高估了。本文通過與Chelsea Finn的對話,深入探討了機器人領(lǐng)域的最新進展、泛化能力的重要性、數(shù)據(jù)多樣性的關(guān)鍵作用,以及PI公司的發(fā)展方向。
AI Robotics 是我們長期關(guān)注的賽道之一,通用機器人是 AGI 從數(shù)字世界走向物理世界的重要路徑,而 robot foundation model 要做的就是給機器人構(gòu)建一個大腦,從軟件角度實現(xiàn)機器人的通用能力。在 AI robotcis 的主題下,Physical Intelligence 是我們最為關(guān)注的公司之一。
PI 被視為是機器人領(lǐng)域的 OpenAI,是所有機器人公司中 research 水平和人才密度最高的團隊,團隊的核心目標(biāo)是開發(fā)通用機器人的 foundation model,今年 2 月,PI 開源了通用模型 π0 的代碼和權(quán)重,2 月 26 日,PI 又推出了 Hi Robot,能夠?qū)?π0 等VLA 模型納入一個分層推理過程。
本篇內(nèi)容是我們對 PI 核心創(chuàng)始人 Chelsea Finn 最新觀點的編譯理解。圍繞 π0 和 Hi Robot,Chelsea Finn 分享了機器人是如何實現(xiàn)泛化?她認(rèn)為,數(shù)據(jù)人就是關(guān)鍵中的關(guān)鍵,并且一定要獲取更多樣化的機器人數(shù)據(jù),而不僅僅只關(guān)注數(shù)據(jù)的質(zhì)量,最終的目標(biāo)是擴大真實機器人數(shù)據(jù)的規(guī)模。
同時,Chelsea Finn 也理性地認(rèn)為,雖然人形機器人這個形態(tài)很酷,但當(dāng)下,人形機器人被高估了。要實現(xiàn)機器人領(lǐng)域的 AGI,物理智能才是核心,未來一定會有各種各樣的機器人形態(tài),PI 內(nèi)部將機器人的 AGI 時刻定義為“寒武紀(jì)大爆發(fā)”。
?? 目錄 ??
01 Chelsea Finn 機器研究的開端
02 PI 的研究進展和發(fā)展03 機器人怎么實現(xiàn) AGI?
04 Hi Robot
05 機器人需要哪些感官?
06 自動駕駛 VS 機器人領(lǐng)域
07 對訓(xùn)練數(shù)據(jù)和硬件的看法
01. Chelsea Finn 是如何進入機器人領(lǐng)域的?
Elad:你是如何進入機器人領(lǐng)域的,最初是什么吸引了你?
Chelsea Finn:一開始,我對機器人可能帶來的影響感到非常興奮。與此同時,我也對發(fā)展感知和智能的問題非常著迷,機器人體現(xiàn)了這一切。有時候這個領(lǐng)域涉及到一些有趣的數(shù)學(xué)問題,能讓大腦保持活躍,不斷思考。這些都是從事這個領(lǐng)域很有趣的地方。
我真正開始認(rèn)真研究機器人大概是在 10 多年前,當(dāng)時我剛開始在伯克利攻讀博士。我們當(dāng)時在做神經(jīng)網(wǎng)絡(luò)控制,試圖訓(xùn)練神經(jīng)網(wǎng)絡(luò),使得圖像像素可以直接映射到機器人手臂的扭矩。在當(dāng)時,這種方法還不太流行。但如今,這個方向已經(jīng)取得了巨大進展,在機器人領(lǐng)域受到了更多認(rèn)可,也讓越來越多的人感到興奮。
從那個時候開始,我就很清楚,我們可以訓(xùn)練機器人完成一些很酷的任務(wù)。但真正的挑戰(zhàn)在于,如何讓機器人在不同環(huán)境、面對不同物體時都能完成這些任務(wù)。10 年前,我們訓(xùn)練機器人去擰緊瓶蓋、用鏟子把物體放進碗里、精準(zhǔn)地插入物體,或者把衣架掛到衣架桿上。這些任務(wù)本身已經(jīng)很酷了,但讓機器人在不同環(huán)境、面對不同物體時都能執(zhí)行這些任務(wù),才是真正的難點。
因此,我一直在思考如何構(gòu)建更廣泛的數(shù)據(jù)集,如何基于這些數(shù)據(jù)集進行訓(xùn)練,以及有哪些不同的學(xué)習(xí)方法,比如強化學(xué)習(xí)、視頻預(yù)測、模仿學(xué)習(xí)等。我在博士期間和加入斯坦福之前,曾在 Google Brain 工作了一段時間。后來,我成為了斯坦福大學(xué)的教授,在那里建立了自己的實驗室,并在這些方向上做了大量研究。
大約一年前,我與合伙人們共同創(chuàng)立了 Physical Intelligence,希望能夠真正實現(xiàn)我們的愿景。我為此離開了斯坦福大學(xué),但我仍然在斯坦福指導(dǎo)學(xué)生。
02.PI 的研究進展和發(fā)展路徑:泛化和開源
Elad:Physical Intelligence 目前的研究方向是什么?
Chelsea Finn:我們的目標(biāo)是構(gòu)建一個大型神經(jīng)網(wǎng)絡(luò)模型,最終讓它能夠控制任何機器人,在任何場景下執(zhí)行任何任務(wù)。
我們的愿景與傳統(tǒng)機器人研究有很大不同。過去,機器人研究往往是深入專注于某一個特定的應(yīng)用場景,比如開發(fā)一個機器人來執(zhí)行單一任務(wù)。然而,這種方法往往會讓研究局限在特定應(yīng)用里,一旦機器人被優(yōu)化到擅長某個特定任務(wù),就很難再擴展到其他任務(wù)。
我們想要解決的是更廣泛的物理智能問題,并且我們是以長期視角來看待這個問題。我們特別關(guān)注泛化能力和通用機器人。
與其他機器人公司不同,我們認(rèn)為充分利用所有可能的數(shù)據(jù)是非常重要的。這不僅限于某一種特定的機器人數(shù)據(jù),而是要匯總來自各種不同機器人平臺的數(shù)據(jù),比如六軸機器人、七軸機器人、單臂機器人、雙臂機器人等。已經(jīng)有很多證據(jù)表明,不同機器人之間可以共享大量豐富的信息,能讓數(shù)據(jù)的價值最大化。
在這種情況下,如果對機器人硬件進行迭代升級,就不需要完全舍棄舊版本的數(shù)據(jù)。在過去,有一個痛點在于當(dāng)機器人升級換代時,原本的策略就無法適配,需要重新訓(xùn)練模型,這個過程既費時又費力。而 Physical Intelligence 的目標(biāo)是打造通用機器人,并開發(fā) foundation models,讓它們成為下一代機器人在現(xiàn)實世界中的智能驅(qū)動力。
Elad:這在某種程度上與 LLM 有些相似。在 LLM,深度學(xué)習(xí)、Transformer 架構(gòu)以及規(guī)模化訓(xùn)練的結(jié)合,已經(jīng)證明了可以實現(xiàn)真正的通用性,并能夠在不同領(lǐng)域之間進行不同形式的遷移。你們所采用的架構(gòu)或方法具體是什么?
Chelsea Finn:一開始,我們主要是想擴展數(shù)據(jù)收集規(guī)模。與語言領(lǐng)域不同的是,機器人領(lǐng)域并沒有類似維基百科或者涵蓋機器人運動的“互聯(lián)網(wǎng)”可供利用。因此,我們對在真實環(huán)境下收集真實機器人的數(shù)據(jù)感到非常興奮。這種真實數(shù)據(jù)一直以來都是推動機器學(xué)習(xí)進步的重要因素。而一個關(guān)鍵點是,我們需要自己去收集這些數(shù)據(jù)。這意味著我們需要在物理世界中進行機器人操作。雖然我們也在探索其他擴展數(shù)據(jù)的方法,但核心仍然是擴大真實機器人數(shù)據(jù)的規(guī)模。
去年十月底,我們發(fā)布了一些初步成果,展示了我們在數(shù)據(jù)擴展方面的努力,以及如何讓機器人學(xué)習(xí)非常復(fù)雜的任務(wù),比如折疊衣物、清理桌面、搭建紙板箱等。
目前,我們思考的重點是如何讓機器人能夠進行語言交互,并在不同環(huán)境中具備泛化能力。在去年十月的演示中,我們展示的機器人是在一個特定的環(huán)境中訓(xùn)練的,數(shù)據(jù)也是來自那個環(huán)境。雖然它能夠在一定程度上泛化,例如折疊它以前從未見過的短褲,但這種泛化能力仍然非常有限。
此外,用戶也無法與它進行交互,除了訓(xùn)練數(shù)據(jù)中已有的一些基本指令外,無法讓它執(zhí)行新的任務(wù)。因此,我們目前的一個重要目標(biāo)是讓機器人能夠處理更多樣化的指令,并適應(yīng)更多不同的環(huán)境。
在架構(gòu)方面,我們采用了 Transformer,并且使用了 pre training 模型,特別是預(yù)訓(xùn)練的 Vision-Language Model,這使我們能夠利用互聯(lián)網(wǎng)中豐富的信息。幾年前,我們有一個研究結(jié)果表明,如果利用 Vision-Language Model,機器人可以執(zhí)行訓(xùn)練數(shù)據(jù)中從未包含過的任務(wù),但這些任務(wù)涉及的概念是存在于互聯(lián)網(wǎng)的數(shù)據(jù)中。
一個著名的例子是,你可以給機器人展示 Taylor Swift 的照片。雖然機器人從未在現(xiàn)實中“見過” Taylor Swift,但由于互聯(lián)網(wǎng)中有大量 Taylor Swift 的圖片,它可以利用這些信息以及 pre training 模型的權(quán)重來實現(xiàn)知識遷移,讓機器人執(zhí)行相應(yīng)的任務(wù)。
因此,我們并不是從零開始,而是依托這些已有的知識進行提升,這對整個研究有很大的幫助。
Elad:實現(xiàn)泛化的關(guān)鍵是什么?
Chelsea Finn:我認(rèn)為最重要的一點是獲取更多樣化的機器人數(shù)據(jù)。比如,在去年十月底的那個發(fā)布中,我們的數(shù)據(jù)是在三座建筑中收集的。而相比之下,互聯(lián)網(wǎng)上的語言模型和視覺模型所依賴的數(shù)據(jù)來源要廣泛得多,因為網(wǎng)絡(luò)上的圖片是由許多人拍攝的,文本是由許多人撰寫的。因此,我們需要在更多不同的環(huán)境中采集數(shù)據(jù),涉及更多物體、更多任務(wù)。
擴展數(shù)據(jù)的多樣性,而不僅僅是數(shù)據(jù)的數(shù)量,這是至關(guān)重要的。我們目前的重點工作之一就是讓我們的機器人進入更多不同的場景,并在這些環(huán)境中采集數(shù)據(jù)。與此同時,這也會帶來一個非常有價值的副產(chǎn)品——我們可以學(xué)習(xí)到如何讓機器人在各種不同環(huán)境中真正運行并發(fā)揮作用。如果我們想要讓機器人在現(xiàn)實世界中真正使用,這一點至關(guān)重要。
除此之外,我們也在探索其他方向,比如利用人類的視頻數(shù)據(jù)、從網(wǎng)絡(luò)中獲取數(shù)據(jù)、使用 pre training 模型,并思考推理能力的應(yīng)用,盡管目前更多是一些基礎(chǔ)的推理。
? 比如把一件臟衣服放進洗衣籃,機器人需要能夠識別衣服和洗衣籃在哪里,以及完成這個任務(wù)需要執(zhí)行的操作。
? 比如要制作一個三明治,而用戶對腌黃瓜過敏,那么機器人應(yīng)該能夠推理出不應(yīng)該在三明治里放腌黃瓜。
總的來說,最重要的仍然是獲取更豐富多樣的機器人數(shù)據(jù)。
Elad:開源會是 PI 的長期發(fā)展路徑嗎?
Chelsea Finn:我們一直非常開放,開源是我們有意識的選擇。我們不僅開源了一些模型的權(quán)重,還發(fā)布了技術(shù)細(xì)節(jié)和論文,甚至還與硬件公司合作,向它們提供機器人設(shè)計。
首先,我們認(rèn)為這個領(lǐng)域還處于起步階段,這些模型在未來 1-3 年內(nèi)會變得更加強大,機器人也會變得更加強大。我們希望支持研究發(fā)展,支持社區(qū),支持機器人技術(shù),這樣當(dāng)我們最終開發(fā)出通用模型技術(shù)時,整個世界會更好地為它做好準(zhǔn)備,屆時會有更強大的機器人能夠利用這些模型,也會有更多具備相關(guān)專業(yè)知識的人理解如何使用這些模型。
其次,我們擁有一支非常優(yōu)秀的研究人員和工程師團隊,而頂尖的研究人員和工程師更希望加入開放的公司,尤其是研究人員,他們希望自己的研究成果能夠得到認(rèn)可,并且能夠分享和討論他們的想法。吸引最優(yōu)秀的研究人員和工程師是解決機器人問題的關(guān)鍵。
最后,選擇開源的最大風(fēng)險在于可能無法成功。我并不擔(dān)心競爭對手,我更擔(dān)心的是最終沒有人能解決機器人問題。
機器人技術(shù)非常困難,過去也有很多失敗的案例。與在圖像中識別物體不同,機器人操作幾乎沒有容錯空間。比如,機器人與物體的接觸距離非常小的時候,一點點差距可能就會對結(jié)果產(chǎn)生巨大影響,會決定機器人能否成功操作這個物體。收集數(shù)據(jù)的挑戰(zhàn)也是如此,任何涉及硬件的事情都很困難。
03.機器人怎么實現(xiàn) AGI?
Elad:物理智能會在哪些領(lǐng)域產(chǎn)生最直接的影響,這些新方法什么時候能夠真正實現(xiàn)突破?
Chelsea Finn:Physical Intelligence 非常關(guān)注機器人的長期問題,而不是某一個特定的應(yīng)用,專注于單一應(yīng)用可能會帶來很多失敗的風(fēng)險。我不確定物理智能的第一個應(yīng)用場景會在哪里。
在機器學(xué)習(xí)領(lǐng)域,有很多成功的應(yīng)用,比如推薦系統(tǒng)、語言模型、圖像檢測等,模型的輸出最終會被人類使用,人類可以進行檢驗,因為人類通常是擅長檢驗的。很多機器人非常自然的應(yīng)用場景是機器人獨立自主地做某些事情,而不是接收人類給出的指令,比如給定手臂的目標(biāo)位置,之后人類再進行檢驗。因此,我們需要思考一些新的方法來應(yīng)對允許錯誤的場景,或者是人類和機器人可以合作的場景。
這是一個大挑戰(zhàn)。Physical Intelligence 一直在嘗試部署這些機器人技術(shù),我們做的語言交互工作其實就是受到這個挑戰(zhàn)的推動。人類能夠提供輸入是非常重要的,比如人類希望機器人如何表現(xiàn)、希望機器人做什么、希望機器人如何幫助完成某件事。
Elad:如何看待人形機器人與非人形機器人之間的差異?
Chelsea Finn:人形機器人真的很酷,但有些被高估了。從實際角度來看,我們現(xiàn)在在數(shù)據(jù)方面確實有瓶頸。一些人認(rèn)為人形機器人可能更容易收集數(shù)據(jù),因為它們符合人類的形態(tài),可能會更容易模仿人類。但如果你曾經(jīng)嘗試過遠(yuǎn)程操作人形機器人,你會發(fā)現(xiàn)操作人形機器人比操作一個靜態(tài)操控器或者一個帶輪子的移動操控器要困難得多。
優(yōu)化數(shù)據(jù)收集非常重要,如果能達到一個超過需求的數(shù)據(jù)量程度,那么剩下的就只是研究、計算和評估的問題了。我們正在優(yōu)化這個方向,這也是我們目前優(yōu)化的目標(biāo)之一。我們使用便宜的機器人,使用我們能夠非常輕松地開發(fā)遠(yuǎn)程操作接口的機器人,這樣就可以快速進行遠(yuǎn)程操作,并收集多樣化的大量數(shù)據(jù)。
Elad:怎么看待具身智能模型的開發(fā)與非具身智能模型開發(fā)之間的區(qū)別?
Chelsea Finn:人們低估了運動控制中所包含的智能。我們能夠像現(xiàn)在這樣使用雙手,是經(jīng)過了多年的進化。而有許多動物,即便經(jīng)歷了如此長時間的進化,也無法做到這一點。因此,能夠做一些非?;A(chǔ)的事情,比如做一碗麥片或者倒一杯水,實際上蘊含著極大的復(fù)雜性和智能。所以,從某種程度上來說,具身智能或物理智能是智能的核心。
Elad:在過去兩三年里,哪些研究促使人們覺得機器人到了一個轉(zhuǎn)折點?
Chelsea Finn:有幾個因素讓我們覺得這個領(lǐng)域的進展比之前更快了。
第一個是 SayCan,可以利用語言模型對高層部分進行規(guī)劃,再與低層模型結(jié)合,以便讓機器人完成長時間的任務(wù)。
第二個是 RG2,能夠?qū)崿F(xiàn)前文所說的 Taylor Swift 的例子,RG2 能夠?qū)⒋罅康木W(wǎng)頁數(shù)據(jù)集成進來,從而提高機器人的泛化能力。
第三個是 RT-X,能夠跨不同的機器人形態(tài)訓(xùn)練模型。重要的是,我們可以將各個研究實驗室的數(shù)據(jù)整合到一個通用格式,并在此基礎(chǔ)上進行訓(xùn)練。
在訓(xùn)練時,我們發(fā)現(xiàn)可以將一個模型的 checkpoint 發(fā)送到另一個實驗室,即使距離很遠(yuǎn),那個實驗室的研究生也可以在機器人上運行這個 checkpoint,且大多數(shù)情況下,結(jié)果比他們自己在實驗室里單獨迭代出的模型要好。這是一個重要的標(biāo)志,說明這些技術(shù)開始真正起作用,通過匯總來自不同機器人的數(shù)據(jù),的確能夠帶來益處。
checkpoint 是指在模型訓(xùn)練過程中保存模型當(dāng)前狀態(tài)的快照,通常包含模型的權(quán)重、優(yōu)化器的狀態(tài)以及其他訓(xùn)練相關(guān)的參數(shù)。
還有 Aloha 和 Mobile ALOHA,實現(xiàn)了遠(yuǎn)程操作來訓(xùn)練模型,使機器人完成相對復(fù)雜的精巧操作任務(wù)。我們還做了一個后續(xù)的關(guān)于系鞋帶的項目。
當(dāng)我們啟動 PI 時,也是對其他人發(fā)出了信號——如果專家們真的愿意在這個領(lǐng)域下注,那也許真的會有一些變化。
04.Hi Robot 是什么?
Elad:PI 最近推出了分層交互機器人,即 Hi Robot,這是怎么考慮的?
Chelsea Finn:我們試圖關(guān)注兩個方面。第一,如果一個任務(wù)需要較長時間才能完成,即可能需要花費幾分鐘,那么僅依賴單一策略,即從圖像直接輸出動作,可能并不高效。比如在制作三明治的過程中,如果策略只是逐步輸出下一個運動指令,而不考慮整個任務(wù)的整體規(guī)劃,那么效果可能不如通過真正推理和規(guī)劃來完成所有步驟來得更好。
第二,我們希望機器人不僅僅能執(zhí)行基本指令,比如折疊衣服、拿起杯子,而是能夠與人類互動。例如人類可以告訴機器人自己是一個素食主義者,要求機器人做一個三明治,不要加泡菜,或者中途要求機器人暫停放番茄。處理這些類型的提示、進行現(xiàn)場調(diào)整等,和僅僅執(zhí)行基本指令之間有很大的差距。
因此,我們開發(fā)了一個系統(tǒng),有一個模型來接收提示并進行推理,能夠輸出機器人應(yīng)該執(zhí)行的下一步,比如告訴機器人下一步去“拿起番茄”,然后有一個低層次的模型,將“拿起番茄”作為輸入,輸出下一個半秒內(nèi)的命令。
這個項目非常有趣,我們讓機器人做了一個三明治,還做了購物和清理桌子。我最初對它感到興奮,是因為看到機器人能夠響應(yīng)不同的提示并完成這些具有挑戰(zhàn)性的任務(wù),而且, 它似乎是一種正確的方法。
05.機器人需要哪些感官?
Elad:機器人的傳感器現(xiàn)在處于什么階段?
Chelsea Finn:如果僅僅依靠視覺,甚至僅使用 RGB 圖像,我們已經(jīng)走得很遠(yuǎn)了。我們通常會有一個或多個外部的基礎(chǔ)攝像頭來觀察場景,并且還會在機器人的每個手腕上安裝攝像頭。我們可以通過這些設(shè)備取得很好的效果。
如果我們能給機器人裝上“皮膚”就更好了,但目前市面上的觸覺傳感器要么不如皮膚那么耐用,要么成本過高,或者分辨率非常低。所以,在硬件方面有很多挑戰(zhàn)。實際上將 RGB 攝像頭安裝在手腕上非常有幫助,可能能提供與觸覺傳感器相似的很多信息。
Elad:在機器人領(lǐng)域,需要多少傳感器?哪些是必要的,哪些可能不需要?
Chelsea Finn:比如做三明治,你可能希望機器人能夠“品嘗”一下三明治,看看是不是好吃,或者至少能聞到味道。我過去曾多次向 Sergey Levine 提出過“嗅覺”這個觀點,因為嗅覺確實有很多好處。
從某種角度來看,傳感器有冗余性是很好的。比如音頻,當(dāng)人類聽到某個意外的聲音時,實際上可以在許多情況下提醒你注意到某些事情,盡管你可能已經(jīng)通過其他傳感器看到了某個物體掉落。這樣的冗余性可以增強系統(tǒng)的魯棒性。
但對我們來說,現(xiàn)在并不是優(yōu)先考慮這些傳感器的時機,因為當(dāng)前的瓶頸并不在于傳感器,而是在數(shù)據(jù)處理,尤其是在架構(gòu)等方面。
目前我們的機器人策略沒有記憶,機器人只看當(dāng)前的圖像,甚至無法記住半秒鐘前發(fā)生的事情。所以,我寧愿先在我們的模型中加入記憶功能,而不是添加其他傳感器。在沒有其他傳感器的情況下,我們也能夠為許多應(yīng)用場景開發(fā)出商業(yè)可行的機器人。
06.類比自動駕駛,機器人和機器人公司會如何發(fā)展?
Elad:和自動駕駛相比,機器人未來發(fā)展的時間線大概是怎么樣的?
Chelsea Finn:我不知道。自動駕駛和機器人技術(shù)各有難易之處。一方面,機器人更難,因為是一個更高維度的空間,即使是靜態(tài)機器人也有 14 個維度,每只手臂有 7 個維度。在很多情況下,需要比自動駕駛有更高的精確度。我們也沒有一開始就擁有那么多的數(shù)據(jù)。
另一方面,自動駕駛必須解決整個分布問題,才能讓任何技術(shù)具備可行性,必須能夠處理任何時間段的交叉路口、各種行人情景以及其他車輛等。而在機器人技術(shù)中,有很多商業(yè)應(yīng)用場景不需要處理這么大的分布問題,也沒有那么大的安全風(fēng)險,而且自動駕駛領(lǐng)域的結(jié)果非常令人鼓舞,尤其是舊金山 Waymo 車輛數(shù)量的增加。
Elad:類比自動駕駛的發(fā)展,現(xiàn)在的機器人公司會如何發(fā)展?大公司做機器人是否有優(yōu)勢呢?
Chelsea Finn:最近有很多新玩家進入機器人領(lǐng)域。
10 年前,做自動駕駛可能為時過早,但自那時以來,深度學(xué)習(xí)取得了很大的進展。機器人領(lǐng)域也是如此,如果是在 10 年前,甚至 5 年前,我覺得也太早,當(dāng)時的技術(shù)并不成熟,或許現(xiàn)在仍然有些早。
自動駕駛的難度已經(jīng)證明了在物理世界中構(gòu)建智能是多么困難。
我非常喜歡初創(chuàng)公司的環(huán)境,我在 Google 遇到過非常困難的事情,比如考慮到代碼安全,帶著機器人離開校園幾乎是完全不可行的。但如果想收集多樣化的數(shù)據(jù),把機器人帶出校園是很有價值的。而在初創(chuàng)公司中,你可以更快地行動,因為你沒有那些限制和繁瑣的程序。大公司雖然有大量資本,可以支撐得更久,但行動會更慢。
對于初創(chuàng)公司的創(chuàng)始人而言,快速部署、快速學(xué)習(xí)和快速迭代可能是最重要的,而且要盡量去開發(fā),真正讓機器人走到市場上, 并從中學(xué)習(xí)。
07.對訓(xùn)練數(shù)據(jù)和硬件的看法
Elad:怎么看待將人的觀察數(shù)據(jù)作為機器人訓(xùn)練集的一部分,這些數(shù)據(jù)可能來自 YouTube,或者是專門錄制的內(nèi)容。
Chelsea Finn:這些數(shù)據(jù)確實有很大價值,但僅憑這些數(shù)據(jù)并不能走得太遠(yuǎn)。
例如,你觀看奧運游泳運動員比賽,即使你有運動員的體力,但運動員訓(xùn)練自己的肌肉來完成動作的經(jīng)驗也是至關(guān)重要的。
例如,你試圖學(xué)習(xí)如何打好網(wǎng)球,但僅僅通過觀看專業(yè)選手,是無法學(xué)會的。
人類在低級別的運動控制方面已經(jīng)是專家,但機器人并不是這樣。機器人實際上需要從自身的身體經(jīng)驗中來學(xué)習(xí)。所以,能夠利用這種數(shù)據(jù)形式,尤其是擴展機器人自己的經(jīng)驗,是非常有前景的。但要真正取得進展,關(guān)鍵還是要有來自機器人本身的數(shù)據(jù)。
Elad:這些數(shù)據(jù)是你為機器人生成的通用數(shù)據(jù),還是你讓機器人模仿某些活動?
Chelsea Finn:當(dāng)我們收集數(shù)據(jù)時,機器人有點像牽線木偶,我們可以記錄機器人實際的運動指令和傳感器數(shù)據(jù),比如攝像頭圖像,這就是機器人的“經(jīng)驗”。
自動化經(jīng)驗將發(fā)揮巨大作用,就像在語言模型中那樣。得到一個初步的語言模型后,如果能通過強化學(xué)習(xí)讓機器人基于自己的經(jīng)驗自我啟動,那將是非常有價值的。
Elad:哪些數(shù)據(jù)是可泛化的?
Chelsea Finn:數(shù)據(jù)是否可泛化關(guān)鍵在于分布廣度(the breadth of the distribution)。
雖然很難量化或衡量機器人的經(jīng)驗有多廣泛,也沒有辦法將任務(wù)的廣度進行分類,比如一個任務(wù)與另一個任務(wù)有多大不同,一個廚房與另一個廚房有多大差異之類的,但至少可以通過觀察建筑物數(shù)量或場景數(shù)量等因素,粗略了解這種廣度。
Elad:隨著機器人技術(shù)的發(fā)展,未來機器人是會有一個單一的形式,還是會有幾個不同的形式,從而形成一個豐富的生態(tài)系統(tǒng)?
Chelsea Finn:我的猜測是會有很多不同的機器人平臺,各種各樣的機器人硬件類型會涌現(xiàn)出來,我和 Sergey Levine 將其稱為“寒武紀(jì)大爆發(fā)”。只要我們擁有可以支持這些不同機器人的技術(shù)和智能,就像廚房里有各種不同的設(shè)備,各自能做不同的事情,而不是只有一個設(shè)備能做所有事情。
可以想象一個這樣的世界:有一種機器人手臂可以在廚房里做事,它的硬件專門針對廚房工作進行了優(yōu)化,并且可能還會優(yōu)化成對于這個特定用途而言更便宜,還有其他硬件可能設(shè)計用于折疊衣物、洗碗等。
Elad:在 The Diamond Age 這本書中,呈現(xiàn)了一種觀點:物質(zhì)通過管道進入家庭,家庭用 3D 打印機來制作一切,比如你下載圖紙,然后 3D 打印出物品。還有一些人可能會修改設(shè)計,選擇性優(yōu)化某些功能來改進產(chǎn)品。這樣的未來有可能實現(xiàn)嗎?
Chelsea Finn:這樣的世界是非??赡艿?。如果針對某個特定的使用場景來優(yōu)化硬件,是可以制造出更便宜的硬件的。而且這樣的硬件可能也會更快、效率更高等。但實際實現(xiàn)起來是非常困難的。
Elad:預(yù)測未來趨勢確實非常困難。我之所以認(rèn)為硬件平臺的數(shù)量會減少,其中一個原因就是供應(yīng)鏈問題。大規(guī)模生產(chǎn)硬件組件可以降低成本,因此最終市場上的硬件平臺可能會收縮,變成更少但更具規(guī)模效應(yīng)的選擇。
除非某些硬件平臺在成本上有顯著的優(yōu)勢,否則企業(yè)更傾向于生產(chǎn)更少種類的硬件,因為這樣更容易擴展、復(fù)制,并且制造成本更低。從硬件行業(yè)的角度來看,這是一個常見的邏輯。因此,在“多樣化硬件平臺”與“規(guī)?;⒌统杀旧a(chǎn)”之間的權(quán)衡,是一個值得思考的問題。
Chelsea Finn:我們可能會有機器人出現(xiàn)在供應(yīng)鏈中,能夠制造任何想要的定制設(shè)備。
Elad:未來,機器人將無處不在。
編譯:haozhen 編輯:Siqi
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!