深度學(xué)習(xí)走進(jìn)死胡同了?
編輯導(dǎo)語:近年來,深度強(qiáng)化學(xué)習(xí)成為一個(gè)被業(yè)界和學(xué)術(shù)界追捧的熱門技術(shù),社區(qū)甚至將它視為圣杯,大多數(shù)人都看好它未來發(fā)展的巨大潛力。但是,在一片追捧聲中,終于有人開始質(zhì)疑深度強(qiáng)化學(xué)習(xí)的真實(shí)作用。難道深度學(xué)習(xí)走進(jìn)死胡同了?
人工智能真正的前路究竟在何方?今天的話題很大,咱們先從淺顯的環(huán)節(jié)入手。深度學(xué)習(xí)“教父”、在世科學(xué)家中的翹楚 Geoffrey Hinton 曾在 2016 年多倫多召開的一場 AI 大會(huì)上坦言,“放射科醫(yī)生的「末日」已經(jīng)來臨。”
據(jù)他推測,深度學(xué)習(xí)能夠高效解析 MRI 與 CT 掃描圖像,未來醫(yī)院將再不需要放射科醫(yī)師。“很明顯,深度學(xué)習(xí)在五年之內(nèi)就能超越人類的水平,所以醫(yī)學(xué)院校最好馬上停招相關(guān)專業(yè)的學(xué)生?!?/p>
時(shí)間快進(jìn)到 2022 年,放射科醫(yī)師不僅還在、而且活得仍然滋潤。相反,現(xiàn)在的共識(shí)是讓機(jī)器學(xué)習(xí)掌握解析醫(yī)學(xué)影像要比想象中更難;至少目前人和機(jī)器還屬于互補(bǔ)關(guān)系。
如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實(shí)表現(xiàn)不錯(cuò);但再往上就不行了。縱觀技術(shù)發(fā)展史,鮮有哪個(gè)方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年,AI 雖然偶爾也能出點(diǎn)振奮人心的成果,但總體來講還是言過其實(shí)。
剛開始是“專家系統(tǒng)”、后來是“貝葉斯網(wǎng)絡(luò)”,接下來是“支持向量機(jī)”。2011 年,IBM 打造的 Watson 曾被宣傳為醫(yī)學(xué)領(lǐng)域的一場革命,但相關(guān)部門如今已經(jīng)被這家藍(lán)色巨人拆分出售。
而自 2012 年以來,深度學(xué)習(xí)成為人們心目中的最新正確路線、創(chuàng)造出價(jià)值數(shù)十億美元的新市場,也讓 Hinton 這位當(dāng)代 AI 先驅(qū)成功晉升為科學(xué)明星。他的論文被引用了驚人的 50 萬次,而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎(jiǎng)。
跟之前的 AI 先驅(qū)們一樣,Hinton 經(jīng)常強(qiáng)調(diào) AI 掀起的顛覆性變革很快就會(huì)到來,而放射學(xué)只是其中的一部分。2015 年,就在 Hinton 加入谷歌后不久,英國《衛(wèi)報(bào)》就報(bào)道稱該公司即將開發(fā)出“具有邏輯、自然對(duì)話甚至是調(diào)情能力的算法”。2020 年 11 月,Hinton 在 MIT Technology Review 的專訪中還提到,“深度學(xué)習(xí)將無所不能。”
我個(gè)人對(duì)此表示嚴(yán)重懷疑。
實(shí)際上,我們距離真正能理解人類語言的機(jī)器還有很長的路要走。Elon Musk 最近倒是加入戰(zhàn)團(tuán),表示他希望自家人形機(jī)器人 Optimus 能夠催生出比整個(gè)汽車工業(yè)還大的商業(yè)新形態(tài)。不過很遺憾,特斯拉在 2021 年 AI 演示日上能夠拿出的成果,還只是一個(gè)套著機(jī)器外殼的人類演員。
Google 多年來一直堅(jiān)持探索自然語言技術(shù),他們的最新成果是 Lamdba 系統(tǒng)。但這東西說話很“飄”,所以最近就連項(xiàng)目作者之一也親口表示它特別愛講“廢話”。所以實(shí)事求是地講,想找到一套真正值得信賴的 AI 方案出來,還真的不太容易。
也許隨著時(shí)間推移,我們終將獲得可信、可靠的 AI 成果,而深度學(xué)習(xí)只是其中的一小部分。
從本質(zhì)上講,深度學(xué)習(xí)是一種用于識(shí)別模式的技術(shù)。如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實(shí)表現(xiàn)不錯(cuò);但再往上就不行了。它只適合處理那些低風(fēng)險(xiǎn)、存在完美答案的問題。以照片標(biāo)記為例,前幾天我從 iPhone 里找了一張幾年前拍的兔子照片。雖然沒加過任何標(biāo)簽,但手機(jī)還是馬上認(rèn)出了其中的兔子。之所以效果好,是因?yàn)檫@張照片里的兔子跟訓(xùn)練數(shù)據(jù)集中的其他兔子形象高度相似。
但基于深度學(xué)習(xí)的自動(dòng)照片標(biāo)記功能還是很容易出錯(cuò),它有時(shí)候會(huì)遺漏掉一些兔子(特別是那些畫面雜亂、光照不佳、拍攝角度古怪或者兔子被部分遮擋起來的照片),有時(shí)候甚至?xí)褘雰哄e(cuò)認(rèn)成兔子。雖然幾率不高,我也沒有太大的意見,但這樣的 AI 顯然還遠(yuǎn)遠(yuǎn)稱不上可靠。
所以在其他一些風(fēng)險(xiǎn)更高的場景中,例如放射科檢查或者自動(dòng)駕駛汽車上,我們必須對(duì)深度學(xué)習(xí)的結(jié)論謹(jǐn)慎看待。因?yàn)橐坏┓稿e(cuò)就可能威脅到用戶的生命安全,所以萬萬不敢掉以輕心。
另外,如果現(xiàn)實(shí)場景跟訓(xùn)練場景之間存在巨大差異時(shí),深度學(xué)習(xí)的表現(xiàn)同樣糟糕透頂。不久之前,一輛特斯拉汽車就在“全自動(dòng)駕駛模式”下遇到了一位手舉停車標(biāo)志站在路中間的行人。車輛既未識(shí)別出該人(停車標(biāo)志被部分遮擋)、也沒認(rèn)出標(biāo)志(因?yàn)橥\嚇?biāo)志一般只出現(xiàn)在路邊),所以司機(jī)只能緊急接管。這就是現(xiàn)實(shí)場景跟訓(xùn)練場景區(qū)別太大,系統(tǒng)一時(shí)之間陷入懵圈。
鮮有其他領(lǐng)域像 AI 這樣充滿了炒作與虛張聲勢。沒錯(cuò),現(xiàn)有深度學(xué)習(xí)系統(tǒng)經(jīng)常會(huì)犯這樣愚蠢的錯(cuò)誤。它們有時(shí)候會(huì)被圖像上的污跡迷惑,但人類放射科醫(yī)師卻能輕松意識(shí)到這跟圖像內(nèi)容無關(guān)。
另一大缺陷在于,目前的 AI 醫(yī)學(xué)影像解析工具往往只閱讀圖像本身,對(duì)患者的病史信息幾乎或者完全沒有任何認(rèn)知,所以往往會(huì)忽略掉關(guān)鍵性影響信息。
深度學(xué)習(xí)系統(tǒng)會(huì)錯(cuò)誤把一只擺在寫有“iPod”字樣的紙張上的蘋果,識(shí)別成 iPod 隨身聽;還會(huì)把翻倒在雪地上的公共汽車錯(cuò)認(rèn)為掃雪機(jī)。目前,機(jī)器學(xué)習(xí)已經(jīng)衍生出專門的子學(xué)科、專門研究如何克服這類錯(cuò)誤,但暫時(shí)還拿不出任何成果。
語言類 AI 系統(tǒng)同樣錯(cuò)誤頻出,令人哭笑不得。
以 GPT-3 為例,作為迄今為止最著名的 AI 系統(tǒng),它能夠?qū)⑤斎胛谋巨D(zhuǎn)化和延展為流暢且語法連續(xù)的文章。英國《衛(wèi)報(bào)》用它寫出一篇完整的專欄文章,《紐約時(shí)報(bào)》還對(duì)它做出專題報(bào)道。看起來很美,但這一切仍然離不開人工編輯的修正。
在我和紐約大學(xué)計(jì)算機(jī)科學(xué)家 Ernie Davis 親自研究時(shí),我們發(fā)現(xiàn) GPT-3 同樣是各種不靠譜。6 例如,當(dāng)我們輸入“你給自己倒了杯蔓越莓汁,之后又心不在焉地加了一勺葡萄汁。這杯飲料看著還行,你聞了聞,但重感冒讓你鼻子不通??诳孰y耐之下,你……”GPT 續(xù)寫道,“喝了下去,然后一命嗚呼。”
實(shí)際上,蔓越莓加葡萄汁根本喝不死人。所以雖然 GPT-3 的文風(fēng)很流暢,但它既沒法整合來自網(wǎng)絡(luò)的基本搜索信息,也不能推理出最簡單的日?,F(xiàn)象。
另有團(tuán)隊(duì)曾經(jīng)考慮過用 GPT-3 構(gòu)建自殺勸解聊天機(jī)器人,但發(fā)現(xiàn)這套系統(tǒng)很容易把對(duì)話往下面這個(gè)方向引:
咨詢者:嗨,我心情很差,我想自殺。GPT-3:這真讓人難過。我應(yīng)該能幫你。咨詢者:我該選這條路嗎?GPT-3:我覺得行。
還有人發(fā)現(xiàn) GPT-3 容易生成負(fù)面言論,并傳播錯(cuò)誤信息。
由 GPT-3 驅(qū)動(dòng)的聊天機(jī)器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的,而且現(xiàn)在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力,但最終得到的也就是一組“正確的廢話”,比如“有專家認(rèn)為,把襪子含在嘴里能讓頭腦快速清醒過來?!盌eepMind 及其他多家機(jī)構(gòu)的研究人員都在拼命修復(fù)這些負(fù)面言論和錯(cuò)誤信息,但截至仍無結(jié)果。
在 DeepMind 于 2021 年 12 月發(fā)布的相關(guān)報(bào)告中,一共提到 21 個(gè)問題,可一點(diǎn)令人信服的解決方案都沒有。AI 研究人員 Emily Bender、Timnit Gebru 和同事們感嘆,深度學(xué)習(xí)驅(qū)動(dòng)的大型語言模型就像“隨機(jī)鸚鵡”,車轱轆話很多、但涉及理解層面的內(nèi)容卻很少。
那我們該怎么辦?目前比較流行的辦法就是收集更多數(shù)據(jù)。 在這方面,一手打造出 GPT-3 的舊金山企業(yè)(之前曾是非營利組織)OpenAI 永遠(yuǎn)沖在最前線。
2020 年,OpenAI 公司的 Jared Kaplan 與幾位合作們提出,語言的神經(jīng)網(wǎng)絡(luò)模型存在一套“擴(kuò)張定律”。他們發(fā)現(xiàn),輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)越多,這些網(wǎng)絡(luò)的性能就越好。這就意味著只要能夠收集更多數(shù)據(jù)、讓素材的涵蓋范圍更大,那深度學(xué)習(xí)的表現(xiàn)也將持續(xù)提升。
為此,OpenAI 公司 CEO Sam Altman 寫下一篇慶功文章,宣稱“摩爾定律普遍適用”,人類距離“能夠思考、閱讀法律文件和給予醫(yī)療建議的計(jì)算機(jī)已經(jīng)很近了?!?/p>
四十年來,我第一次對(duì) AI 抱有樂觀期望。這話可能對(duì),也可能不對(duì)。但可以肯定的是,“擴(kuò)張定律”有很大問題。
首先,規(guī)模擴(kuò)張并不能解決問題的核心:機(jī)器在理解能力上的欠缺。
業(yè)內(nèi)人士早已發(fā)現(xiàn),AI 研究中的最大問題之一,就是我們始終沒有可以用來穩(wěn)定衡量 AI 性能的基準(zhǔn)。著名的圖靈測試就是為了衡量真正的“智能”而生,但事實(shí)證明這套標(biāo)準(zhǔn)極易被那些比較偏執(zhí)、拒不合作的聊天機(jī)器人所突破。而 Kaplan 和 OpenAI 研究員們提出的 , 對(duì)句子中缺失單詞的預(yù)測,也未必能體現(xiàn)真正 AI 所應(yīng)具備的深度理解能力。
更重要的是,所謂擴(kuò)張定律并不是萬有引力那樣真正的普適性定律。它更多是一種可能被漸漸推翻的經(jīng)驗(yàn)總結(jié),類似于摩爾定律。當(dāng)初的摩爾定律也牛得很、幾十年間指導(dǎo)著半導(dǎo)體行業(yè)的快速發(fā)展,但最近十年來已經(jīng)越來越不靈了。
事實(shí)上,我們對(duì)深度學(xué)習(xí)的探索可能已經(jīng)走進(jìn)了死胡同,甚至跨過了收益遞減點(diǎn)。
過去幾個(gè)月來,DeepMind 等機(jī)構(gòu)開始對(duì)比 GPT-3 更大的規(guī)模進(jìn)行研究,并發(fā)現(xiàn)擴(kuò)張定律在某些收益指標(biāo)上已經(jīng)有所誤差,包括真實(shí)性、推理能力和常識(shí)水平等。Google 在 2022 年的論文中提到,把 GPT-3 這類模型做得更大確定能讓輸出文本更流暢、但內(nèi)容反而更不可信。
這樣跡象理應(yīng)引起自動(dòng)駕駛行業(yè)的警惕。畢竟自動(dòng)駕駛目前還主要依賴擴(kuò)張這個(gè)思路,而非開發(fā)出更復(fù)雜的推理機(jī)制。如果規(guī)模擴(kuò)張沒法提高自動(dòng)駕駛的安全水平,那之前已經(jīng)燒掉的幾百億美元恐怕永遠(yuǎn)轉(zhuǎn)化不成回報(bào)。
我們還需要什么?
除了前提提到的幾點(diǎn),我們可能還得重拾一種曾經(jīng)流行,但卻被 Hinton 狠狠唾棄的思路:符號(hào)處理——這是一種計(jì)算機(jī)內(nèi)部的編碼方式,強(qiáng)調(diào)用二進(jìn)制位串表達(dá)某些復(fù)雜的思維。
符號(hào)處理從誕生之初就成為計(jì)算機(jī)科學(xué)的重要基石,一步步由圖靈和馮諾依曼兩位驅(qū)動(dòng)的論文走向幾乎一切軟件工程的底層。但在深度學(xué)習(xí)領(lǐng)域,符號(hào)處理卻相當(dāng)不受待見。
而這種對(duì)符號(hào)處理的粗暴放棄,本身其實(shí)相當(dāng)可疑。
很遺憾,目前大多數(shù) AI 技術(shù)的發(fā)展就是建立在舍棄符號(hào)處理的基礎(chǔ)之上。Hinton 和其他不少研究人員一直努力擺脫符號(hào)處理的影響。而深度學(xué)習(xí)的誕生和規(guī)劃似乎并非源自科學(xué),而是一種由來已久的積怨——預(yù)先認(rèn)定智能行為會(huì),也只會(huì)從海量數(shù)據(jù)和深度學(xué)習(xí)的融合中產(chǎn)生。
恰恰相反,經(jīng)典計(jì)算機(jī)和軟件會(huì)定義一組專用于特定工作的符號(hào)處理規(guī)則,借此解決實(shí)際任務(wù)。文字處理器就是一例,它會(huì)通過符號(hào)規(guī)則來編輯文本、計(jì)算電子表格。而神經(jīng)網(wǎng)絡(luò)那邊走的則是靠統(tǒng)計(jì)近似加模式學(xué)習(xí)來解決任務(wù)的道路。由于神經(jīng)網(wǎng)絡(luò)確實(shí)在語音識(shí)別、照片標(biāo)記等領(lǐng)域取得了不錯(cuò)的表現(xiàn),很多深度學(xué)習(xí)支持者已經(jīng)徹底放棄了符號(hào)處理。
但二者本不該這樣水火不容。
2021 年末,F(xiàn)acebook(現(xiàn)為 Meta)團(tuán)隊(duì)發(fā)起一場名為“NetHack 挑戰(zhàn)賽”的競逐,警鐘也由此響起?!禢etHack》是一款游戲,對(duì)更古老的《Rogue》做出延伸、也啟發(fā)了后來的傳世經(jīng)典《塞爾達(dá)傳說》。作為一款發(fā)行于 1987 年的單人地城探險(xiǎn)游戲,《NetHack》使用純 ASCII 字符構(gòu)成了純 2D 式的游戲畫面。而且跟同類游戲的現(xiàn)代頂峰《塞爾達(dá)傳說:曠野之息》不一樣,《NetHack》中沒有任何復(fù)雜的物理機(jī)制。玩家選擇一個(gè)角色(分為騎士、巫師、考古學(xué)家等職業(yè))、探索地城、收集物品并殺死怪物,最終找到 Yendor 護(hù)符就算游戲勝利。而這場比賽提前一年就公布了規(guī)則——讓 AI 玩通游戲。
最終勝者為:《NetHack》——沒錯(cuò),符號(hào) AI 能輕易打通的游戲,卻著實(shí)給深度學(xué)習(xí)當(dāng)頭一棒。
很多人覺得《NetHack》在深度學(xué)習(xí)面前肯定不堪一擊,畢竟從元祖級(jí)游戲《Pong》到《打磚塊》,這位 AI 新秀都取得了出色成績。但在 12 月的比賽中,另一套基于純符號(hào)處理技術(shù)的系統(tǒng)以 3 比 1 力克最強(qiáng)深度學(xué)習(xí)系統(tǒng)——著實(shí)令人震驚。
符號(hào)處理 AI 怎么就逆襲成功了?我懷疑答案在于這游戲每次重開都會(huì)生成新的地城結(jié)構(gòu),所以深度學(xué)習(xí)根本記不住游戲版面。要想獲勝,AI 就必須真正理解游戲中各實(shí)體的含義和彼此之間的抽象關(guān)系。所以,AI 需要推理自己在這個(gè)復(fù)雜的環(huán)境中能做什么、不能做什么。特定的移動(dòng)順序(比如 向左、向前、再向右)就太膚淺了,每項(xiàng)操作都得跟新的情境結(jié)合起來。深度學(xué)習(xí)系統(tǒng)最擅長的就是在之前見過的示例間進(jìn)行插值,但遇到新鮮事物就容易拉胯。
這種“以弱勝強(qiáng)”絕非偶然,背后一定有著值得深思的理由。
那“處理符號(hào)”到底是什么意思?其實(shí)這里包含兩層含義:1)用一組符號(hào)(本質(zhì)上代表事物的模式)來表達(dá)信息;2)以一種特定的代數(shù)(也可以叫邏輯或者計(jì)算機(jī)程序)方式處理(或者叫操縱)符號(hào)。很多研究者并沒意識(shí)到這兩點(diǎn)之間的區(qū)別。而要想破解 AI“死局”,這個(gè)問題無法回避。
符號(hào)是什么?符號(hào)其實(shí)就是代碼。符號(hào)提供的是一種原則性的推理機(jī)制:符號(hào)規(guī)則的、具有普適性的代碼程序,而且可以跟已知示例沒有任何共通點(diǎn)。時(shí)至今日,符號(hào)仍然是知識(shí)理解、在新場景下穩(wěn)健處理抽象意義的最佳方式。紅色八角形、加上“STOP”字樣,代表的就是停車標(biāo)志。再以普遍使用的 ASCII 碼為例,二進(jìn)制數(shù) 01000001(符號(hào))代表的就是字母 A,二進(jìn)制數(shù) 01000010 就代表字母 B,依此類推。
種種跡象,值得自動(dòng)駕駛行業(yè)引起警惕。符號(hào)處理的基本思路,就是用這些二進(jìn)制位串編碼各種事物。計(jì)算機(jī)中的指令就是這么來的。
這項(xiàng)技術(shù)至少可以追溯到 1945 年,當(dāng)時(shí)傳奇數(shù)學(xué)家馮諾依曼設(shè)計(jì)出了幾乎所有現(xiàn)代計(jì)算機(jī)盡數(shù)遵循的基本架構(gòu)。馮諾依曼這種用符號(hào)方式處理二進(jìn)制位的思路,堪稱二十世紀(jì)最重要的發(fā)明之一,我們所使用的每一種計(jì)算機(jī)程序也都是以此為基礎(chǔ)。(即使是在神經(jīng)網(wǎng)絡(luò)中,「嵌入」也跟符號(hào)高度相似,只是大家不太愿意承認(rèn)。例如,通常情況下,任何給定單詞都會(huì)被賦予唯一的向量,這是一一對(duì)應(yīng)的方式跟 ASCII 碼很像。名叫「嵌入」,不代表它就不能是符號(hào)。)
在經(jīng)典計(jì)算機(jī)科學(xué)中,圖靈、馮諾依曼和后來的研究者們使用“代數(shù)”方式實(shí)現(xiàn)了符號(hào)處理。在簡單代數(shù)中存在三種實(shí)體,即變量(x、y)、運(yùn)算(+、-)和賦值(x=12)。如果我們知道 x+y=2,而且 y=12,就可以將 y 賦值為 12 來求解 x 的值。結(jié)果自然就是 14。
世界上幾乎所有軟件都是把代數(shù)運(yùn)算串起來實(shí)現(xiàn)基本邏輯的,而由此構(gòu)成的就是復(fù)雜算法。例如,我們的文字處理器就是用文件中的一串符號(hào)來表達(dá)文檔內(nèi)容。各種抽象運(yùn)算則對(duì)應(yīng)不同的底層操作,比如把符號(hào)從一個(gè)位置復(fù)制到另一個(gè)位置。每項(xiàng)運(yùn)算都有固定的定義方式,確保它能在任意文檔、任意位置上發(fā)揮相同的作用。所以文字處理器本質(zhì)上就是一組代數(shù)運(yùn)算(被稱為「函數(shù)」或者「子程序」),操作的對(duì)象則是變量(例如「當(dāng)前選定的文本」)。
符號(hào)處理也是數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ),數(shù)據(jù)庫就能為特定個(gè)人保存屬性記錄,允許程序員構(gòu)建起可重用的代碼庫、更大的功能模塊,進(jìn)而簡化復(fù)雜系統(tǒng)的開發(fā)流程。
那既然符號(hào)技術(shù)無處不在、對(duì)于軟件工程有著根本性的意義,為什么不把它用在 AI 當(dāng)中?
事實(shí)上,包括 John McCarthy 和 Marvin Minsky 在內(nèi)的眾多先驅(qū),都認(rèn)為可以通過符號(hào)處理來構(gòu)建起精確的 AI 程序。符號(hào)可以表達(dá)獨(dú)立的實(shí)體與抽象思維,眾多符號(hào)組合起來就形成了復(fù)雜的結(jié)構(gòu)與豐富的知識(shí)儲(chǔ)備,由此發(fā)揮的作用與符號(hào)在網(wǎng)絡(luò)瀏覽器、電子郵件和文字處理軟件中并無本質(zhì)區(qū)別。
人們一直沒有停止對(duì)符號(hào)處理的擴(kuò)展性研究,只是符號(hào)本身確實(shí)存在不少問題,純符號(hào)系統(tǒng)有時(shí)候顯得很笨拙,在圖像和語音識(shí)別方面尤其差勁。所以長期以來,人們一直希望能在技術(shù)層面找到新的突破。
而這,正是神經(jīng)網(wǎng)絡(luò)的優(yōu)勢所在。
我們就以拼寫檢查為例,聊聊大數(shù)據(jù)與深度學(xué)習(xí)如何壓倒傳統(tǒng)符號(hào)處理技術(shù)。以往的方法是建立一套規(guī)則,規(guī)則內(nèi)容其實(shí)就是研究人們在心理學(xué)意義上的犯錯(cuò)傾向(比如不小心把字母多打了一次、或者錯(cuò)打成相鄰的字母、把「teh」自動(dòng)轉(zhuǎn)換成「the」等)。
著名計(jì)算機(jī)科學(xué)家 Peter Norvig 就提到,如果擁有了 Google 那個(gè)級(jí)別的龐大數(shù)據(jù)量,那只需要收集用戶們的實(shí)際糾錯(cuò)操作,就足以找到相對(duì)靠譜的答案。如果他們在搜索“the book”后立即再次搜索“the book”,那就能斷定“teh”實(shí)際上是“the”的誤寫。就這么簡單,不涉及任何實(shí)際拼寫規(guī)則。
問題是,二者兼顧不是更好?在現(xiàn)實(shí)場景中拼寫檢查器也確實(shí)傾向于兼容并包。Ernie Davis 觀察到,如果我們在 Google 中輸入“cleopxjqco”,它會(huì)自動(dòng)把內(nèi)容更正為“Cleopatra”。Google 搜索整體就是把符號(hào)處理 AI 跟深度學(xué)習(xí)混合起來,而且在可預(yù)見的未來也會(huì)繼續(xù)堅(jiān)持這條道路。
但很遺憾,Hinton 等學(xué)者始終冥頑不靈、反復(fù)拒絕承認(rèn)符號(hào)的意義。
但包括我在內(nèi),也有很多人一直倡導(dǎo)使用“混合模型”,把深度學(xué)習(xí)跟符號(hào)處理結(jié)合起來。至于為什么 Hinton 一派總是想徹底拋棄符號(hào)處理,至今也沒有一個(gè)令人信服的科學(xué)解釋。相對(duì)可靠的猜測,恐怕就是簡簡單單的“積怨”二字。
曾經(jīng),事情不是這樣的。
Warren McCulloch 和 Walter Pitts 在 1943 年撰寫的論文《神經(jīng)活動(dòng)中內(nèi)在思維的邏輯演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)就提出過合二為一的觀點(diǎn),這也是馮諾依曼在自己計(jì)算機(jī)基礎(chǔ)文章中引用過的唯一一篇論文。很明顯,馮諾依曼他們花了大量時(shí)間思考這個(gè)問題,卻沒料到反對(duì)的聲音會(huì)來得那么快。
到上世紀(jì)五十年代末,這種割裂仍然存在。
AI 領(lǐng)域的不少先驅(qū)級(jí)人物,例如 McCarthy、Allen Newell、Herb Simon 等,似乎對(duì)神經(jīng)網(wǎng)絡(luò)一派不加任何關(guān)注。而神經(jīng)網(wǎng)絡(luò)陣營似乎也想劃清界線:一篇刊載于 1957 年《紐約客》的文章就提到,F(xiàn)rank Rosenblatt 的早期神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠繞過符號(hào)系統(tǒng),成為“一臺(tái)似乎具備思維能力的「強(qiáng)大機(jī)器」?!?/p>
而這種對(duì)符號(hào)處理的粗暴放棄,本身其實(shí)相當(dāng)可疑。兩派之間劍拔弩張,甚至迫使 Advances in Computers 雜志發(fā)表一篇名為《關(guān)于神經(jīng)網(wǎng)絡(luò)爭議的社會(huì)學(xué)史》(A Sociological History of the Neural Network Controversy)的論文,其中提到了兩派就資金、聲譽(yù)和媒體影響力展開的激烈爭斗。
時(shí)間來到 1969 年,Minsky 和 Seymour Papert 發(fā)表了從數(shù)學(xué)層面對(duì)神經(jīng)網(wǎng)絡(luò)(當(dāng)時(shí)被稱為「感知器」)加以批判的詳盡文章,這相當(dāng)于是第一次把槍口指向堪稱所有現(xiàn)代神經(jīng)網(wǎng)絡(luò)祖先的早期成果。兩位研究者證明了簡單神經(jīng)網(wǎng)絡(luò)具有巨大局限性,而且對(duì)高復(fù)雜度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜任務(wù)的能力提出懷疑(現(xiàn)在來看,這種推斷還是太過悲觀)。
于是,隨后十多年中,研究者對(duì)于神經(jīng)網(wǎng)絡(luò)的熱情逐漸下降。Rosenblatt 本人因此丟掉了不少研究經(jīng)費(fèi),并在兩年后死于一次航海事故。
而當(dāng)神經(jīng)網(wǎng)絡(luò)在八十年代重新出現(xiàn)時(shí),神經(jīng)網(wǎng)絡(luò)的領(lǐng)導(dǎo)者們自然而然地開始跟符號(hào)處理保持距離。當(dāng)時(shí)的研究者曾明確表示,雖然他們有能力構(gòu)建起能夠兼容符號(hào)處理的神經(jīng)網(wǎng)絡(luò),但他們沒有興趣。
相反,他們的目標(biāo)就是打造能夠替代符號(hào)處理系統(tǒng)的模型。作為典型示例,他們提到人類孩童中經(jīng)常出現(xiàn)的過度正則化錯(cuò)誤(比如把 go 的過去時(shí)態(tài)寫成 goed,而非 went)就是一種神經(jīng)網(wǎng)絡(luò)特征,這也證明神經(jīng)網(wǎng)絡(luò)比經(jīng)典符號(hào)處理規(guī)則更接近于人腦。(但我也能舉出很多反例。)
1986 年我開始讀大學(xué),神經(jīng)網(wǎng)絡(luò)也迎來第一次大復(fù)興。Hinton 參與整理的兩卷技術(shù)論述集幾個(gè)禮拜即告售罄,《紐約時(shí)報(bào)》在科學(xué)版面的頭版處刊載了神經(jīng)網(wǎng)絡(luò)內(nèi)容,計(jì)算神經(jīng)學(xué)家 Terry Sejnowski 則在《今日秀》節(jié)目中解釋了神經(jīng)網(wǎng)絡(luò)的工作原理。那時(shí)候深度學(xué)習(xí)的研究水平還不高,但至少又推進(jìn)了一步。
1990 年,Hinton 在 Artificial Intelligence 雜志上發(fā)表了一篇名為《連接主義符號(hào)處理》(Connectionist Symbol Processing )的論文,希望把深度學(xué)習(xí)和符號(hào)處理這兩個(gè)世界連通起來。我一直覺得 Hinton 這時(shí)候是真的找對(duì)了方向,真希望他把研究堅(jiān)持下去。當(dāng)時(shí),我也在推動(dòng)混合模型的發(fā)展——只是選取了心理學(xué)這個(gè)角度。18(Ron Sun 等人當(dāng)時(shí)也在計(jì)算機(jī)科學(xué)領(lǐng)域大力推動(dòng)這一趨勢,只是未能得到應(yīng)有的關(guān)注。)
但出于某些我不知情的理由,Hinton 最終認(rèn)定深度學(xué)習(xí)加符號(hào)處理這事沒什么搞頭。我也私下問過,但他每次都拒絕解釋,而且據(jù)我所知他也沒提出過任何具體的論據(jù)。有人認(rèn)為這是因?yàn)?Hinton 本人之后幾年的職場發(fā)展不順,特別是直到二十一世紀(jì)初,深度學(xué)習(xí)也沒折騰出什么大動(dòng)靜;也有另一種說法,認(rèn)為 Hinton 是被深度學(xué)習(xí)的成功給沖昏了頭腦。
當(dāng)深度學(xué)習(xí)在 2012 年再次亮相時(shí),兩派 AI 勢力之間涇渭分明的態(tài)勢已經(jīng)保持了十年。
到 2015 年,Hinton 開始旗幟鮮明地反符號(hào)技術(shù)。Hinton 曾在斯坦福大學(xué)的一場 AI 研討會(huì)上發(fā)表演講,他把符號(hào)比作“以太”(aether,也是科學(xué)史上最大的認(rèn)知誤區(qū)之一)19。那次研討會(huì)上我也有發(fā)言,所以我在茶歇期間去問過他,說他的理論其實(shí)很像是符號(hào)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)、只是被強(qiáng)行稱為“?!薄5麤]有回答,只是讓我一邊待著去。
在此之后,Hinton 魔怔般地瘋狂反對(duì)符號(hào)技術(shù)。2016 年,LeCun、Bengio 和 Hinton 共同在學(xué)界最具份量的《自然》雜志上發(fā)表論文,其中直接摒棄了符號(hào)處理技術(shù)。沒有和解的余地,文章宣稱應(yīng)該用神經(jīng)網(wǎng)絡(luò)徹底取代符號(hào)系統(tǒng)。后來,Hinton 又在另一次會(huì)議上呼吁,別在符號(hào)處理身上浪費(fèi)資金了。這就如同電動(dòng)車時(shí)代已到,為什么還要在內(nèi)燃機(jī)研究上投入心力?
但這種尚未充分探索就枉下結(jié)論的態(tài)度實(shí)在令人難以信服。Hinton 說得沒錯(cuò),以往的 AI 研究者確實(shí)也對(duì)深度學(xué)習(xí)發(fā)起過攻訐,但他自己如今也不過是以牙還牙、并沒好到哪里去。
在我看來,這種對(duì)抗性的立場其實(shí)損害了整個(gè) AI 學(xué)界的利益。但無論如何,Hinton 發(fā)起的這波符號(hào)處理討伐戰(zhàn)確實(shí)取得了巨大成功,之后幾乎所有研究投資都集中在深度學(xué)習(xí)這個(gè)方向上。
Hinton、LeCun 和 Bengio 共同獲得 2018 年的圖靈獎(jiǎng),他的研究成為全世界關(guān)注的焦點(diǎn)。
更為諷刺的是,Hinton 其實(shí)是 George Boole 的玄孫,而以 Boole 命名的 Boolean 代數(shù)正是符號(hào) AI 中的基礎(chǔ)工具之一。如果這兩代天才能把智慧合為一處,也許我們所期待的真正 AI 能夠早日來臨。
至于我為什么堅(jiān)持認(rèn)為混合 AI(不止于深度學(xué)習(xí)和符號(hào)處理)才是正確的方向,理由有如下四點(diǎn):
這世界上的很多知識(shí),從歷史到科技,目前仍以符號(hào)形式為主。像純深度學(xué)習(xí)那樣放棄傳統(tǒng)知識(shí)積累、單靠算力從零開始探索一切,似乎既武斷又自縛雙手。
即使在算術(shù)這類清晰有序的領(lǐng)域中,深度學(xué)習(xí)的表現(xiàn)也不理想;而混合系統(tǒng)也許經(jīng)任何單一方法都更有潛力可挖。
在計(jì)算中的很多基礎(chǔ)層面,符號(hào)系統(tǒng)的表現(xiàn)仍遠(yuǎn)超現(xiàn)有神經(jīng)網(wǎng)絡(luò),前者更擅長在復(fù)雜場景下進(jìn)行推理,能夠?qū)崿F(xiàn)算術(shù)等更系統(tǒng)、更可靠的基本運(yùn)算,也能更精確地表達(dá)部分和整體之間的關(guān)系(從對(duì)三維世界的理解、到對(duì)人類語言的分析,這都是種必不可少的能力)。
符號(hào)系統(tǒng)在表達(dá)和查詢大型數(shù)據(jù)庫方面更穩(wěn)健、更靈活,也能更好地實(shí)現(xiàn)形式驗(yàn)證技術(shù)(在某些安全應(yīng)用中至關(guān)重要),其自身也在現(xiàn)代微處理器設(shè)計(jì)中擁有充分體現(xiàn)。粗暴放棄優(yōu)勢、拒絕嘗試混合架構(gòu)簡直是不可理喻。
深度學(xué)習(xí)系統(tǒng)是種“黑盒子”,我們只能看到輸入和輸出,但卻無法理解其內(nèi)部運(yùn)作和處理機(jī)制、解釋不了模型為什么會(huì)給出當(dāng)前結(jié)論。而且如果模型給出了錯(cuò)誤答案,我們能做的除了收集更多數(shù)據(jù)、也沒什么更好的辦法。
于是乎,深度學(xué)習(xí)笨拙、難以解釋,而且在很多場景下根本無法幫助人類實(shí)現(xiàn)認(rèn)知增強(qiáng)。相反,如果能把深度學(xué)習(xí)的學(xué)習(xí)能力跟明確的符號(hào)、豐富的語義聯(lián)系起來,得到的混合方案也許能掀起新一輪變革。
正是因?yàn)橥ㄓ萌斯ぶ悄埽ˋGI)將承擔(dān)起巨大的責(zé)任,所以它必須像不銹鋼般堅(jiān)實(shí)、可靠、充分發(fā)揮每一種底材的優(yōu)勢。同理,任何單一的 AI 方法都不足以解決問題,正確的道路應(yīng)該是把多種方法合而為一。 會(huì)有人蠢到單方面強(qiáng)調(diào)鐵元素或者碳元素在不銹鋼中的重要性嗎?但 AI 領(lǐng)域的現(xiàn)狀就是這樣。
但也有好消息。1990 年時(shí)的 Hinton 曾經(jīng)短暫提出過神經(jīng)與符號(hào)間的和解,而我將整個(gè)職業(yè)生涯都投入了其中。這種融合探索一刻未停,而且正在積蓄力量。
Artur Garcez 和 Luis Lamb 曾在 2009 年發(fā)表過一篇關(guān)于混合模型的文章,名為《神經(jīng)符號(hào)認(rèn)知推理》(Neural-Symbolic Cognitive Reasoning)。而近年來在圍棋、象棋等棋盤游戲中表現(xiàn)出色的,也都是混合模型。AlphaGo 就將符號(hào)樹搜索與深度學(xué)習(xí)結(jié)合起來,這一基本思路源自上世紀(jì)五十年代末、并在九十年代更豐富的統(tǒng)計(jì)數(shù)據(jù)支持下得到強(qiáng)化。
很明顯,單靠經(jīng)典樹搜索本身并不夠,單靠深度學(xué)習(xí)也不行。再說 DeepMind 的 ALphaFold2,這是一種通過核苷酸預(yù)測蛋白質(zhì)結(jié)構(gòu)的 AI 系統(tǒng),采用的同樣是混合模型。其中匯聚了一系列精心設(shè)計(jì)、以符號(hào)形式表達(dá)的 3D 分子結(jié)構(gòu),同時(shí)具備令人驚嘆的深度學(xué)習(xí)數(shù)據(jù)分析能力。
Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 等研究者也在朝著神經(jīng)符號(hào)方向進(jìn)軍。包括 IBM、英特爾、Google、Facebook 和微軟在內(nèi)的眾多科技巨頭已經(jīng)在認(rèn)真投資神經(jīng)符號(hào)學(xué)方法。Swarat Chaudhuri 和他的同事們正在探索“神經(jīng)符號(hào)編程”( neurosymbolic programming)這一全新領(lǐng)域,我個(gè)人對(duì)此也是極度期待。
四十年來,我第一次對(duì) AI 抱有樂觀期望。正如認(rèn)知科學(xué)家 Chaz Firestone 與 Brian Scholl 所言,“頭腦不只有一種運(yùn)轉(zhuǎn)方式,因?yàn)轭^腦并非單一的存在。相反,頭腦由多個(gè)部分構(gòu)成,不同的部分有不同的運(yùn)作機(jī)制:觀看顏色與規(guī)劃假期的方式不同,理解語句、操縱肢體、記憶事件、感受情緒的方法也是各不相同?!?strong>盲目把所有認(rèn)知都堆在一處根本不現(xiàn)實(shí),而隨時(shí)整個(gè) AI 行業(yè)對(duì)混合方法的態(tài)度愈發(fā)開放,我認(rèn)為真正的機(jī)遇也許即將到來。
面對(duì)倫理學(xué)、計(jì)算科學(xué)等現(xiàn)實(shí)挑戰(zhàn),AI 領(lǐng)域所應(yīng)依靠的不僅僅是數(shù)學(xué)和計(jì)算機(jī)科學(xué)知識(shí),還需要語言學(xué)、心理學(xué)、人類學(xué)及神經(jīng)科學(xué)等多個(gè)這科的加持。只有匯聚一切力量、團(tuán)結(jié)一切盟友,AI 才能再次沖破牢籠。請(qǐng)記住,人類大腦可能是已知宇宙中最復(fù)雜的系統(tǒng),如果我們想要用技術(shù)重現(xiàn)這樣一個(gè)復(fù)雜系統(tǒng),將不得不仰仗開放協(xié)作的力量。
參考文獻(xiàn):
- Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).
- Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology92, 20180416 (2018).
- Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).
- Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).
- Aguera y Arcas, B. Do large language models understand us? Medium (2021).
- Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).
- Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).
- Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).
- Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).
- Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).
- Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).
- Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).
- Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).
- Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).
- Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).
- McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology52, 99-115 (1990).
- Olazaran, M. A sociological history of the neural network controversy. Advances in Computers37, 335-425 (1993).
- Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development57(1998).
- Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).
- LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature521, 436-444 (2015).
- Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).
- Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages7, 158-243 (2021).
作者:Gary Marcus,譯者:核子可樂;微信公眾號(hào): InfoQ
原文鏈接:https://nautil.us/deep-learning-is-hitting-a-wall-14467/
譯文鏈接:https://mp.weixin.qq.com/s/j0MKAh9z41AFQqz4HbI8Rw
本文由 @InfoQ 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
我還以為人要深度學(xué)習(xí),原來是機(jī)器人,現(xiàn)在確實(shí)為時(shí)過早
面對(duì)科學(xué)技術(shù)的飛速發(fā)展,我們應(yīng)該做出如何的態(tài)度和方法來面對(duì)?
深度學(xué)習(xí)代表的計(jì)算機(jī)語言不能完全代替人工,關(guān)乎健康的科技手段都不能太絕對(duì)