深度學(xué)習(xí)走進(jìn)死胡同了?

3 評(píng)論 4559 瀏覽 6 收藏 41 分鐘

編輯導(dǎo)語:近年來,深度強(qiáng)化學(xué)習(xí)成為一個(gè)被業(yè)界和學(xué)術(shù)界追捧的熱門技術(shù),社區(qū)甚至將它視為圣杯,大多數(shù)人都看好它未來發(fā)展的巨大潛力。但是,在一片追捧聲中,終于有人開始質(zhì)疑深度強(qiáng)化學(xué)習(xí)的真實(shí)作用。難道深度學(xué)習(xí)走進(jìn)死胡同了?

人工智能真正的前路究竟在何方?今天的話題很大,咱們先從淺顯的環(huán)節(jié)入手。深度學(xué)習(xí)“教父”、在世科學(xué)家中的翹楚 Geoffrey Hinton 曾在 2016 年多倫多召開的一場 AI 大會(huì)上坦言,“放射科醫(yī)生的「末日」已經(jīng)來臨。”

據(jù)他推測,深度學(xué)習(xí)能夠高效解析 MRI 與 CT 掃描圖像,未來醫(yī)院將再不需要放射科醫(yī)師。“很明顯,深度學(xué)習(xí)在五年之內(nèi)就能超越人類的水平,所以醫(yī)學(xué)院校最好馬上停招相關(guān)專業(yè)的學(xué)生?!?/p>

時(shí)間快進(jìn)到 2022 年,放射科醫(yī)師不僅還在、而且活得仍然滋潤。相反,現(xiàn)在的共識(shí)是讓機(jī)器學(xué)習(xí)掌握解析醫(yī)學(xué)影像要比想象中更難;至少目前人和機(jī)器還屬于互補(bǔ)關(guān)系。

如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實(shí)表現(xiàn)不錯(cuò);但再往上就不行了。縱觀技術(shù)發(fā)展史,鮮有哪個(gè)方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年,AI 雖然偶爾也能出點(diǎn)振奮人心的成果,但總體來講還是言過其實(shí)。

剛開始是“專家系統(tǒng)”、后來是“貝葉斯網(wǎng)絡(luò)”,接下來是“支持向量機(jī)”。2011 年,IBM 打造的 Watson 曾被宣傳為醫(yī)學(xué)領(lǐng)域的一場革命,但相關(guān)部門如今已經(jīng)被這家藍(lán)色巨人拆分出售。

而自 2012 年以來,深度學(xué)習(xí)成為人們心目中的最新正確路線、創(chuàng)造出價(jià)值數(shù)十億美元的新市場,也讓 Hinton 這位當(dāng)代 AI 先驅(qū)成功晉升為科學(xué)明星。他的論文被引用了驚人的 50 萬次,而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎(jiǎng)。

跟之前的 AI 先驅(qū)們一樣,Hinton 經(jīng)常強(qiáng)調(diào) AI 掀起的顛覆性變革很快就會(huì)到來,而放射學(xué)只是其中的一部分。2015 年,就在 Hinton 加入谷歌后不久,英國《衛(wèi)報(bào)》就報(bào)道稱該公司即將開發(fā)出“具有邏輯、自然對(duì)話甚至是調(diào)情能力的算法”。2020 年 11 月,Hinton 在 MIT Technology Review 的專訪中還提到,“深度學(xué)習(xí)將無所不能。

我個(gè)人對(duì)此表示嚴(yán)重懷疑。

實(shí)際上,我們距離真正能理解人類語言的機(jī)器還有很長的路要走。Elon Musk 最近倒是加入戰(zhàn)團(tuán),表示他希望自家人形機(jī)器人 Optimus 能夠催生出比整個(gè)汽車工業(yè)還大的商業(yè)新形態(tài)。不過很遺憾,特斯拉在 2021 年 AI 演示日上能夠拿出的成果,還只是一個(gè)套著機(jī)器外殼的人類演員。

Google 多年來一直堅(jiān)持探索自然語言技術(shù),他們的最新成果是 Lamdba 系統(tǒng)。但這東西說話很“飄”,所以最近就連項(xiàng)目作者之一也親口表示它特別愛講“廢話”。所以實(shí)事求是地講,想找到一套真正值得信賴的 AI 方案出來,還真的不太容易。

也許隨著時(shí)間推移,我們終將獲得可信、可靠的 AI 成果,而深度學(xué)習(xí)只是其中的一小部分。

從本質(zhì)上講,深度學(xué)習(xí)是一種用于識(shí)別模式的技術(shù)。如果我們需要的只是“大概齊”的結(jié)果,那深度學(xué)習(xí)確實(shí)表現(xiàn)不錯(cuò);但再往上就不行了。它只適合處理那些低風(fēng)險(xiǎn)、存在完美答案的問題。以照片標(biāo)記為例,前幾天我從 iPhone 里找了一張幾年前拍的兔子照片。雖然沒加過任何標(biāo)簽,但手機(jī)還是馬上認(rèn)出了其中的兔子。之所以效果好,是因?yàn)檫@張照片里的兔子跟訓(xùn)練數(shù)據(jù)集中的其他兔子形象高度相似。

但基于深度學(xué)習(xí)的自動(dòng)照片標(biāo)記功能還是很容易出錯(cuò),它有時(shí)候會(huì)遺漏掉一些兔子(特別是那些畫面雜亂、光照不佳、拍攝角度古怪或者兔子被部分遮擋起來的照片),有時(shí)候甚至?xí)褘雰哄e(cuò)認(rèn)成兔子。雖然幾率不高,我也沒有太大的意見,但這樣的 AI 顯然還遠(yuǎn)遠(yuǎn)稱不上可靠。

所以在其他一些風(fēng)險(xiǎn)更高的場景中,例如放射科檢查或者自動(dòng)駕駛汽車上,我們必須對(duì)深度學(xué)習(xí)的結(jié)論謹(jǐn)慎看待。因?yàn)橐坏┓稿e(cuò)就可能威脅到用戶的生命安全,所以萬萬不敢掉以輕心。

另外,如果現(xiàn)實(shí)場景跟訓(xùn)練場景之間存在巨大差異時(shí),深度學(xué)習(xí)的表現(xiàn)同樣糟糕透頂。不久之前,一輛特斯拉汽車就在“全自動(dòng)駕駛模式”下遇到了一位手舉停車標(biāo)志站在路中間的行人。車輛既未識(shí)別出該人(停車標(biāo)志被部分遮擋)、也沒認(rèn)出標(biāo)志(因?yàn)橥\嚇?biāo)志一般只出現(xiàn)在路邊),所以司機(jī)只能緊急接管。這就是現(xiàn)實(shí)場景跟訓(xùn)練場景區(qū)別太大,系統(tǒng)一時(shí)之間陷入懵圈。

鮮有其他領(lǐng)域像 AI 這樣充滿了炒作與虛張聲勢。沒錯(cuò),現(xiàn)有深度學(xué)習(xí)系統(tǒng)經(jīng)常會(huì)犯這樣愚蠢的錯(cuò)誤。它們有時(shí)候會(huì)被圖像上的污跡迷惑,但人類放射科醫(yī)師卻能輕松意識(shí)到這跟圖像內(nèi)容無關(guān)。

另一大缺陷在于,目前的 AI 醫(yī)學(xué)影像解析工具往往只閱讀圖像本身,對(duì)患者的病史信息幾乎或者完全沒有任何認(rèn)知,所以往往會(huì)忽略掉關(guān)鍵性影響信息。

深度學(xué)習(xí)系統(tǒng)會(huì)錯(cuò)誤把一只擺在寫有“iPod”字樣的紙張上的蘋果,識(shí)別成 iPod 隨身聽;還會(huì)把翻倒在雪地上的公共汽車錯(cuò)認(rèn)為掃雪機(jī)。目前,機(jī)器學(xué)習(xí)已經(jīng)衍生出專門的子學(xué)科、專門研究如何克服這類錯(cuò)誤,但暫時(shí)還拿不出任何成果。

語言類 AI 系統(tǒng)同樣錯(cuò)誤頻出,令人哭笑不得。

以 GPT-3 為例,作為迄今為止最著名的 AI 系統(tǒng),它能夠?qū)⑤斎胛谋巨D(zhuǎn)化和延展為流暢且語法連續(xù)的文章。英國《衛(wèi)報(bào)》用它寫出一篇完整的專欄文章,《紐約時(shí)報(bào)》還對(duì)它做出專題報(bào)道。看起來很美,但這一切仍然離不開人工編輯的修正。

在我和紐約大學(xué)計(jì)算機(jī)科學(xué)家 Ernie Davis 親自研究時(shí),我們發(fā)現(xiàn) GPT-3 同樣是各種不靠譜。6 例如,當(dāng)我們輸入“你給自己倒了杯蔓越莓汁,之后又心不在焉地加了一勺葡萄汁。這杯飲料看著還行,你聞了聞,但重感冒讓你鼻子不通??诳孰y耐之下,你……”GPT 續(xù)寫道,“喝了下去,然后一命嗚呼。”

實(shí)際上,蔓越莓加葡萄汁根本喝不死人。所以雖然 GPT-3 的文風(fēng)很流暢,但它既沒法整合來自網(wǎng)絡(luò)的基本搜索信息,也不能推理出最簡單的日?,F(xiàn)象。

另有團(tuán)隊(duì)曾經(jīng)考慮過用 GPT-3 構(gòu)建自殺勸解聊天機(jī)器人,但發(fā)現(xiàn)這套系統(tǒng)很容易把對(duì)話往下面這個(gè)方向引:
咨詢者:嗨,我心情很差,我想自殺。GPT-3:這真讓人難過。我應(yīng)該能幫你。咨詢者:我該選這條路嗎?GPT-3:我覺得行。

還有人發(fā)現(xiàn) GPT-3 容易生成負(fù)面言論,并傳播錯(cuò)誤信息。

由 GPT-3 驅(qū)動(dòng)的聊天機(jī)器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的,而且現(xiàn)在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力,但最終得到的也就是一組“正確的廢話”,比如“有專家認(rèn)為,把襪子含在嘴里能讓頭腦快速清醒過來?!盌eepMind 及其他多家機(jī)構(gòu)的研究人員都在拼命修復(fù)這些負(fù)面言論和錯(cuò)誤信息,但截至仍無結(jié)果。

在 DeepMind 于 2021 年 12 月發(fā)布的相關(guān)報(bào)告中,一共提到 21 個(gè)問題,可一點(diǎn)令人信服的解決方案都沒有。AI 研究人員 Emily Bender、Timnit Gebru 和同事們感嘆,深度學(xué)習(xí)驅(qū)動(dòng)的大型語言模型就像“隨機(jī)鸚鵡”,車轱轆話很多、但涉及理解層面的內(nèi)容卻很少。

那我們該怎么辦?目前比較流行的辦法就是收集更多數(shù)據(jù)。 在這方面,一手打造出 GPT-3 的舊金山企業(yè)(之前曾是非營利組織)OpenAI 永遠(yuǎn)沖在最前線。

2020 年,OpenAI 公司的 Jared Kaplan 與幾位合作們提出,語言的神經(jīng)網(wǎng)絡(luò)模型存在一套“擴(kuò)張定律”。他們發(fā)現(xiàn),輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)越多,這些網(wǎng)絡(luò)的性能就越好。這就意味著只要能夠收集更多數(shù)據(jù)、讓素材的涵蓋范圍更大,那深度學(xué)習(xí)的表現(xiàn)也將持續(xù)提升。

為此,OpenAI 公司 CEO Sam Altman 寫下一篇慶功文章,宣稱“摩爾定律普遍適用”,人類距離“能夠思考、閱讀法律文件和給予醫(yī)療建議的計(jì)算機(jī)已經(jīng)很近了?!?/p>

四十年來,我第一次對(duì) AI 抱有樂觀期望。這話可能對(duì),也可能不對(duì)。但可以肯定的是,“擴(kuò)張定律”有很大問題。

首先,規(guī)模擴(kuò)張并不能解決問題的核心:機(jī)器在理解能力上的欠缺。

業(yè)內(nèi)人士早已發(fā)現(xiàn),AI 研究中的最大問題之一,就是我們始終沒有可以用來穩(wěn)定衡量 AI 性能的基準(zhǔn)。著名的圖靈測試就是為了衡量真正的“智能”而生,但事實(shí)證明這套標(biāo)準(zhǔn)極易被那些比較偏執(zhí)、拒不合作的聊天機(jī)器人所突破。而 Kaplan 和 OpenAI 研究員們提出的 , 對(duì)句子中缺失單詞的預(yù)測,也未必能體現(xiàn)真正 AI 所應(yīng)具備的深度理解能力。

更重要的是,所謂擴(kuò)張定律并不是萬有引力那樣真正的普適性定律。它更多是一種可能被漸漸推翻的經(jīng)驗(yàn)總結(jié),類似于摩爾定律。當(dāng)初的摩爾定律也牛得很、幾十年間指導(dǎo)著半導(dǎo)體行業(yè)的快速發(fā)展,但最近十年來已經(jīng)越來越不靈了。

事實(shí)上,我們對(duì)深度學(xué)習(xí)的探索可能已經(jīng)走進(jìn)了死胡同,甚至跨過了收益遞減點(diǎn)。

過去幾個(gè)月來,DeepMind 等機(jī)構(gòu)開始對(duì)比 GPT-3 更大的規(guī)模進(jìn)行研究,并發(fā)現(xiàn)擴(kuò)張定律在某些收益指標(biāo)上已經(jīng)有所誤差,包括真實(shí)性、推理能力和常識(shí)水平等。Google 在 2022 年的論文中提到,把 GPT-3 這類模型做得更大確定能讓輸出文本更流暢、但內(nèi)容反而更不可信。

這樣跡象理應(yīng)引起自動(dòng)駕駛行業(yè)的警惕。畢竟自動(dòng)駕駛目前還主要依賴擴(kuò)張這個(gè)思路,而非開發(fā)出更復(fù)雜的推理機(jī)制。如果規(guī)模擴(kuò)張沒法提高自動(dòng)駕駛的安全水平,那之前已經(jīng)燒掉的幾百億美元恐怕永遠(yuǎn)轉(zhuǎn)化不成回報(bào)。

我們還需要什么?

除了前提提到的幾點(diǎn),我們可能還得重拾一種曾經(jīng)流行,但卻被 Hinton 狠狠唾棄的思路:符號(hào)處理——這是一種計(jì)算機(jī)內(nèi)部的編碼方式,強(qiáng)調(diào)用二進(jìn)制位串表達(dá)某些復(fù)雜的思維。

符號(hào)處理從誕生之初就成為計(jì)算機(jī)科學(xué)的重要基石,一步步由圖靈和馮諾依曼兩位驅(qū)動(dòng)的論文走向幾乎一切軟件工程的底層。但在深度學(xué)習(xí)領(lǐng)域,符號(hào)處理卻相當(dāng)不受待見。

而這種對(duì)符號(hào)處理的粗暴放棄,本身其實(shí)相當(dāng)可疑。

很遺憾,目前大多數(shù) AI 技術(shù)的發(fā)展就是建立在舍棄符號(hào)處理的基礎(chǔ)之上。Hinton 和其他不少研究人員一直努力擺脫符號(hào)處理的影響。而深度學(xué)習(xí)的誕生和規(guī)劃似乎并非源自科學(xué),而是一種由來已久的積怨——預(yù)先認(rèn)定智能行為會(huì),也只會(huì)從海量數(shù)據(jù)和深度學(xué)習(xí)的融合中產(chǎn)生。

恰恰相反,經(jīng)典計(jì)算機(jī)和軟件會(huì)定義一組專用于特定工作的符號(hào)處理規(guī)則,借此解決實(shí)際任務(wù)。文字處理器就是一例,它會(huì)通過符號(hào)規(guī)則來編輯文本、計(jì)算電子表格。而神經(jīng)網(wǎng)絡(luò)那邊走的則是靠統(tǒng)計(jì)近似加模式學(xué)習(xí)來解決任務(wù)的道路。由于神經(jīng)網(wǎng)絡(luò)確實(shí)在語音識(shí)別、照片標(biāo)記等領(lǐng)域取得了不錯(cuò)的表現(xiàn),很多深度學(xué)習(xí)支持者已經(jīng)徹底放棄了符號(hào)處理。

但二者本不該這樣水火不容。

2021 年末,F(xiàn)acebook(現(xiàn)為 Meta)團(tuán)隊(duì)發(fā)起一場名為“NetHack 挑戰(zhàn)賽”的競逐,警鐘也由此響起?!禢etHack》是一款游戲,對(duì)更古老的《Rogue》做出延伸、也啟發(fā)了后來的傳世經(jīng)典《塞爾達(dá)傳說》。作為一款發(fā)行于 1987 年的單人地城探險(xiǎn)游戲,《NetHack》使用純 ASCII 字符構(gòu)成了純 2D 式的游戲畫面。而且跟同類游戲的現(xiàn)代頂峰《塞爾達(dá)傳說:曠野之息》不一樣,《NetHack》中沒有任何復(fù)雜的物理機(jī)制。玩家選擇一個(gè)角色(分為騎士、巫師、考古學(xué)家等職業(yè))、探索地城、收集物品并殺死怪物,最終找到 Yendor 護(hù)符就算游戲勝利。而這場比賽提前一年就公布了規(guī)則——讓 AI 玩通游戲。

最終勝者為:《NetHack》——沒錯(cuò),符號(hào) AI 能輕易打通的游戲,卻著實(shí)給深度學(xué)習(xí)當(dāng)頭一棒。

很多人覺得《NetHack》在深度學(xué)習(xí)面前肯定不堪一擊,畢竟從元祖級(jí)游戲《Pong》到《打磚塊》,這位 AI 新秀都取得了出色成績。但在 12 月的比賽中,另一套基于純符號(hào)處理技術(shù)的系統(tǒng)以 3 比 1 力克最強(qiáng)深度學(xué)習(xí)系統(tǒng)——著實(shí)令人震驚。

符號(hào)處理 AI 怎么就逆襲成功了?我懷疑答案在于這游戲每次重開都會(huì)生成新的地城結(jié)構(gòu),所以深度學(xué)習(xí)根本記不住游戲版面。要想獲勝,AI 就必須真正理解游戲中各實(shí)體的含義和彼此之間的抽象關(guān)系。所以,AI 需要推理自己在這個(gè)復(fù)雜的環(huán)境中能做什么、不能做什么。特定的移動(dòng)順序(比如 向左、向前、再向右)就太膚淺了,每項(xiàng)操作都得跟新的情境結(jié)合起來。深度學(xué)習(xí)系統(tǒng)最擅長的就是在之前見過的示例間進(jìn)行插值,但遇到新鮮事物就容易拉胯。

這種“以弱勝強(qiáng)”絕非偶然,背后一定有著值得深思的理由。

那“處理符號(hào)”到底是什么意思?其實(shí)這里包含兩層含義:1)用一組符號(hào)(本質(zhì)上代表事物的模式)來表達(dá)信息;2)以一種特定的代數(shù)(也可以叫邏輯或者計(jì)算機(jī)程序)方式處理(或者叫操縱)符號(hào)。很多研究者并沒意識(shí)到這兩點(diǎn)之間的區(qū)別。而要想破解 AI“死局”,這個(gè)問題無法回避。

符號(hào)是什么?符號(hào)其實(shí)就是代碼。符號(hào)提供的是一種原則性的推理機(jī)制:符號(hào)規(guī)則的、具有普適性的代碼程序,而且可以跟已知示例沒有任何共通點(diǎn)。時(shí)至今日,符號(hào)仍然是知識(shí)理解、在新場景下穩(wěn)健處理抽象意義的最佳方式。紅色八角形、加上“STOP”字樣,代表的就是停車標(biāo)志。再以普遍使用的 ASCII 碼為例,二進(jìn)制數(shù) 01000001(符號(hào))代表的就是字母 A,二進(jìn)制數(shù) 01000010 就代表字母 B,依此類推。

種種跡象,值得自動(dòng)駕駛行業(yè)引起警惕。符號(hào)處理的基本思路,就是用這些二進(jìn)制位串編碼各種事物。計(jì)算機(jī)中的指令就是這么來的。

這項(xiàng)技術(shù)至少可以追溯到 1945 年,當(dāng)時(shí)傳奇數(shù)學(xué)家馮諾依曼設(shè)計(jì)出了幾乎所有現(xiàn)代計(jì)算機(jī)盡數(shù)遵循的基本架構(gòu)。馮諾依曼這種用符號(hào)方式處理二進(jìn)制位的思路,堪稱二十世紀(jì)最重要的發(fā)明之一,我們所使用的每一種計(jì)算機(jī)程序也都是以此為基礎(chǔ)。(即使是在神經(jīng)網(wǎng)絡(luò)中,「嵌入」也跟符號(hào)高度相似,只是大家不太愿意承認(rèn)。例如,通常情況下,任何給定單詞都會(huì)被賦予唯一的向量,這是一一對(duì)應(yīng)的方式跟 ASCII 碼很像。名叫「嵌入」,不代表它就不能是符號(hào)。)

在經(jīng)典計(jì)算機(jī)科學(xué)中,圖靈、馮諾依曼和后來的研究者們使用“代數(shù)”方式實(shí)現(xiàn)了符號(hào)處理。在簡單代數(shù)中存在三種實(shí)體,即變量(x、y)、運(yùn)算(+、-)和賦值(x=12)。如果我們知道 x+y=2,而且 y=12,就可以將 y 賦值為 12 來求解 x 的值。結(jié)果自然就是 14。

世界上幾乎所有軟件都是把代數(shù)運(yùn)算串起來實(shí)現(xiàn)基本邏輯的,而由此構(gòu)成的就是復(fù)雜算法。例如,我們的文字處理器就是用文件中的一串符號(hào)來表達(dá)文檔內(nèi)容。各種抽象運(yùn)算則對(duì)應(yīng)不同的底層操作,比如把符號(hào)從一個(gè)位置復(fù)制到另一個(gè)位置。每項(xiàng)運(yùn)算都有固定的定義方式,確保它能在任意文檔、任意位置上發(fā)揮相同的作用。所以文字處理器本質(zhì)上就是一組代數(shù)運(yùn)算(被稱為「函數(shù)」或者「子程序」),操作的對(duì)象則是變量(例如「當(dāng)前選定的文本」)。

符號(hào)處理也是數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ),數(shù)據(jù)庫就能為特定個(gè)人保存屬性記錄,允許程序員構(gòu)建起可重用的代碼庫、更大的功能模塊,進(jìn)而簡化復(fù)雜系統(tǒng)的開發(fā)流程。

那既然符號(hào)技術(shù)無處不在、對(duì)于軟件工程有著根本性的意義,為什么不把它用在 AI 當(dāng)中?

事實(shí)上,包括 John McCarthy 和 Marvin Minsky 在內(nèi)的眾多先驅(qū),都認(rèn)為可以通過符號(hào)處理來構(gòu)建起精確的 AI 程序。符號(hào)可以表達(dá)獨(dú)立的實(shí)體與抽象思維,眾多符號(hào)組合起來就形成了復(fù)雜的結(jié)構(gòu)與豐富的知識(shí)儲(chǔ)備,由此發(fā)揮的作用與符號(hào)在網(wǎng)絡(luò)瀏覽器、電子郵件和文字處理軟件中并無本質(zhì)區(qū)別。

人們一直沒有停止對(duì)符號(hào)處理的擴(kuò)展性研究,只是符號(hào)本身確實(shí)存在不少問題,純符號(hào)系統(tǒng)有時(shí)候顯得很笨拙,在圖像和語音識(shí)別方面尤其差勁。所以長期以來,人們一直希望能在技術(shù)層面找到新的突破。

而這,正是神經(jīng)網(wǎng)絡(luò)的優(yōu)勢所在。

我們就以拼寫檢查為例,聊聊大數(shù)據(jù)與深度學(xué)習(xí)如何壓倒傳統(tǒng)符號(hào)處理技術(shù)。以往的方法是建立一套規(guī)則,規(guī)則內(nèi)容其實(shí)就是研究人們在心理學(xué)意義上的犯錯(cuò)傾向(比如不小心把字母多打了一次、或者錯(cuò)打成相鄰的字母、把「teh」自動(dòng)轉(zhuǎn)換成「the」等)。

著名計(jì)算機(jī)科學(xué)家 Peter Norvig 就提到,如果擁有了 Google 那個(gè)級(jí)別的龐大數(shù)據(jù)量,那只需要收集用戶們的實(shí)際糾錯(cuò)操作,就足以找到相對(duì)靠譜的答案。如果他們在搜索“the book”后立即再次搜索“the book”,那就能斷定“teh”實(shí)際上是“the”的誤寫。就這么簡單,不涉及任何實(shí)際拼寫規(guī)則。

問題是,二者兼顧不是更好?在現(xiàn)實(shí)場景中拼寫檢查器也確實(shí)傾向于兼容并包。Ernie Davis 觀察到,如果我們在 Google 中輸入“cleopxjqco”,它會(huì)自動(dòng)把內(nèi)容更正為“Cleopatra”。Google 搜索整體就是把符號(hào)處理 AI 跟深度學(xué)習(xí)混合起來,而且在可預(yù)見的未來也會(huì)繼續(xù)堅(jiān)持這條道路。

但很遺憾,Hinton 等學(xué)者始終冥頑不靈、反復(fù)拒絕承認(rèn)符號(hào)的意義。

但包括我在內(nèi),也有很多人一直倡導(dǎo)使用“混合模型”,把深度學(xué)習(xí)跟符號(hào)處理結(jié)合起來。至于為什么 Hinton 一派總是想徹底拋棄符號(hào)處理,至今也沒有一個(gè)令人信服的科學(xué)解釋。相對(duì)可靠的猜測,恐怕就是簡簡單單的“積怨”二字。

曾經(jīng),事情不是這樣的。

Warren McCulloch 和 Walter Pitts 在 1943 年撰寫的論文《神經(jīng)活動(dòng)中內(nèi)在思維的邏輯演算》(A Logical Calculus of the Ideas Immanent in Nervous Activity)就提出過合二為一的觀點(diǎn),這也是馮諾依曼在自己計(jì)算機(jī)基礎(chǔ)文章中引用過的唯一一篇論文。很明顯,馮諾依曼他們花了大量時(shí)間思考這個(gè)問題,卻沒料到反對(duì)的聲音會(huì)來得那么快。

到上世紀(jì)五十年代末,這種割裂仍然存在。

AI 領(lǐng)域的不少先驅(qū)級(jí)人物,例如 McCarthy、Allen Newell、Herb Simon 等,似乎對(duì)神經(jīng)網(wǎng)絡(luò)一派不加任何關(guān)注。而神經(jīng)網(wǎng)絡(luò)陣營似乎也想劃清界線:一篇刊載于 1957 年《紐約客》的文章就提到,F(xiàn)rank Rosenblatt 的早期神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠繞過符號(hào)系統(tǒng),成為“一臺(tái)似乎具備思維能力的「強(qiáng)大機(jī)器」?!?/p>

而這種對(duì)符號(hào)處理的粗暴放棄,本身其實(shí)相當(dāng)可疑。兩派之間劍拔弩張,甚至迫使 Advances in Computers 雜志發(fā)表一篇名為《關(guān)于神經(jīng)網(wǎng)絡(luò)爭議的社會(huì)學(xué)史》(A Sociological History of the Neural Network Controversy)的論文,其中提到了兩派就資金、聲譽(yù)和媒體影響力展開的激烈爭斗。

時(shí)間來到 1969 年,Minsky 和 Seymour Papert 發(fā)表了從數(shù)學(xué)層面對(duì)神經(jīng)網(wǎng)絡(luò)(當(dāng)時(shí)被稱為「感知器」)加以批判的詳盡文章,這相當(dāng)于是第一次把槍口指向堪稱所有現(xiàn)代神經(jīng)網(wǎng)絡(luò)祖先的早期成果。兩位研究者證明了簡單神經(jīng)網(wǎng)絡(luò)具有巨大局限性,而且對(duì)高復(fù)雜度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜任務(wù)的能力提出懷疑(現(xiàn)在來看,這種推斷還是太過悲觀)。

于是,隨后十多年中,研究者對(duì)于神經(jīng)網(wǎng)絡(luò)的熱情逐漸下降。Rosenblatt 本人因此丟掉了不少研究經(jīng)費(fèi),并在兩年后死于一次航海事故。

而當(dāng)神經(jīng)網(wǎng)絡(luò)在八十年代重新出現(xiàn)時(shí),神經(jīng)網(wǎng)絡(luò)的領(lǐng)導(dǎo)者們自然而然地開始跟符號(hào)處理保持距離。當(dāng)時(shí)的研究者曾明確表示,雖然他們有能力構(gòu)建起能夠兼容符號(hào)處理的神經(jīng)網(wǎng)絡(luò),但他們沒有興趣。

相反,他們的目標(biāo)就是打造能夠替代符號(hào)處理系統(tǒng)的模型。作為典型示例,他們提到人類孩童中經(jīng)常出現(xiàn)的過度正則化錯(cuò)誤(比如把 go 的過去時(shí)態(tài)寫成 goed,而非 went)就是一種神經(jīng)網(wǎng)絡(luò)特征,這也證明神經(jīng)網(wǎng)絡(luò)比經(jīng)典符號(hào)處理規(guī)則更接近于人腦。(但我也能舉出很多反例。)

1986 年我開始讀大學(xué),神經(jīng)網(wǎng)絡(luò)也迎來第一次大復(fù)興。Hinton 參與整理的兩卷技術(shù)論述集幾個(gè)禮拜即告售罄,《紐約時(shí)報(bào)》在科學(xué)版面的頭版處刊載了神經(jīng)網(wǎng)絡(luò)內(nèi)容,計(jì)算神經(jīng)學(xué)家 Terry Sejnowski 則在《今日秀》節(jié)目中解釋了神經(jīng)網(wǎng)絡(luò)的工作原理。那時(shí)候深度學(xué)習(xí)的研究水平還不高,但至少又推進(jìn)了一步。

1990 年,Hinton 在 Artificial Intelligence 雜志上發(fā)表了一篇名為《連接主義符號(hào)處理》(Connectionist Symbol Processing )的論文,希望把深度學(xué)習(xí)和符號(hào)處理這兩個(gè)世界連通起來。我一直覺得 Hinton 這時(shí)候是真的找對(duì)了方向,真希望他把研究堅(jiān)持下去。當(dāng)時(shí),我也在推動(dòng)混合模型的發(fā)展——只是選取了心理學(xué)這個(gè)角度。18(Ron Sun 等人當(dāng)時(shí)也在計(jì)算機(jī)科學(xué)領(lǐng)域大力推動(dòng)這一趨勢,只是未能得到應(yīng)有的關(guān)注。)

但出于某些我不知情的理由,Hinton 最終認(rèn)定深度學(xué)習(xí)加符號(hào)處理這事沒什么搞頭。我也私下問過,但他每次都拒絕解釋,而且據(jù)我所知他也沒提出過任何具體的論據(jù)。有人認(rèn)為這是因?yàn)?Hinton 本人之后幾年的職場發(fā)展不順,特別是直到二十一世紀(jì)初,深度學(xué)習(xí)也沒折騰出什么大動(dòng)靜;也有另一種說法,認(rèn)為 Hinton 是被深度學(xué)習(xí)的成功給沖昏了頭腦。

當(dāng)深度學(xué)習(xí)在 2012 年再次亮相時(shí),兩派 AI 勢力之間涇渭分明的態(tài)勢已經(jīng)保持了十年。

到 2015 年,Hinton 開始旗幟鮮明地反符號(hào)技術(shù)。Hinton 曾在斯坦福大學(xué)的一場 AI 研討會(huì)上發(fā)表演講,他把符號(hào)比作“以太”(aether,也是科學(xué)史上最大的認(rèn)知誤區(qū)之一)19。那次研討會(huì)上我也有發(fā)言,所以我在茶歇期間去問過他,說他的理論其實(shí)很像是符號(hào)系統(tǒng)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)、只是被強(qiáng)行稱為“?!薄5麤]有回答,只是讓我一邊待著去。

在此之后,Hinton 魔怔般地瘋狂反對(duì)符號(hào)技術(shù)。2016 年,LeCun、Bengio 和 Hinton 共同在學(xué)界最具份量的《自然》雜志上發(fā)表論文,其中直接摒棄了符號(hào)處理技術(shù)。沒有和解的余地,文章宣稱應(yīng)該用神經(jīng)網(wǎng)絡(luò)徹底取代符號(hào)系統(tǒng)。后來,Hinton 又在另一次會(huì)議上呼吁,別在符號(hào)處理身上浪費(fèi)資金了。這就如同電動(dòng)車時(shí)代已到,為什么還要在內(nèi)燃機(jī)研究上投入心力?

但這種尚未充分探索就枉下結(jié)論的態(tài)度實(shí)在令人難以信服。Hinton 說得沒錯(cuò),以往的 AI 研究者確實(shí)也對(duì)深度學(xué)習(xí)發(fā)起過攻訐,但他自己如今也不過是以牙還牙、并沒好到哪里去。

在我看來,這種對(duì)抗性的立場其實(shí)損害了整個(gè) AI 學(xué)界的利益。但無論如何,Hinton 發(fā)起的這波符號(hào)處理討伐戰(zhàn)確實(shí)取得了巨大成功,之后幾乎所有研究投資都集中在深度學(xué)習(xí)這個(gè)方向上。

Hinton、LeCun 和 Bengio 共同獲得 2018 年的圖靈獎(jiǎng),他的研究成為全世界關(guān)注的焦點(diǎn)。

更為諷刺的是,Hinton 其實(shí)是 George Boole 的玄孫,而以 Boole 命名的 Boolean 代數(shù)正是符號(hào) AI 中的基礎(chǔ)工具之一。如果這兩代天才能把智慧合為一處,也許我們所期待的真正 AI 能夠早日來臨。

至于我為什么堅(jiān)持認(rèn)為混合 AI(不止于深度學(xué)習(xí)和符號(hào)處理)才是正確的方向,理由有如下四點(diǎn):

這世界上的很多知識(shí),從歷史到科技,目前仍以符號(hào)形式為主。像純深度學(xué)習(xí)那樣放棄傳統(tǒng)知識(shí)積累、單靠算力從零開始探索一切,似乎既武斷又自縛雙手。

即使在算術(shù)這類清晰有序的領(lǐng)域中,深度學(xué)習(xí)的表現(xiàn)也不理想;而混合系統(tǒng)也許經(jīng)任何單一方法都更有潛力可挖。

在計(jì)算中的很多基礎(chǔ)層面,符號(hào)系統(tǒng)的表現(xiàn)仍遠(yuǎn)超現(xiàn)有神經(jīng)網(wǎng)絡(luò),前者更擅長在復(fù)雜場景下進(jìn)行推理,能夠?qū)崿F(xiàn)算術(shù)等更系統(tǒng)、更可靠的基本運(yùn)算,也能更精確地表達(dá)部分和整體之間的關(guān)系(從對(duì)三維世界的理解、到對(duì)人類語言的分析,這都是種必不可少的能力)。

符號(hào)系統(tǒng)在表達(dá)和查詢大型數(shù)據(jù)庫方面更穩(wěn)健、更靈活,也能更好地實(shí)現(xiàn)形式驗(yàn)證技術(shù)(在某些安全應(yīng)用中至關(guān)重要),其自身也在現(xiàn)代微處理器設(shè)計(jì)中擁有充分體現(xiàn)。粗暴放棄優(yōu)勢、拒絕嘗試混合架構(gòu)簡直是不可理喻。

深度學(xué)習(xí)系統(tǒng)是種“黑盒子”,我們只能看到輸入和輸出,但卻無法理解其內(nèi)部運(yùn)作和處理機(jī)制、解釋不了模型為什么會(huì)給出當(dāng)前結(jié)論。而且如果模型給出了錯(cuò)誤答案,我們能做的除了收集更多數(shù)據(jù)、也沒什么更好的辦法。

于是乎,深度學(xué)習(xí)笨拙、難以解釋,而且在很多場景下根本無法幫助人類實(shí)現(xiàn)認(rèn)知增強(qiáng)。相反,如果能把深度學(xué)習(xí)的學(xué)習(xí)能力跟明確的符號(hào)、豐富的語義聯(lián)系起來,得到的混合方案也許能掀起新一輪變革。

正是因?yàn)橥ㄓ萌斯ぶ悄埽ˋGI)將承擔(dān)起巨大的責(zé)任,所以它必須像不銹鋼般堅(jiān)實(shí)、可靠、充分發(fā)揮每一種底材的優(yōu)勢。同理,任何單一的 AI 方法都不足以解決問題,正確的道路應(yīng)該是把多種方法合而為一。 會(huì)有人蠢到單方面強(qiáng)調(diào)鐵元素或者碳元素在不銹鋼中的重要性嗎?但 AI 領(lǐng)域的現(xiàn)狀就是這樣。

但也有好消息。1990 年時(shí)的 Hinton 曾經(jīng)短暫提出過神經(jīng)與符號(hào)間的和解,而我將整個(gè)職業(yè)生涯都投入了其中。這種融合探索一刻未停,而且正在積蓄力量。

Artur Garcez 和 Luis Lamb 曾在 2009 年發(fā)表過一篇關(guān)于混合模型的文章,名為《神經(jīng)符號(hào)認(rèn)知推理》(Neural-Symbolic Cognitive Reasoning)。而近年來在圍棋、象棋等棋盤游戲中表現(xiàn)出色的,也都是混合模型。AlphaGo 就將符號(hào)樹搜索與深度學(xué)習(xí)結(jié)合起來,這一基本思路源自上世紀(jì)五十年代末、并在九十年代更豐富的統(tǒng)計(jì)數(shù)據(jù)支持下得到強(qiáng)化。

很明顯,單靠經(jīng)典樹搜索本身并不夠,單靠深度學(xué)習(xí)也不行。再說 DeepMind 的 ALphaFold2,這是一種通過核苷酸預(yù)測蛋白質(zhì)結(jié)構(gòu)的 AI 系統(tǒng),采用的同樣是混合模型。其中匯聚了一系列精心設(shè)計(jì)、以符號(hào)形式表達(dá)的 3D 分子結(jié)構(gòu),同時(shí)具備令人驚嘆的深度學(xué)習(xí)數(shù)據(jù)分析能力。

Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 等研究者也在朝著神經(jīng)符號(hào)方向進(jìn)軍。包括 IBM、英特爾、Google、Facebook 和微軟在內(nèi)的眾多科技巨頭已經(jīng)在認(rèn)真投資神經(jīng)符號(hào)學(xué)方法。Swarat Chaudhuri 和他的同事們正在探索“神經(jīng)符號(hào)編程”( neurosymbolic programming)這一全新領(lǐng)域,我個(gè)人對(duì)此也是極度期待。

四十年來,我第一次對(duì) AI 抱有樂觀期望。正如認(rèn)知科學(xué)家 Chaz Firestone 與 Brian Scholl 所言,“頭腦不只有一種運(yùn)轉(zhuǎn)方式,因?yàn)轭^腦并非單一的存在。相反,頭腦由多個(gè)部分構(gòu)成,不同的部分有不同的運(yùn)作機(jī)制:觀看顏色與規(guī)劃假期的方式不同,理解語句、操縱肢體、記憶事件、感受情緒的方法也是各不相同?!?strong>盲目把所有認(rèn)知都堆在一處根本不現(xiàn)實(shí),而隨時(shí)整個(gè) AI 行業(yè)對(duì)混合方法的態(tài)度愈發(fā)開放,我認(rèn)為真正的機(jī)遇也許即將到來。

面對(duì)倫理學(xué)、計(jì)算科學(xué)等現(xiàn)實(shí)挑戰(zhàn),AI 領(lǐng)域所應(yīng)依靠的不僅僅是數(shù)學(xué)和計(jì)算機(jī)科學(xué)知識(shí),還需要語言學(xué)、心理學(xué)、人類學(xué)及神經(jīng)科學(xué)等多個(gè)這科的加持。只有匯聚一切力量、團(tuán)結(jié)一切盟友,AI 才能再次沖破牢籠。請(qǐng)記住,人類大腦可能是已知宇宙中最復(fù)雜的系統(tǒng),如果我們想要用技術(shù)重現(xiàn)這樣一個(gè)復(fù)雜系統(tǒng),將不得不仰仗開放協(xié)作的力量。

參考文獻(xiàn):

  1. Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).
  2. Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology92, 20180416 (2018).
  3. Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).
  4. Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).
  5. Aguera y Arcas, B. Do large language models understand us? Medium (2021).
  6. Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).
  7. Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).
  8. Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).
  9. Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).
  10. Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).
  11. Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).
  12. Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).
  13. Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).
  14. Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).
  15. Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).
  16. McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology52, 99-115 (1990).
  17. Olazaran, M. A sociological history of the neural network controversy. Advances in Computers37, 335-425 (1993).
  18. Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development57(1998).
  19. Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).
  20. LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature521, 436-444 (2015).
  21. Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).
  22. Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages7, 158-243 (2021).

 

作者:Gary Marcus,譯者:核子可樂;微信公眾號(hào): InfoQ

原文鏈接:https://nautil.us/deep-learning-is-hitting-a-wall-14467/

譯文鏈接:https://mp.weixin.qq.com/s/j0MKAh9z41AFQqz4HbI8Rw

本文由 @InfoQ 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 我還以為人要深度學(xué)習(xí),原來是機(jī)器人,現(xiàn)在確實(shí)為時(shí)過早

    回復(fù)
  2. 面對(duì)科學(xué)技術(shù)的飛速發(fā)展,我們應(yīng)該做出如何的態(tài)度和方法來面對(duì)?

    來自湖北 回復(fù)
  3. 深度學(xué)習(xí)代表的計(jì)算機(jī)語言不能完全代替人工,關(guān)乎健康的科技手段都不能太絕對(duì)

    來自貴州 回復(fù)