人類感知和深度學(xué)習(xí)有何不同?
人類與機器相比為什么會產(chǎn)生錯覺?人類感知和深度學(xué)習(xí)系統(tǒng)在識別圖像與聲音上有什么區(qū)別?它們是如何感知的,原理是什么?本文將對上述幾個方面的內(nèi)容給出詳細解釋。
我們?nèi)绾慰创@個世界?為了理解這一點,首先讓我們探討一下我們是如何錯誤地認識世界的。“矩陣中的瑕疵”(glitches in the matrix)將會向我們揭示我們感知的本質(zhì)。
Victoria Syke創(chuàng)造了上圖所示的視錯覺效果,這張圖片擾亂了我們的感知。這張圖片給人的錯覺是,深藍色的線條都是傾斜的。你可以通過滾動圖像使其與瀏覽器窗口頂部對齊或者從一個邊逐步測量圖像來證明這一點。
我想知道的是,為什么這種錯覺會產(chǎn)生?我們的認知過程中,到底是什么導(dǎo)致了錯覺的產(chǎn)生?
在上面的錯覺中,你會注意到淺藍色條紋和黑色條紋的相交區(qū)域中的元素在某一特定方向上會有越來越小的趨勢。除此之外,你還會感覺到深藍色條紋里的線條高度不同。當(dāng)這兩種視覺效果相互結(jié)合,就會給人一種錯覺,即條紋具有不斷向上或向下的趨勢。
即使將圖像旋轉(zhuǎn)90度,淺藍色條紋也會顯示為平行。這是因為淺藍色條紋上的深色圖案和大小都是相同的,并且它們也處在同一水平線上。
Victoria Syke?創(chuàng)造這個圖像的靈感來自于兩個方面:Richard Gregory對于“咖啡墻錯覺”(Cafe Wall Illusion)的觀察以及Akiyoshi Kitaoka的“邊緣錯覺”(?Fringe Edge Illusion)理論。
當(dāng)墻壁的磚塊采用亮度對比非常明顯的黑白兩色進行交替排布時,視覺上就會顯現(xiàn)出一種錯覺的感受:
https://fineartamerica.com/featured/cafe-wall-illusion-spl-and-photo-researchers.html
這種方式所產(chǎn)生的錯覺效果是每塊磚似乎比鄰近的磚要更大(或更?。?。Syke還利用了Akiyoshi Kitaoka的“邊緣錯覺”和星形聯(lián)接錯覺理論(Y-junction illusion)來進一步加強效果。順便說一下,這種效果也可以在垂直方向上起作用。
星形聯(lián)接錯覺(Y-junction illusion)
人腦顯然沒有將圖像看成是一個整體。相反,它將圖像視為多種圖像的組合,同時識別出彼此之間的相鄰關(guān)系。為什么相鄰關(guān)系對我們的視覺有如此強烈的影響?我們現(xiàn)在已經(jīng)進化到可以充分利用聯(lián)想(affordances?)來幫助我們的大腦更快地重建圖像。換句話說,我們的大腦可以立即識別出有助于我們理解場景的模式。我們的視覺感知自動執(zhí)行一種語義推理,使得更高層次的語義模式不會被忽略。這就是為什么無論我們多么使自己堅信線條確實是水平的,但是像上面這樣的幻覺還是會出現(xiàn)。
這種錯覺效果也發(fā)生在音頻領(lǐng)域。有一種被稱為Shepard Tone(謝巴德音調(diào))的聽覺錯覺。這種錯覺是由三個上升的音調(diào)造成的。其中一個更高的音調(diào)會聽起來更加低,中間的音調(diào)具有恒定的響度,第三個低音聽起來變得更高。大腦產(chǎn)生的錯覺是會聽到兩個總是上升的音調(diào)。下面這個視頻是最好的例子(從0:40開始):
圖像和聽覺系統(tǒng)中的錯覺向我們揭示了人腦如何感知世界的。當(dāng)我們的大腦看到彼此相互關(guān)聯(lián)的圖像和聲音時,就會開始在腦海中通過想象來預(yù)測進展,即使是這種進展完全不存在也會這樣做。人腦不能在超越它所看到的東西之外進行想象預(yù)測,因此就會進行錯誤的重建。你在看上面圖片的時候,你不可能不會注意到傾斜的線條。如果你遠看圖像或以一定角度觀察圖像,則會消除一些細節(jié)對你的干擾,因此就可以正確地重構(gòu)現(xiàn)實。
但為什么相對量對我們的生物學(xué)很重要?我們可以從藝術(shù)中學(xué)習(xí)到哪些元素會產(chǎn)生深度感:物體重疊、縮小比例、大氣視角、垂直位置和線性視角。大腦充分利用這些聯(lián)想來重建世界的三維視角。我們生活在三維世界中,我們的感官旨在理解并與這個世界互動。對物體三維結(jié)構(gòu)的重構(gòu)是導(dǎo)致視錯覺的主要原因,棋盤的陰影錯覺很好地解釋了這個現(xiàn)象:
A和B具有相同的色調(diào)
下面鏈接中是另一組令人產(chǎn)生錯覺的圖像,它說明了人類大腦必須有足夠的時間才能正確地重建其感知:
視頻鏈接:https://www.youtube.com/watch?v=LcpliVYfEqk
在上面的實驗中,當(dāng)你的視線聚焦于中心時,你會注意到視線邊緣的面部變得扭曲了。當(dāng)圖像閃現(xiàn)的達到一定速度,我們的大腦在感知圖象時,會受到前后兩張圖片的干擾,但圖像閃現(xiàn)的速度又沒有慢到可以使我們的大腦來得及進行正確的圖像重建,因此產(chǎn)生了現(xiàn)在看到的錯覺效果。
人類大腦在圖像識別上會使用聯(lián)想的方法(例如捷徑和啟發(fā)式)來構(gòu)建其用于感知的模式,而深度學(xué)習(xí)網(wǎng)絡(luò)則不同,它完全依賴于圖像捕捉。深度學(xué)習(xí)網(wǎng)絡(luò)專門使用忽略某些不變性的網(wǎng)絡(luò)進行訓(xùn)練(例如ConvNets翻譯),而人類大腦的工作方式似乎不同,我們習(xí)慣于使用語義傳達的模式。深度學(xué)習(xí)網(wǎng)絡(luò)沒有經(jīng)過人類這種聯(lián)想的訓(xùn)練,因此它缺少了可用于語義傳達的圖像識別能力,為了達到我們在人類中發(fā)現(xiàn)的那種視覺感知,我們必須訓(xùn)練深度學(xué)習(xí)系統(tǒng)來學(xué)習(xí)一些基本的人類圖像識別技巧,例如遮擋,透視和陰影:
為了說明深度學(xué)習(xí)系統(tǒng)的視覺認知與人類是多么不同,最近的一篇名叫《Investigating Human Priors for Playing Video Games》的文章研究了如何去除人類在游戲中由于聯(lián)想產(chǎn)生的錯覺:
這個實驗對街機游戲的紋理進行了重新修改及渲染,在修改后的游戲中,人類表現(xiàn)都非常糟糕,但相比之下,深度學(xué)習(xí)系統(tǒng)在兩款游戲中都表現(xiàn)相當(dāng),這說明了深度學(xué)習(xí)系統(tǒng)不需要使用人類經(jīng)驗。另一方面,人類可以通過進行少量的訓(xùn)練來學(xué)習(xí)一款游戲,是因為我們可以利用現(xiàn)有的人類經(jīng)驗(或聯(lián)想)。這個實驗告訴我們,人類可以通過先前的經(jīng)驗來進行快速地學(xué)習(xí)。
DeepMind?的Pyschlab(心理實驗室)是一個探索深度學(xué)習(xí)和人類視覺識別之間差異的組織。Pyschlab包含許多人類和機器都能完成的實驗。我們可以通過考察雙方在表現(xiàn)上的差異,來了解它們在認知上的差異性。總的來說,我們可以觀察到,人類可以同時采用混合并行處理和順序處理兩種形式,而機器只采用并行處理這一種方式,這一差異我們可以從任務(wù)完成度的下降中辨別出來:
這一數(shù)據(jù)表明了在人類大腦中有并行和順序兩種視線之間的區(qū)別,而深度學(xué)習(xí)系統(tǒng)似乎只有并行一種。確認人類大腦與我們當(dāng)前的深度學(xué)習(xí)系統(tǒng)之間的差異性,就相當(dāng)于揭示出了一個改進未來深度學(xué)習(xí)系統(tǒng)設(shè)計的途徑。
DeepMind的另一篇發(fā)表在《BioArxi》雜志上的論文《Prefrontal cortex as a meta-reinforcement learning system》,提出大腦會使用兩種不同的強化學(xué)習(xí)系統(tǒng)的論題。論題假設(shè)人類大腦中的強化學(xué)習(xí)系統(tǒng)是由多巴胺的釋放所驅(qū)動的,這是一種獎勵驅(qū)動學(xué)習(xí)的標準模式。DeepMind認為有兩個強化學(xué)習(xí)系統(tǒng),一個是基于標準多巴胺分泌的模式,第二個位于前額葉皮層,前額葉皮層學(xué)習(xí)會受前一個系統(tǒng)的影響。實際上,標準的多巴胺分泌模式已經(jīng)學(xué)習(xí)了人類的先前經(jīng)驗(或聯(lián)覺效應(yīng)),并利用它來指導(dǎo)對前額葉皮層更動態(tài)的學(xué)習(xí)。
所以每當(dāng)我們看到一些東西,我們只能看到它在過往的人類經(jīng)驗中的形象。然而,正如你在人臉識別的例子中看到的,在工作中需要有一個認知過程,試圖重建它所看到的東西。太快地停止重建過程,你就會看到它是如何發(fā)生錯誤的。我們的大腦始終采用啟發(fā)式的方法,但我們發(fā)現(xiàn)啟發(fā)式在很多方面都會出現(xiàn)錯誤。
視頻鏈接:https://betterhumans.coach.me/cognitive-bias-cheat-sheet-55a472476b18 Buster Benson
杰弗里·辛頓(GeoffreyHinton)的膠囊網(wǎng)絡(luò)(?Capsule Network)可能走在了正確的軌道上。在膠囊網(wǎng)絡(luò)中,有兩個重要的階段,第一個階段能夠使用ConvNet識別對象的一部分,然后在第二階段中,采用投票的形式表決識別對象的哪種組成形式是最有可能被感知的。這兩個階段,其中前者是對象的識別,后者是推理,這種深度學(xué)習(xí)網(wǎng)絡(luò)似乎越來越受到研究界的重視。
視頻鏈接:?https://www.youtube.com/watch?v=pPN8d0E3900
在二十世紀八十年代,由于計算機的發(fā)展,出現(xiàn)了一個新的領(lǐng)域,被稱為計算科學(xué),它不同于現(xiàn)有的科學(xué)方法(即理論和實驗)。計算科學(xué)通過計算機模擬來探索物理系統(tǒng)。同樣的,深度學(xué)習(xí)的研究也正在滲透到神經(jīng)科學(xué)和心理學(xué)領(lǐng)域。也就是說,當(dāng)我們將模擬與我們自身進行比較時,我們便開始了對自身本質(zhì)的了解。
總的來說,深度學(xué)習(xí)的研究趨勢,是開始對人類感知的本質(zhì)的更深入地挖掘,并找出它與深度學(xué)習(xí)感知的不同之處。從一個深度學(xué)習(xí)研究者的角度來看,僅僅理解數(shù)學(xué)和技術(shù)是不夠的,還必須對人類基本感知的特征有所了解。對于深度學(xué)習(xí)來說,識別相反特征是有難度的,這一點是公認的。要解決這樣的問題,我們首先必須要理解為什么對于人類而言這個問題是不存在的。這正是杰弗里·辛頓(GeoffreyHinton)在他對“卷積網(wǎng)絡(luò)有什么問題”的演講中所論述的問題。
原文作者:Carlos E. Perez
原文地址:https://medium.com/intuitionmachine/our-minds-see-and-hear-only-what-we-imagine-dc303056171
本文由@百度UXC?翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于 CC0 協(xié)議
還好考了心理學(xué)的研究生,不然本科的我還真看不懂。
這個文章排版看得我腦闊疼