關(guān)于深度殘差收縮網(wǎng)絡(luò),你需要知道這幾點(diǎn)

0 評論 5301 瀏覽 1 收藏 11 分鐘

深度殘差收縮網(wǎng)絡(luò)是什么?為什么提出這個(gè)概念?它的核心步驟是什么?文章圍繞深度殘差收縮網(wǎng)絡(luò)的相關(guān)研究,對這個(gè)問題進(jìn)行了回答,與大家分享。

深度殘差網(wǎng)絡(luò)ResNet獲得了2016年CVPR會(huì)議的最佳論文獎(jiǎng),截至目前,在谷歌學(xué)術(shù)上的引用量已經(jīng)達(dá)到了38295次。

深度殘差收縮網(wǎng)絡(luò)是深度殘差網(wǎng)絡(luò)的一種新穎的改進(jìn)版本,其實(shí)是深度殘差網(wǎng)絡(luò)、注意力機(jī)制和軟閾值函數(shù)的深度集成。

在一定程度上,深度殘差收縮網(wǎng)絡(luò)的工作原理,可以理解為:通過注意力機(jī)制注意到不重要的特征,通過軟閾值函數(shù)將它們置為零;或者說,通過注意力機(jī)制注意到重要的特征,將它們保留下來,從而加強(qiáng)深度神經(jīng)網(wǎng)絡(luò)從含噪聲信號中提取有用特征的能力。

01 提出深度殘差收縮網(wǎng)絡(luò)的動(dòng)機(jī)是什么呢?

首先,在對樣本進(jìn)行分類的時(shí)候,樣本中不可避免地會(huì)有一些噪聲,就像高斯噪聲、粉色噪聲、拉普拉斯噪聲等。更廣義地講,樣本中很可能包含著與當(dāng)前分類任務(wù)無關(guān)的信息,這些信息也可以理解為噪聲。這些噪聲可能會(huì)對分類效果產(chǎn)生不利的影響。(軟閾值化是許多信號降噪算法中的一個(gè)關(guān)鍵步驟)

舉例來說,在馬路邊聊天的時(shí)候,聊天的聲音里就可能會(huì)混雜車輛的鳴笛聲、車輪聲等等。當(dāng)對這些聲音信號進(jìn)行語音識別的時(shí)候,識別效果不可避免地會(huì)受到鳴笛聲、車輪聲的影響。

從深度學(xué)習(xí)的角度來講,這些鳴笛聲、車輪聲所對應(yīng)的特征,就應(yīng)該在深度神經(jīng)網(wǎng)絡(luò)內(nèi)部被刪除掉,以避免對語音識別的效果造成影響。

其次,即使是同一個(gè)樣本集,各個(gè)樣本的噪聲量也往往是不同的。(這和注意力機(jī)制有相通之處;以一個(gè)圖像樣本集為例,各張圖片中目標(biāo)物體所在的位置可能是不同的;注意力機(jī)制可以針對每一張圖片,注意到目標(biāo)物體所在的位置)

例如,當(dāng)訓(xùn)練貓狗分類器的時(shí)候,對于標(biāo)簽為“狗”的5張圖像,第1張圖像可能同時(shí)包含著狗和老鼠,第2張圖像可能同時(shí)包含著狗和鵝,第3張圖像可能同時(shí)包含著狗和雞,第4張圖像可能同時(shí)包含著狗和驢,第5張圖像可能同時(shí)包含著狗和鴨子。

我們在訓(xùn)練貓狗分類器的時(shí)候,就不可避免地會(huì)受到老鼠、鵝、雞、驢和鴨子等無關(guān)物體的干擾,造成分類準(zhǔn)確率下降。如果我們能夠注意到這些無關(guān)的老鼠、鵝、雞、驢和鴨子,將它們所對應(yīng)的特征刪除掉,就有可能提高貓狗分類器的準(zhǔn)確率。

02 軟閾值化是很多降噪算法的核心步驟

軟閾值化,是很多信號降噪算法的核心步驟,將絕對值小于某個(gè)閾值的特征刪除掉,將絕對值大于這個(gè)閾值的特征朝著零的方向進(jìn)行收縮。它可以通過以下公式來實(shí)現(xiàn):

軟閾值化的輸出對于輸入的導(dǎo)數(shù)為:

由上可知,軟閾值化的導(dǎo)數(shù)要么是1,要么是0。這個(gè)性質(zhì)是和ReLU激活函數(shù)是相同的。因此,軟閾值化也能夠減小深度學(xué)習(xí)算法遭遇梯度彌散和梯度爆炸的風(fēng)險(xiǎn)。

在軟閾值化函數(shù)中,閾值的設(shè)置必須符合兩個(gè)的條件: 第一,閾值是正數(shù);第二,閾值不能大于輸入信號的最大值,否則輸出會(huì)全部為零。

同時(shí),閾值最好還能符合第三個(gè)條件:每個(gè)樣本應(yīng)該根據(jù)自身的噪聲含量,有著自己獨(dú)立的閾值。

這是因?yàn)?,很多樣本的噪聲含量?jīng)常是不同的。例如經(jīng)常會(huì)有這種情況,在同一個(gè)樣本集里面,樣本A所含噪聲較少,樣本B所含噪聲較多。那么,如果是在降噪算法里進(jìn)行軟閾值化的時(shí)候,樣本A就應(yīng)該采用較大的閾值,樣本B就應(yīng)該采用較小的閾值。

在深度神經(jīng)網(wǎng)絡(luò)中,雖然這些特征和閾值失去了明確的物理意義,但是基本的道理還是相通的。也就是說,每個(gè)樣本應(yīng)該根據(jù)自身的噪聲含量,有著自己獨(dú)立的閾值。

03 注意力機(jī)制

注意力機(jī)制在計(jì)算機(jī)視覺領(lǐng)域是比較容易理解的。動(dòng)物的視覺系統(tǒng)可以快速掃描全部區(qū)域,發(fā)現(xiàn)目標(biāo)物體,進(jìn)而將注意力集中在目標(biāo)物體上,以提取更多的細(xì)節(jié),同時(shí)抑制無關(guān)信息。具體請參照注意力機(jī)制方面的文章。

Squeeze-and-Excitation Network(SENet)是一種較新的注意力機(jī)制下的深度學(xué)習(xí)方法。 在不同的樣本中,不同的特征通道,在分類任務(wù)中的貢獻(xiàn)大小,往往是不同的。SENet采用一個(gè)小型的子網(wǎng)絡(luò),獲得一組權(quán)重,進(jìn)而將這組權(quán)重與各個(gè)通道的特征分別相乘,以調(diào)整各個(gè)通道特征的大小。

這個(gè)過程,就可以認(rèn)為是在施加不同大小的注意力在各個(gè)特征通道上。

在這種方式下,每一個(gè)樣本,都會(huì)有自己獨(dú)立的一組權(quán)重。換言之,任意的兩個(gè)樣本,它們的權(quán)重,都是不一樣的。在SENet中,獲得權(quán)重的具體路徑是,“全局池化→全連接層→ReLU函數(shù)→全連接層→Sigmoid函數(shù)”。

04 深度注意力機(jī)制下的軟閾值化

深度殘差收縮網(wǎng)絡(luò)借鑒了上述SENet的子網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)注意力機(jī)制下的軟閾值化。通過藍(lán)色框內(nèi)的子網(wǎng)絡(luò),就可以學(xué)習(xí)得到一組閾值,對各個(gè)特征通道進(jìn)行軟閾值化。

在這個(gè)子網(wǎng)絡(luò)中,首先對輸入特征圖的所有特征,求它們的絕對值。然后經(jīng)過全局均值池化和平均,獲得一個(gè)特征,記為A。在另一條路徑中,全局均值池化之后的特征圖,被輸入到一個(gè)小型的全連接網(wǎng)絡(luò)。這個(gè)全連接網(wǎng)絡(luò)以Sigmoid函數(shù)作為最后一層,將輸出歸一化到0和1之間,獲得一個(gè)系數(shù),記為α。最終的閾值可以表示為α×A。

因此,閾值就是,一個(gè)0和1之間的數(shù)字×特征圖的絕對值的平均。通過這種方式,保證了閾值為正,而且不會(huì)太大。

而且,不同的樣本就有了不同的閾值。因此,在一定程度上,可以理解成一種特殊的注意力機(jī)制:注意到與當(dāng)前任務(wù)無關(guān)的特征,通過軟閾值化,將它們置為零;或者說,注意到與當(dāng)前任務(wù)有關(guān)的特征,將它們保留下來。

最后,堆疊一定數(shù)量的基本模塊以及卷積層、批標(biāo)準(zhǔn)化、激活函數(shù)、全局均值池化以及全連接輸出層等,就得到了完整的深度殘差收縮網(wǎng)絡(luò)。

05 深度殘差收縮網(wǎng)絡(luò)或許有更廣泛的通用性

深度殘差收縮網(wǎng)絡(luò)事實(shí)上是一種通用的特征學(xué)習(xí)方法。這是因?yàn)楹芏嗵卣鲗W(xué)習(xí)的任務(wù)中,樣本中或多或少都會(huì)包含一些噪聲,以及不相關(guān)的信息。這些噪聲和不相關(guān)的信息,有可能會(huì)對特征學(xué)習(xí)的效果造成影響。例如說:

在圖片分類的時(shí)候,如果圖片同時(shí)包含著很多其他的物體,那么這些物體就可以被理解成“噪聲”;深度殘差收縮網(wǎng)絡(luò)或許能夠借助注意力機(jī)制,注意到這些“噪聲”,然后借助軟閾值化,將這些“噪聲”所對應(yīng)的特征置為零,就有可能提高圖像分類的準(zhǔn)確率。

在語音識別的時(shí)候,如果在聲音較為嘈雜的環(huán)境里,比如在馬路邊、工廠車間里聊天的時(shí)候,深度殘差收縮網(wǎng)絡(luò)也許可以提高語音識別的準(zhǔn)確率,或者給出了一種能夠提高語音識別準(zhǔn)確率的思路。

#論文網(wǎng)址#

M. Zhao, S. Zhong, X. Fu, et al., Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, DOI: 10.1109/TII.2019.2943898

 

本文由 @日月之行 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!