什么是好算法
在應(yīng)用科學(xué)領(lǐng)域,算法的選擇和應(yīng)用是一個(gè)復(fù)雜的問(wèn)題,它涉及到數(shù)學(xué)、工程和業(yè)務(wù)策略等多個(gè)方面。這篇文章,我們來(lái)看看算法的增益、部署問(wèn)題、線(xiàn)性與非線(xiàn)性模型的選擇,以及樹(shù)模型和神經(jīng)網(wǎng)絡(luò)算法的適用場(chǎng)景。
其實(shí),在應(yīng)用科學(xué)領(lǐng)域,這是最微不足道的。
AI,就是數(shù)學(xué)的游戲,這不能算貶義,因?yàn)閿?shù)學(xué)真的是皇冠。
算法帶來(lái)的超額效果很小。除了邏輯回歸復(fù)雜度較低之外,xgb、lgb,神經(jīng)網(wǎng)弱等學(xué)習(xí)能力都很強(qiáng),算法的增益幾乎可以忽略不計(jì)。
選擇算法,最重要的是考慮部署問(wèn)題。如果你們工程上只會(huì)邏輯回歸的線(xiàn)性計(jì)算,那你就只能選邏輯回歸。選擇別的算法,要先解決工程問(wèn)題。但其實(shí)都好解決,也不好解決,主要看系統(tǒng)能力,其次看個(gè)人能力。
從線(xiàn)性和非線(xiàn)性的角度說(shuō)吧,邏輯回歸當(dāng)然是線(xiàn)性的,神經(jīng)網(wǎng)絡(luò)和樹(shù)模型是非線(xiàn)性的。這個(gè)問(wèn)題帶來(lái)的結(jié)果是,線(xiàn)性的需要分客群,非線(xiàn)性的可能可以不特別需要分客群。
為什么?
ln(odds)=a1x1+a2x2+…,你看表達(dá)式就知道了,不同客群的系數(shù)矩陣A肯定是不一樣的,實(shí)際上連組成X矩陣的woe值都不一樣。不一樣的表達(dá)式,采用線(xiàn)性的方式強(qiáng)行合成一個(gè),肯定是有損的。
那樹(shù)模型呢?分客群可以看作第一層分裂進(jìn)行了手動(dòng)分群,其實(shí)還不如不分,留給算法自己分。如果你保證總的復(fù)雜度不變的話(huà),我相信算法自己分效果會(huì)更好。
也就是說(shuō),假如分了n個(gè)客群,建了n個(gè)模型,對(duì)比的那一個(gè)不分客群的模型,在相同的參數(shù)下,評(píng)估器的數(shù)量應(yīng)該乘以n。
我們這里說(shuō)的是做模型分不分客群。建模不分客群不代表策略不分客群,做策略的時(shí)候自行去劃分就好了。
有人說(shuō),神經(jīng)網(wǎng)絡(luò)算法更適合同質(zhì)類(lèi)數(shù)據(jù),即數(shù)據(jù)的每一維變量是有同樣含義的,比如圖像中的像素、文字中的字符、音頻中的波形,決策樹(shù)算法更適合異質(zhì)類(lèi)數(shù)據(jù),比如風(fēng)控場(chǎng)景中的年齡、收入、職業(yè)等。
有點(diǎn)道理,這是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的另一種說(shuō)法。
有人說(shuō),在風(fēng)險(xiǎn)建模的時(shí)候,若采用樹(shù)算法,最常采用的參數(shù)為低深度、高數(shù)量(樹(shù)深通常設(shè)置為2-3,樹(shù)的棵數(shù)設(shè)置為幾十到一百),一旦樹(shù)深設(shè)置過(guò)高,則極易產(chǎn)生過(guò)擬合,這與我們對(duì)金融數(shù)據(jù)缺少高階信息的評(píng)判相符。一旦涉及到高階交叉特征,則此時(shí)帶來(lái)的噪聲極可能超過(guò)信號(hào),甚至影響到低階特征的學(xué)習(xí)效果。對(duì)于同質(zhì)信息,比如數(shù)據(jù)源都為多頭信息,樹(shù)深可以設(shè)置的高一些,因?yàn)榇藭r(shí)更深的樹(shù)也不代表高階交叉,本質(zhì)上只是同一個(gè)信息源的不同分裂節(jié)點(diǎn)而已。
有點(diǎn)道理,樹(shù)深的問(wèn)題理解成高階不高階,仁者見(jiàn)仁智者見(jiàn)智,畢竟樹(shù)深越深模型越復(fù)雜效果就是越好,你不能說(shuō)它有什么大問(wèn)題。設(shè)置低樹(shù)深更重要的是和策略,和人的理解保持一致,三個(gè)變量交叉已經(jīng)夠你理解的了。至于同質(zhì)信息,更深的樹(shù)不代表高階交叉,這樣說(shuō)也對(duì),畢竟多個(gè)多頭變量組合你可以理解成一個(gè)更復(fù)雜的多頭變量加工。但是無(wú)須差異化,仍然保持低樹(shù)深即可。
本文由人人都是產(chǎn)品經(jīng)理作者【雷帥】,微信公眾號(hào):【雷帥快與慢】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!