理论片中文字幕无码网站，在线精品91青草国产在线观看，国产成人 aⅴ尤物国产，一级毛片在线播放网站免费，亚洲av片不卡无码久久嫩模，久久国产精品国产精品日韩区，天堂热无码AV，国产成人无码精品综合

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

AI 預(yù)測武漢疫情，創(chuàng)業(yè)公司如何攻占AI流行病預(yù)測？

腦極體

2020-02-05

0 評論 6554 瀏覽 6 收藏

20 分鐘

2020年，鬧得大家人心惶惶的新冠肺炎疫情，竟然早有一家創(chuàng)業(yè)公司通過AI 監(jiān)測平臺預(yù)測到了。也許就有人好奇了，它是如何預(yù)測的，背后的技術(shù)又可以如何深入運(yùn)用？本文將給你帶來一些思考與啟發(fā)。

預(yù)測未知，一直是人類十分向往的能力。

遠(yuǎn)不說國人熟悉的周易八卦、唐代道士編寫的《推背圖》，還有西方人熟知的占星術(shù)、中世紀(jì)流行起來的塔羅牌。

近的比如說當(dāng)年根據(jù) “2012世界末日”這一瑪雅預(yù)言影響下出現(xiàn)的全民狂熱和商業(yè)狂歡，依然讓我們記憶猶新。

現(xiàn)在“不問蒼生問鬼神”的時代已經(jīng)過去，我們對物理世界及社會經(jīng)濟(jì)的確定性的、經(jīng)驗性的甚至概率性的預(yù)測都已輕車熟路。但比如說像“蝴蝶效應(yīng)”描述的高度復(fù)雜的、超多變量以及超大數(shù)據(jù)量的預(yù)測，人類還是束手無策么？

答案并不是。

近日，我國武漢新型冠狀病毒疫情的爆發(fā)引起世界衛(wèi)生組織和全球多地衛(wèi)生機(jī)構(gòu)的密切關(guān)注。其中，《連線》雜志報道了“一家加拿大公司BlueDot通過AI監(jiān)測平臺率先預(yù)測和發(fā)布武漢出現(xiàn)傳染疫情”的新聞，得到國內(nèi)媒體的廣泛關(guān)注。

這似乎是我們在“預(yù)測未來”這件事上最想看到的成果——借助大數(shù)據(jù)沉淀基礎(chǔ)和AI的推斷，人類似乎正能夠揣摩“天意”，揭示出原本深藏于混沌之中的因果規(guī)律，從而在天災(zāi)降臨前試圖挽救世界。

今天我們就從傳染病預(yù)測出發(fā)，看看AI是如何一步步走向“神機(jī)妙算”的。

一、谷歌GFT頻喊“狼來了”：流感大數(shù)據(jù)的狂想曲

用AI預(yù)測傳染病顯然不是Bluedot的專利，其實(shí)早在2008年，今天的AI“強(qiáng)手”谷歌，就曾進(jìn)行過一次不太成功的嘗試。

2008年谷歌推出一個預(yù)測流感流行趨勢的系統(tǒng)——Google Flu Trends（谷歌流感趨勢，以下簡稱GFT）。

GFT一戰(zhàn)成名是在2009年美國H1N1爆發(fā)的幾周前，谷歌工程師在《Nature》雜志上發(fā)表了一篇論文，通過谷歌累積的海量搜索數(shù)據(jù)，成功預(yù)測H1N1在全美范圍的傳播。

就流感的趨勢和地區(qū)分析中，谷歌用幾十億條檢索記錄，處理了4.5億個不同的數(shù)字模型，構(gòu)造出一個流感預(yù)測指數(shù)，其結(jié)果與美國疾病控制和預(yù)防中心（CDC）官方數(shù)據(jù)的相關(guān)性高達(dá)97%，但要比CDC提前了整整2周。

在疫情面前，時間就是生命，速度就是財富，如果GFT能一直保持這種“預(yù)知”能力，顯然可以為整個社會提前控制傳染病疫情贏得先機(jī)。然而，預(yù)言神話沒有持續(xù)多久。2014年，GFT又再次受到媒體關(guān)注，但這一次卻是因為它糟糕的表現(xiàn)。

研究人員2014年又在《Science》雜志發(fā)布 “谷歌流感的寓言：大數(shù)據(jù)分析的陷阱” 一文，指出在2009年，GFT沒有能預(yù)測到非季節(jié)性流感A-H1N1。從2011年8月到2013年8月的108周里，GFT有100周高過了CDC報告的流感發(fā)病率。高估了多少呢？

在2011-2012季，GFT預(yù)測的發(fā)病率是CDC報告值的1.5倍多；而到2012-2013季，GFT預(yù)測流感發(fā)病率已是CDC報告值的2倍多。

（圖表來自The Parable of Google Flu: Traps in Big Data Analysis | Science，2014）盡管GFT在2013年調(diào)整了算法，并回應(yīng)稱出現(xiàn)偏差的罪魁禍?zhǔn)资敲襟w對GFT的大幅報道導(dǎo)致人們的搜索行為發(fā)生了變化,GFT預(yù)測的2013-2014季的流感發(fā)病率，仍然高于CDC報告值1.3倍。并且研究人員前面發(fā)現(xiàn)的系統(tǒng)性誤差仍然存在，也就是“狼來了”的錯誤仍然在犯。

到底GFT遺漏了哪些因素，讓這個預(yù)測系統(tǒng)陷入窘境？

根據(jù)研究人員分析，GFT的大數(shù)據(jù)分析出現(xiàn)如此大的系統(tǒng)性誤差，其收集特征和評估方法可能存在以下問題：

1. 大數(shù)據(jù)傲慢（Big Data Hubris）

所謂“大數(shù)據(jù)傲慢”，就是谷歌工程師給出的前提假設(shè)就是，通過用戶搜索關(guān)鍵詞得到的大數(shù)據(jù)包含的即是流感疾病的全數(shù)據(jù)收集，可以完全取代傳統(tǒng)數(shù)據(jù)收集（采樣統(tǒng)計），而不是其補(bǔ)充。也就是GFT認(rèn)為“采集到的用戶搜索信息”數(shù)據(jù)與 “某流感疫情涉及的人群”這個總體完全相關(guān)。

這一 “自大”的前提假設(shè)忽視了數(shù)據(jù)量巨大并不代表數(shù)據(jù)的全面和準(zhǔn)確，因而出現(xiàn)在2009年成功預(yù)測的數(shù)據(jù)庫樣本不能涵蓋在之后幾年出現(xiàn)的新的數(shù)據(jù)特征。

也是因為這份“自負(fù)”，GFT也似乎沒有考慮引入專業(yè)的健康醫(yī)療數(shù)據(jù)以及專家經(jīng)驗，同時也并未對用戶搜索數(shù)據(jù)進(jìn)行“清洗”和“去噪”，從而導(dǎo)致此后流行病發(fā)病率估值過高但又無力解決的問題。

2. 搜索引擎演化

同時搜索引擎的模式也并非一成不變的，谷歌在2011年之后推出“推薦相關(guān)搜索詞”，也就是我們今天很熟悉的搜索關(guān)聯(lián)詞模式。

比如針對流感搜索詞，給出相關(guān)尋求流感治療的list，2012年后還提供相關(guān)診斷術(shù)語的推薦。研究人員分析，這些調(diào)整有可能人為推高了一些搜索，并導(dǎo)致谷歌對流行發(fā)病率的高估。

舉例來說，當(dāng)用戶搜索“喉嚨痛”，谷歌會在推薦關(guān)鍵詞給出“喉嚨痛和發(fā)燒”、“如何治療喉嚨痛”等推薦，這時用戶可能會出于好奇等原因進(jìn)行點(diǎn)擊，造成用戶使用的關(guān)鍵詞并非用戶本意的現(xiàn)象，從而影響GFT搜集數(shù)據(jù)的準(zhǔn)確性。

而用戶的搜索行為反過來也會影響GFT的預(yù)測結(jié)果，比如媒體對于流感流行的報道會增加與流感相關(guān)的詞匯的搜索次數(shù)，進(jìn)而影響GFT的預(yù)測。

這就像量子力學(xué)家海森堡指出的，在量子力學(xué)中存在的“測不準(zhǔn)原理”說明的一樣，“測量即干涉”，那么，在充斥媒體報道和用戶主觀信息的搜索引擎的喧囂世界里，也同樣存在“預(yù)測即干涉”悖論。搜索引擎用戶的行為并不完全是自發(fā)產(chǎn)生，媒體報道、社交媒體熱點(diǎn)、搜索引擎推薦甚至大數(shù)據(jù)推薦都在影響用戶心智，造成用戶特定搜索數(shù)據(jù)的集中爆發(fā)。為什么GFT的預(yù)測總是偏高？

根據(jù)這一理論，我們可以知道，一旦GFT發(fā)布的流行病預(yù)測指數(shù)升高，立刻會引發(fā)媒體報道，從而導(dǎo)致更多相關(guān)信息搜索，從而又強(qiáng)化GFT的疫情判斷，無論如何調(diào)整算法，也改變不了“測不準(zhǔn)”的結(jié)果。

3. 相關(guān)而非因果

研究人員指出，GFT的根源問題在于，谷歌工程師并不清楚搜索關(guān)鍵詞和流感傳播之間到底有什么因果聯(lián)系，而只是關(guān)注數(shù)據(jù)之間的——統(tǒng)計學(xué)相關(guān)性特征。

過度推崇“相關(guān)”而忽略“因果”就會導(dǎo)致數(shù)據(jù)失準(zhǔn)的情況。比如，以“流感”為例，如果一段時間該詞搜索量暴漲，可能是因為推出一部《流感》的電影或歌曲，并不一定意味著流感真的在爆發(fā)。

一直以來，盡管外界一直希望谷歌能夠公開GFT的算法，谷歌并沒有選擇公開。這讓很多研究人員質(zhì)疑這些數(shù)據(jù)是否可以重復(fù)再現(xiàn)或者存在更多商業(yè)上的考慮。他們希望應(yīng)該將搜索大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)統(tǒng)計（小數(shù)據(jù)）結(jié)合起來，創(chuàng)建對人類行為更深入、準(zhǔn)確的研究。

顯然，谷歌并沒有重視這一意見。最終在2015年GFT正式下線。但其仍在繼續(xù)收集相關(guān)用戶的搜索數(shù)據(jù)，僅提供給美國疾控中心以及一些研究機(jī)構(gòu)使用。

二、為什么BlueDot率先成功預(yù)測：AI算法與人工分析的協(xié)奏曲

眾所周知，谷歌在當(dāng)時已經(jīng)在布局人工智能，2014年收購DeepMind，但依然保持它的獨(dú)立運(yùn)營。同時，谷歌也沒有GFT再投入更多關(guān)注，因此也并未考慮將AI加入到GFT的算法模型當(dāng)中，而是選擇了讓GFT走向“安樂死”。幾乎在同一時期，今天我們所見到的BlueDot誕生。

BlueDot是由傳染病專家卡姆蘭·克汗（Kamran Khan）建立流行病自動監(jiān)測系統(tǒng)，通過每天分析65種語言的約10萬篇文章，來跟蹤100多種傳染病爆發(fā)情況。他們試圖用這些定向數(shù)據(jù)收集來獲知潛在流行傳染病爆發(fā)和擴(kuò)散的線索。

BlueDot一直使用自然語言處理（NLP）和機(jī)器學(xué)習(xí)（ML）來訓(xùn)練該“疾病自動監(jiān)測平臺”，這樣不僅可以識別和排除數(shù)據(jù)中的無關(guān)“噪音”。

比如，系統(tǒng)識別這是蒙古炭疽病的爆發(fā)，還僅僅是1981年成立的重金屬樂隊“炭疽”的重聚。

又比如GFT僅僅將“流感”相關(guān)搜索的用戶理解為可能的流感病患者，顯然出現(xiàn)過多不相關(guān)用戶而造成流行病準(zhǔn)確率的高估。

這也是BlueDot區(qū)別于GFT在對關(guān)鍵數(shù)據(jù)進(jìn)行甄別的優(yōu)勢之處。

就像在這次在新型冠狀病毒疫情的預(yù)測中，卡姆蘭表示，BlueDot通過搜索外語新聞報道，動植物疾病網(wǎng)絡(luò)和官方公告來找到疫情信息源頭。但該平臺算法不使用社交媒體的發(fā)布內(nèi)容，因為這些數(shù)據(jù)太過雜亂容易出現(xiàn)更多“噪音”。

關(guān)于病毒爆發(fā)后的傳播路徑預(yù)測，BlueDot更傾向于使用訪問全球機(jī)票數(shù)據(jù)，從而更好發(fā)現(xiàn)被感染的居民的動向和行動時間。在1月初的時候，BlueDot也成功預(yù)測了新型冠狀病毒從武漢爆發(fā)后，幾天之內(nèi)從武漢擴(kuò)散至北京、曼谷、漢城及臺北。新冠病毒爆發(fā)并非是BlueDot的第一次成功：

在2016年，通過對巴西寨卡病毒的傳播路徑建立AI模型的分析，BlueDot成功地提前六個月預(yù)測在美國佛羅里達(dá)州出現(xiàn)寨卡病毒。

這意味著BlueDot的AI監(jiān)測能力甚至可以做到預(yù)測流行病的地域蔓延軌跡。

從失敗到成功，BlueDot和谷歌GFT之間究竟存有哪些差異？

1. 預(yù)測技術(shù)差異

之前主流的預(yù)測分析方法采取的是數(shù)據(jù)挖掘的一系列技術(shù)，其中經(jīng)常用到的數(shù)理統(tǒng)計中的“回歸”方法，包括多元線性回歸、多項式回歸、多因Logistic回歸等方法，其本質(zhì)是一種曲線的擬合，就是不同模型的“條件均值”預(yù)測。這也正是GFT所采用的預(yù)測算法的技術(shù)原理。

在機(jī)器學(xué)習(xí)之前，多元回歸分析提供了一種處理多樣條件的有效方法，可以嘗試找到一個預(yù)測數(shù)據(jù)失誤最小化且“擬合優(yōu)度”最大化的結(jié)果。但回歸分析對于歷史數(shù)據(jù)的無偏差預(yù)測的渴求，并不能保證未來預(yù)測數(shù)據(jù)的準(zhǔn)確度，這就會造成所謂的“過度擬合”。

據(jù)北大國研院教授沈艷在《大數(shù)據(jù)分析的光榮與陷阱——從谷歌流感趨勢談起》一文中分析，谷歌GFT確實(shí)存在“過度擬合”的問題。

也就是在2009年GFT可以觀察到2007-2008年間的全部CDC數(shù)據(jù)，采用的訓(xùn)練數(shù)據(jù)和檢驗數(shù)據(jù)尋找最佳模型的方法所參照的標(biāo)準(zhǔn)就是——不惜代價高度擬合CDC數(shù)據(jù)。

所以，在2014年的《Science》論文中指出，會出現(xiàn)GFT在預(yù)測2007-2008年流感流行率時，存在丟掉一些看似古怪的搜索詞，而用另外的5000萬搜索詞去擬合1152個數(shù)據(jù)點(diǎn)的情況。

2009年之后，GFT要預(yù)測的數(shù)據(jù)就將面臨更多未知變量的存在，包括它自身的預(yù)測也參與到了這個數(shù)據(jù)反饋當(dāng)中。無論GFT如何調(diào)整，它仍然要面對過度擬合問題，使得系統(tǒng)整體誤差無法避免。

BlueDot采取了另外一項策略，即醫(yī)療、衛(wèi)生專業(yè)知識和人工智能、大數(shù)據(jù)分析技術(shù)結(jié)合的方式，去跟蹤并預(yù)測流行傳染病在全球分布、蔓延的趨勢，并給出最佳解決方案。

BlueDot主要采用自然語言處理和機(jī)器學(xué)習(xí)來提升該監(jiān)測引擎的效用。隨著近幾年算力的提升以及機(jī)器學(xué)習(xí)，從根本上徹底改變了統(tǒng)計學(xué)預(yù)測的方法。

主要是深度學(xué)習(xí)（神經(jīng)網(wǎng)絡(luò)）的應(yīng)用，采用了“反向傳播”的方法，可以從數(shù)據(jù)中不斷訓(xùn)練、反饋、學(xué)習(xí)，獲取“知識”，經(jīng)過系統(tǒng)的自我學(xué)習(xí)，預(yù)測模型會得到不斷優(yōu)化，預(yù)測準(zhǔn)確性也在隨著學(xué)習(xí)而改進(jìn)。

而模型訓(xùn)練前的歷史數(shù)據(jù)輸入則變得尤為關(guān)鍵。足夠豐富的帶特征數(shù)據(jù)是預(yù)測模型得以訓(xùn)練的基礎(chǔ)。經(jīng)過清洗的優(yōu)質(zhì)數(shù)據(jù)和提取恰當(dāng)標(biāo)注的特征成為預(yù)測能否成功的重中之重。

2. 預(yù)測模式差異

與GFT完全將預(yù)測過程交給大數(shù)據(jù)算法的結(jié)果的方式不同，BlueDot并沒有完全把預(yù)測交給AI監(jiān)測系統(tǒng)。BlueDot是在數(shù)據(jù)篩選完畢后，會交給人工分析。這也正是GFT的大數(shù)據(jù)分析的“相關(guān)性”思維與BlueDot的“專家經(jīng)驗型”預(yù)測模式的不同。

所分析的大數(shù)據(jù)是選取特定網(wǎng)站（醫(yī)療衛(wèi)生、健康疾病新聞類）和平臺（航空機(jī)票等）的信息。而AI所給出的預(yù)警信息也需要相關(guān)流行病學(xué)家的再次分析才能進(jìn)行確認(rèn)是否正常，從而評估這些疫情信息能否第一時間向社會公布。

當(dāng)然，就目前這些案例還不能說明BlueDot在預(yù)測流行病方面已經(jīng)完全取得成功：

首先，AI訓(xùn)練模型是否也會存在一些偏見，比如為避免漏報，是否會過分夸大流行病的嚴(yán)重程度，因而再次出現(xiàn)“狼來了”的問題？其次，監(jiān)測模型所評估的數(shù)據(jù)是否有效，比如BlueDot謹(jǐn)慎使用社交媒體的數(shù)據(jù)來避免過多的“噪音”？

幸而BlueDot作為一家專業(yè)的健康服務(wù)平臺，他們會比GFT更關(guān)注監(jiān)測結(jié)果的準(zhǔn)確性。

畢竟，專業(yè)的流行病專家是這些預(yù)測報告的最終發(fā)布人，其預(yù)測的準(zhǔn)確度直接會影響其平臺信譽(yù)和商業(yè)價值。

這也意味著，BlueDot還需要面臨如何平衡商業(yè)化盈利與公共責(zé)任、信息開放等方面的一些考驗。