數(shù)據(jù)科學(xué)邊界:數(shù)據(jù)不能解決什么?

0 評論 2208 瀏覽 10 收藏 16 分鐘

我們現(xiàn)在已經(jīng)走過了很久的歷程,終于完成了這個(gè)系列的寫作,今天是我們的收官之作,我們聊點(diǎn)輕松的,今天沒有公式,沒有代碼。

    1. 如何構(gòu)建學(xué)科體系
    2. 數(shù)據(jù)世界觀
    3. 數(shù)據(jù)分析整體框架
    4. 問題分析/數(shù)據(jù)預(yù)處理/數(shù)據(jù)預(yù)分析
    5. 數(shù)據(jù)分析核心:建模
    6. 模型空間概述
    7. 數(shù)據(jù)科學(xué)邊界(這篇文章)
    8. ……

數(shù)據(jù)科學(xué) = 數(shù)學(xué)/統(tǒng)計(jì)學(xué) + 科學(xué)方法論 + 計(jì)算機(jī) (+ 業(yè)務(wù)經(jīng)驗(yàn))

我們在剛剛接觸一個(gè)新奇的事物的時(shí)候,總有一種沖動:這種東西可以改變?nèi)钪妗?/strong>

比如:我們剛接觸區(qū)塊鏈的時(shí)候,啊,區(qū)塊鏈就要改變?nèi)钪媪?。其?shí)區(qū)塊鏈也只是一種去中心化的分布式的數(shù)據(jù)庫技術(shù)而已,當(dāng)我們問區(qū)塊鏈?zhǔn)裁磿r(shí)候可以改變世界的時(shí)候,其實(shí)再問一種數(shù)據(jù)庫技術(shù)什么時(shí)候改變世界?

科學(xué)剛誕生的時(shí)候,人類世界開始了去魅的過程,越來愈多的事情被證偽,被科學(xué)拉下神壇,正當(dāng)科學(xué)家們躊躇滿志的時(shí)候,馬克韋伯在一篇題為<作為學(xué)術(shù)的志業(yè)>的演講中說:我們這個(gè)時(shí)代必定是分裂的一代,一方面科學(xué)告訴我們事實(shí)是什么,卻無法告訴我們什么是善良,什么是美。

短短的一句話終結(jié)了科學(xué)萬能的神話,我們剛接觸數(shù)據(jù)科學(xué)的時(shí)候,也覺得這是個(gè)數(shù)據(jù)入侵一切的世界,今天我們就來看看數(shù)據(jù)科學(xué)不能解決什么?

科學(xué)的邊界:無法測量的對象,無法研究

這里先補(bǔ)充一點(diǎn)測量學(xué)的基礎(chǔ)知識,我們?nèi)绾螠y量一個(gè)研究對象呢?

測量主要考慮的倆個(gè)因素:效度和信度。

  • 信度是指其可信度,既是在多大程度上是正確的(數(shù)據(jù)測量的穩(wěn)定性);
  • 效度是指能夠多有效的表示所需表達(dá)的含義(映射的準(zhǔn)確性)。

舉個(gè)栗子:以一份量表(測量智力,記憶力之類的標(biāo)準(zhǔn)化試卷)為例,其信度就是指同一個(gè)人在幾次參加同一份試卷的考試(假設(shè)此人并未有改變)分?jǐn)?shù)不會有大的差異,而效度是指這份試卷能勾多大程度測量你的智力水平。再如:用一把尺子來量一個(gè)人的體重,其信度是有的,但是沒有效度。如果一個(gè)事物具有效度,那一定具有信度,反之則不然。

現(xiàn)實(shí)中,我們不一定可以找到有效測量對象的指標(biāo)或者參照,即使找到了也不一定可以保證測量的穩(wěn)定性。

舉個(gè)栗子:科學(xué)是如何研究潛意識的,目前科學(xué)達(dá)到的最高的水平,也只是通過特定腦區(qū)的腦電波變化來反映潛意識。首先這個(gè)測量的效度就很低,腦電波變化如何能反映潛意識呢?同一潛意識活動如何穩(wěn)定的被測量?

科學(xué)的邊界:價(jià)值類問題 無法有效研究

關(guān)于這部分的論述,前人已經(jīng)做了精彩的論述,我援引韋伯在<學(xué)術(shù)與政治>中的論述。韋伯在書中談到的一個(gè)重點(diǎn),是真善美統(tǒng)一性的瓦解。學(xué)術(shù)知識的目標(biāo)是求真,發(fā)現(xiàn)自然世界與人類社會的事實(shí)真相。

在西方傳統(tǒng)的觀念中,真善美是一個(gè)和諧整體,發(fā)現(xiàn)了事實(shí)真相就能確立倫理的標(biāo)準(zhǔn),由此分辨好壞對錯(cuò),而且還能確定美的本質(zhì),從而得以鑒別美與丑。但是現(xiàn)代學(xué)術(shù)的發(fā)展表明,真是一種事實(shí)判斷,而善或美都是價(jià)值判斷,三者背后沒有統(tǒng)一的依據(jù)。

如果一名學(xué)者在“表達(dá)自己的價(jià)值判斷,那么他對事實(shí)理解的完整性就終結(jié)了”。這意味著韋伯認(rèn)同英國哲學(xué)家休謨的觀點(diǎn),事實(shí)與價(jià)值屬于兩種不同的問題領(lǐng)域,前者是“實(shí)然”問題,關(guān)乎“實(shí)際上是什么”,而后者是“應(yīng)然問題,判斷“應(yīng)當(dāng)是什么”,實(shí)然與應(yīng)然之間沒有邏輯的統(tǒng)一性。

比如:今天我穿了件藍(lán)色的上衣,這是一個(gè)事實(shí)陳述,大概不會有異議,假如你說這是綠色的,那么你要么是故意胡說,要么就是“色盲”。我們可以用儀器來測量衣服的“波長”,用數(shù)據(jù)證明這是物理學(xué)定義的“藍(lán)色”。

但還有另一種說法,說這種藍(lán)色“特別好看”,這就不是事實(shí)陳述,而是在做價(jià)值判斷了。 要是有人提出不同的判斷,堅(jiān)持說這種藍(lán)色難看極了,你很難用同樣客觀有力的證據(jù)來反駁。

這個(gè)簡單的例子告訴我們兩個(gè)道理:

  • 第一,美和真屬于不同的領(lǐng)域,沒有統(tǒng)一的判斷依據(jù);
  • 第二,事實(shí)判斷具有客觀性,在原則上可以通過證據(jù)和理性辯論讓大家達(dá)成一致,而價(jià)值判斷具有很強(qiáng)的主觀色彩,理性辯論無法保證能解決爭議,達(dá)成共識。

計(jì)算機(jī)的邊界:圖靈機(jī)限制/摩爾定律限制/信息論假設(shè)

關(guān)機(jī)計(jì)算機(jī)的極限主要來自這幾個(gè)方面:

  1. 圖靈機(jī)的極限:圖靈機(jī)僅僅可以計(jì)算一部分問題,而圖靈機(jī)是今天計(jì)算機(jī)的原型.圖靈機(jī)無法計(jì)算一類讓自己無法停機(jī)的問題。
  2. 香農(nóng)信息論基本假設(shè):計(jì)算機(jī)無法隨機(jī),無法表示無理數(shù)。
  3. 摩爾定律隨著芯片體積縮小而失效:摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來的。

其內(nèi)容為:當(dāng)價(jià)格不變時(shí),集成電路上可容納的元器件的數(shù)目,約每隔18-24個(gè)月便會增加一倍,性能也將提升一倍。

換言之,每一美元所能買到的電腦性能,將每隔18-24個(gè)月翻一倍以上,這一定律揭示了信息技術(shù)進(jìn)步的速度。 盡管這種趨勢已經(jīng)持續(xù)了超過半個(gè)世紀(jì),摩爾定律仍應(yīng)該被認(rèn)為是觀測或推測,而不是一個(gè)物理或自然法。

預(yù)計(jì)定律將持續(xù)到至少2015年或2020年。然而,2010年國際半導(dǎo)體技術(shù)發(fā)展路線圖的更新增長已經(jīng)放緩在2013年年底,之后的時(shí)間里晶體管數(shù)量密度預(yù)計(jì)只會每三年翻一番。

數(shù)學(xué)的邊界:哥德爾不完備性

1900年的巴黎,在世紀(jì)交替之際,希爾伯特提出了他著名的23個(gè)問題。其中第二個(gè)問題——算術(shù)系統(tǒng)的相容性——正是他那雄心勃勃的“希爾伯特計(jì)劃”的最后一步。這位數(shù)學(xué)界的巨人,打算讓整個(gè)數(shù)學(xué)體系矗立在一個(gè)堅(jiān)實(shí)的地基上,一勞永逸地解決所有關(guān)于對數(shù)學(xué)可靠性的種種疑問。

一切都為了回答三個(gè)問題:

  1. 數(shù)學(xué)是完備的嗎?也就是說,面對那些正確的數(shù)學(xué)陳述,我們是否總能找出一個(gè)證明?數(shù)學(xué)真理是否總能被證明?
  2. 數(shù)學(xué)是一致的嗎?也就是說,數(shù)學(xué)是否前后一致,不會得出某個(gè)數(shù)學(xué)陳述又對又不對的結(jié)論?數(shù)學(xué)是否沒有內(nèi)部矛盾?
  3. 數(shù)學(xué)是可判定的嗎?也就是說,能夠找到一種方法,僅僅通過機(jī)械化的計(jì)算,就能判定某個(gè)數(shù)學(xué)陳述是對是錯(cuò)?數(shù)學(xué)證明能否機(jī)械化?

希爾伯特明確提出這三個(gè)問題時(shí),已是28年后的1928年。在這28年間,數(shù)學(xué)界在算術(shù)系統(tǒng)的相容性上沒有多少進(jìn)展。但希爾伯特沒有等太久,僅僅三年后,哥德爾就得到了前兩個(gè)問題的答案,盡管這個(gè)答案不是希爾伯特所希望看到的。

哥德爾的答案分兩部分:

  • 第一,任何包含了算術(shù)的數(shù)學(xué)系統(tǒng)都不可能同時(shí)擁有完備性和一致性,也就是說,如果一個(gè)數(shù)學(xué)系統(tǒng)包含了算術(shù)的話,要么它是自相矛盾的,要么存在一些命題,它們是真的,但我們卻無法證明。這說明,希爾伯特的前兩個(gè)問題不可能同時(shí)為真。在這里,“算術(shù)”有著精確的含義,就是皮亞諾公理,一組描述了自然數(shù)的公理。
  • 第二,任何包含了算術(shù)的數(shù)學(xué)系統(tǒng),如果它是一致的,那么我們不能在它的內(nèi)部證明它本身的一致性。這說明,我們沒有希望解決第二個(gè)問題。

這就是著名的哥德爾不完備性定理,與其說它回答了希爾伯特的前兩個(gè)問題,不如說它闡述了為什么我們根本不可能解決這兩個(gè)問題。

哥德爾給出了數(shù)學(xué)的極限:在數(shù)學(xué)的領(lǐng)地上,有些東西我們不知道,也不可能知道。

尷尬的是,這就給數(shù)學(xué)家們心頭壓上了一塊大石:誰也不知道自己辛辛苦苦做了十幾年的題目,會不會突然有一天被證明是在現(xiàn)有數(shù)學(xué)體系中不可判定的。

測量的邊界:任何測量都有必然誤差

現(xiàn)實(shí)世界的對象其實(shí)無窮維度的,而測量的本質(zhì)是有限維度的映射,這些有限維度的選擇本身就帶有必然的主觀色彩,我們獲得了一些我們想要的知識,也一定忽略了很多信息。

因果性和相關(guān)性的鴻溝

在大家的意識中,因果關(guān)系是相關(guān)性正好等于100%,如果A發(fā)生,那么B一定發(fā)生,就是相關(guān)系數(shù)等于1。 假如我和你都是小學(xué)生,你和我肯定都在長個(gè)子,那么你長高,我也長高,在這5年之內(nèi),你長高我也長高的相關(guān)性是1。

大家都知道,因?yàn)槲液湍氵€在成長期。不是你長高,我也長高。或許,你現(xiàn)在看到這里覺得很可笑,這不是誰都知道嗎。但是生活中,各種事情在我們的生活中存在很多,只是我們沒有意識到,還有這些事情沒有威脅我們的生存。

對因果關(guān)系,最前沿的定義是這樣的:

認(rèn)知科學(xué)家珀?duì)柦o了一個(gè)這樣的定義:P(Y | do(X)) > P(Y),也就是說,如果你單方面對 X 做一個(gè)干預(yù)動作,導(dǎo)致 Y 的概率增加,那么就是 X 導(dǎo)致了 Y,這個(gè)可能是目前為止最合理的定義。

總結(jié)

接下來,我們總結(jié)一下數(shù)據(jù)科學(xué)的邊界:

世界上有很多問題,其中只有一小部分是數(shù)學(xué)問題。 在數(shù)學(xué)問題中,只有一小部分是有解的。在有解的問題中,只有一部分是理想狀態(tài)的圖靈機(jī)可以解決的。在后一類的問題中,又只有一部分是今天實(shí)際的計(jì)算機(jī)可以解決的,而人工智能可以解決的問題,又只是計(jì)算機(jī)可以解決問題的一部分,而數(shù)據(jù)科學(xué)只是這些學(xué)科的一個(gè)交叉而已。

科學(xué)沒有解決了所有問題,但是開啟了一個(gè)去魅的時(shí)代,我們更加看清了一些世界的真相。數(shù)據(jù)也不能解決所有問題,但是卻把天使帶到了人間,使普通人也能夠調(diào)用一代代偉人的智慧。

反思

整個(gè)過程可以概括為嘗試在一個(gè)工程學(xué)科建立像數(shù)學(xué)一樣的演繹體系,這可能是個(gè)失敗的,但對自己來說,也算是一個(gè)偉大的失敗。

雖然整個(gè)過程寫的我自己嘔心瀝血,耗盡心力,但其實(shí)并文章本身沒有為了人類的知識體系做出任何補(bǔ)丁和貢獻(xiàn)。

寫作的過程是一個(gè)不斷探索本質(zhì)的過程,寫作的過程不斷逼迫自己去思考,去建立概念之間的聯(lián)系,逼迫自己搞清楚以前模糊的概念,可能這樣的寫作對自己一個(gè)人的意義遠(yuǎn)遠(yuǎn)大于對其他人。

這個(gè)過程中也在反思,學(xué)習(xí)知識,我們到底是皓首窮經(jīng)的究根問底,還是拿來主義就好?

現(xiàn)在想到的一個(gè)折中方案是:

  1. 不能一直究根問底,畢竟我們的時(shí)間精力有限,任何學(xué)科的任何一個(gè)分支都有可能窮盡我們一生的精力;
  2. 在調(diào)用他人研究成果時(shí) 至少需要知道成果中概念的準(zhǔn)確含義,成果的假設(shè),成果的結(jié)論,結(jié)論的限定,其他團(tuán)體對結(jié)果的評價(jià)。

當(dāng)然折中方案的基礎(chǔ)是,當(dāng)要解決具體問題時(shí),我們的信息源要足夠的高質(zhì)量,人文方面主要看大師,看人類社會公認(rèn)的經(jīng)典之作,科學(xué)方面圍繞SCI等核心期刊和科學(xué)共同體公認(rèn)的教材,配合一定的綜述性文獻(xiàn)。

至此我們可以區(qū)分出來,作為消費(fèi)內(nèi)容的寫作,作為人類知識延續(xù)和傳播的寫作,作為自我反思的寫作,之間的區(qū)別。

這段時(shí)間的寫作告一段落,謝謝大家。

 

作者:小祁愛數(shù)據(jù),公眾號:小祁同學(xué)的成長故事

本文由 @小祁愛數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!