美國小姐的年齡,會(huì)影響死于暖氣的人數(shù)嗎?

1 評(píng)論 5737 瀏覽 6 收藏 9 分鐘

看到題目是不是頓感疑惑?只看表象很容易得出這樣的結(jié)論,需要慎重看待看似相關(guān)的關(guān)系。

前兩天有篇很火的文章《幸好不是所有聰明人都在批發(fā)快感》,批判了目前主流的互聯(lián)網(wǎng)生產(chǎn)力都聚焦在提供用戶“奶頭樂”(Tittytainment),并贊揚(yáng)了少部分不局限在眼前的茍且,依舊致力于全球人民福祉的公司與項(xiàng)目(友情提示:以IBM為關(guān)鍵字,在文中被cue了12次)。

當(dāng)然,觀點(diǎn)我同意,正如那位熱衷于從0到1的大佬彼得·蒂爾當(dāng)年也抱怨過:“我們想要一輛會(huì)飛的汽車,得到的卻是140個(gè)字符。”

被點(diǎn)歪的科技樹,仿佛在把社會(huì)引向尼爾·波斯曼所構(gòu)想的“娛樂至死”,并且“文化向技術(shù)投降”的地步。

但原文中為了責(zé)怪大眾科技加深了人們的負(fù)面情緒,引用了如下的論據(jù)和證明方式。

“隨著iPhone的發(fā)布,美國中學(xué)生的孤獨(dú)感卻幾乎直線上升”

“隨著iPhone的發(fā)布,美國中學(xué)生的孤獨(dú)感卻幾乎直線上升”

我無意為iPhone是否真實(shí)導(dǎo)致了這種情況的發(fā)生辯護(hù),但單純從文中對(duì)于數(shù)據(jù)的使用及論證方式,在未經(jīng)相關(guān)性驗(yàn)證的情況下,將不特定事件定性成為因果關(guān)系。不僅沒有依據(jù),并且煽動(dòng)大眾對(duì)于事實(shí)的認(rèn)知。捎帶使得我對(duì)全文的動(dòng)機(jī)產(chǎn)生懷疑(再一次提示,IBM作為正面案例,在文中被cue了12次)。

A導(dǎo)致了B?

作為互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)分析工作者,日常會(huì)處理大量的信息來判斷平臺(tái)的健康程度以及制定優(yōu)化辦法。其中,需要解釋兩組波動(dòng)數(shù)據(jù)間的關(guān)系時(shí),就需要花一定時(shí)間去思考數(shù)據(jù)間的關(guān)系是因果,還是相關(guān)?

舉個(gè)“因果關(guān)系”的例子:

先前在滴滴運(yùn)營快車時(shí),當(dāng)其他人為因素(如補(bǔ)貼、司機(jī)運(yùn)力等)不變,天氣狀況是直接影響每天訂單量的原因,呈“微笑曲線”狀。三伏天、冬至或者暴雨的極端天氣,都可以導(dǎo)致訂單量大幅增加;風(fēng)和日麗的天氣大家都愿意走路去公共交通站,使用更便宜的交通方式。

這是通過常理可以推斷,并且基于數(shù)據(jù)驗(yàn)證后的結(jié)果。

而對(duì)于相關(guān)關(guān)系,如果一個(gè)事件變化后,另一個(gè)事件也隨之發(fā)生變化,但二者不屬于原因和結(jié)果的關(guān)系,則稱它們之間存在“相關(guān)關(guān)系”。存在相關(guān)關(guān)系的兩個(gè)事件之間雖然有關(guān)聯(lián),但不屬于因果關(guān)系。

日本經(jīng)濟(jì)學(xué)家中室牧子在判斷區(qū)分因果及相關(guān)關(guān)系時(shí),列舉了三條判斷原則:

1. 是否“純屬巧合”?

兩個(gè)事件看似有關(guān),其實(shí)只是“純屬巧合”。像這樣,兩組數(shù)據(jù)的變化趨勢只是碰巧相似的現(xiàn)象被稱為“偽相關(guān)”。

美國分析師維根·泰勒在他的著作《偽相關(guān)》(SpuriousCorrelations)和網(wǎng)站(tylervigen.com)就介紹了非常多這樣的“偽相關(guān)”關(guān)系。

比如,文章標(biāo)題中提到的“美國小姐的年齡”和“全美死于暖氣的人數(shù)”變化一致,相關(guān)系數(shù)達(dá)到0.87;數(shù)據(jù)高度相關(guān),但這兩個(gè)現(xiàn)象間有必然的關(guān)系嗎?

又比如,“美國在科技、太空領(lǐng)域研究的投入”與“用上吊、窒息而自殺的人數(shù)”,相關(guān)系數(shù)更是高達(dá)0.998??茖W(xué)領(lǐng)域每投入1塊錢,就會(huì)激勵(lì)更多人去上吊。變量數(shù)值盡管相關(guān),但這兩個(gè)事實(shí)之間又有什么樣的直接關(guān)聯(lián)?

2. 是否存在“第三個(gè)變量”

其次,我們必須要質(zhì)疑是否存在同時(shí)影響原因和結(jié)果的“第三變量”,或者說是“混雜因素”。它可以把純粹的相關(guān)關(guān)系包裝成因果關(guān)系,干擾人們判斷。

在美國中西部的一個(gè)小鎮(zhèn),地方警察局發(fā)現(xiàn)冰淇淋消費(fèi)量越多,犯罪率就越高。這個(gè)例子中,冰淇淋消費(fèi)量和犯罪率是正相關(guān)的;但并不意味著冰淇凌消費(fèi)的增多導(dǎo)致了犯罪率的上升,更不可能通過減少冰淇凌的銷售來降低犯罪率。

然而,我們猜測存在某個(gè)變量同時(shí)和冰淇淋消費(fèi)量、犯罪率相關(guān)。這個(gè)變量可能是室外溫度,當(dāng)室外氣溫變暖,如在夏天,就會(huì)有更多犯罪(白天更長,人們多開窗口等);因?yàn)樘鞖庾兣?,人們更享受吃冰淇凌的樂趣。相?duì)地,在又長又黑暗的寒冬,冰淇凌的消費(fèi)就減少,同時(shí)犯罪也越少。

當(dāng)然這也只是一種基于現(xiàn)實(shí)生活的猜測,并無切實(shí)的依據(jù)。

3. 是否存在“逆向的因果關(guān)系”

還是拿警察與犯罪的例子。

通常警察多的地區(qū),犯罪案件數(shù)量也多。但是,將犯罪數(shù)量的多少歸結(jié)為警察人數(shù)的增多,難道是在暗示犯罪都是由警察引起的嗎(警察→犯罪)?正好相反,不如說因?yàn)槟程幨欠缸锒喟l(fā)的危險(xiǎn)地區(qū),所以部署了大量警力,這么想可能才更合理(犯罪→警察)。

本以為是原因的事件其實(shí)是結(jié)果,本以為是結(jié)果的事件其實(shí)卻是原因,這種狀態(tài)被稱為“逆向因果關(guān)系”。

iPhone真的導(dǎo)致美國高中生倍感孤獨(dú)嗎?

回到文中的例子,iPhone是不是真的會(huì)導(dǎo)致美國高中生倍感孤獨(dú)?

要得出這個(gè)結(jié)論,顯然需要大量的分組實(shí)驗(yàn)(A/B test)進(jìn)行更深入的研究。

比如,在同一學(xué)校,不用iPhone的高中生分一組,用iPhone的高中生分一組。

用iPhone的學(xué)生中,又需要依據(jù)使用時(shí)長,APP使用偏好再進(jìn)行區(qū)分(要知道Facebook面向高中生,Twitter這樣的社交網(wǎng)絡(luò)仿佛與“孤獨(dú)”心理更有關(guān)聯(lián),他們的變化與推出也都是在05-06年間),再去論證上述的結(jié)論。

結(jié)語

在目前沒有足夠數(shù)據(jù)支撐的情況下,我無法下定論。

每個(gè)人是一個(gè)社會(huì)關(guān)系的總和,包含了各類我們稱之為“不確定性”的東西。同時(shí),科技的發(fā)展本身一直在充滿爭議,“科技倫理”(Technical Ethics)在大數(shù)據(jù)逐漸成熟、AI起勢的情況下,越發(fā)重要。

此時(shí),任何企圖把人、心理和科技三者相關(guān)聯(lián)的結(jié)論,尤其需要謹(jǐn)慎對(duì)待。

 

作者:黃嘉偉,專注銀行在移動(dòng)金融領(lǐng)域內(nèi)的戰(zhàn)略、運(yùn)營和數(shù)據(jù)咨詢服務(wù)

本文由 @黃嘉偉 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App