玩轉(zhuǎn)會(huì)員數(shù)據(jù)分析系列之統(tǒng)計(jì)學(xué)

1 評(píng)論 17144 瀏覽 129 收藏 40 分鐘

玩轉(zhuǎn)會(huì)員數(shù)據(jù)分析系列將從結(jié)合實(shí)際工作的案例來(lái)介紹在日常工作中的哪些數(shù)據(jù)分析方法、概念應(yīng)該在什么時(shí)候使用,通過(guò)直白的語(yǔ)言來(lái)帶領(lǐng)大家走入數(shù)據(jù)分析領(lǐng)域。

玩轉(zhuǎn)會(huì)員數(shù)據(jù)分析系列文章主要針對(duì)數(shù)據(jù)分析給大家普及一些基礎(chǔ)知識(shí)以及在工作中經(jīng)常會(huì)用到的數(shù)據(jù)分析方法和概念,幫助大家一起成長(zhǎng)。

因?yàn)槲覀冎?,在整個(gè)產(chǎn)品經(jīng)理的職業(yè)生涯中,如果你不想永遠(yuǎn)是一個(gè)只畫畫原型,寫寫文檔的職場(chǎng)菜鳥(niǎo),就一定需要掌握數(shù)據(jù)分析的概念和方法,你需要知道在管理產(chǎn)品的不同階段需要使用哪些數(shù)據(jù)分析的方法來(lái)論證你的判斷是否正確?用戶是否能夠接受?能夠?yàn)槠髽I(yè)帶來(lái)哪些收益?

玩轉(zhuǎn)會(huì)員數(shù)據(jù)分析系列將從結(jié)合實(shí)際工作的案例來(lái)介紹在日常工作中的哪些數(shù)據(jù)分析方法、概念應(yīng)該在什么時(shí)候使用,通過(guò)直白的語(yǔ)言來(lái)帶領(lǐng)大家走入數(shù)據(jù)分析領(lǐng)域。

第一章:統(tǒng)計(jì)學(xué)

什么是統(tǒng)計(jì)學(xué)?

統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析、描述數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門綜合性科學(xué)。統(tǒng)計(jì)學(xué)用到了大量的數(shù)學(xué)及其它學(xué)科的專業(yè)知識(shí),其應(yīng)用范圍幾乎覆蓋了社會(huì)科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。

了解統(tǒng)計(jì)學(xué)的意義

作為大數(shù)據(jù)時(shí)代炙手可熱的學(xué)問(wèn),統(tǒng)計(jì)學(xué)可以解決很多實(shí)際問(wèn)題。只有了解了統(tǒng)計(jì)學(xué)你才能知道在大數(shù)據(jù)意義下生存的游戲法則。一般意義上的統(tǒng)計(jì)學(xué)包括了:概率學(xué)、數(shù)理統(tǒng)計(jì)學(xué)兩個(gè)部分,它們都是以概率論為基礎(chǔ)。

統(tǒng)計(jì)學(xué)核心定律及概念

通過(guò)分析數(shù)據(jù)推斷事物的本質(zhì),預(yù)測(cè)它未來(lái)的發(fā)展,分析數(shù)據(jù)的第一步就是找出那些看似偶然的發(fā)生的事件,背后隱藏著哪些必然性的統(tǒng)計(jì)規(guī)律。

核心內(nèi)容

  • 第1節(jié):大數(shù)定律
  • 第2節(jié):中心極限定理
  • 第3節(jié):隨機(jī)抽樣
  • 第4節(jié):回歸分析
  • 第5節(jié):常犯的概率學(xué)錯(cuò)誤

第一節(jié):大數(shù)定律(整個(gè)概率學(xué)的基礎(chǔ))

什么是大數(shù)定律?

比如說(shuō),我們?cè)趯W(xué)生時(shí)代經(jīng)常會(huì)有一些單元測(cè)驗(yàn)的考試,對(duì)你來(lái)說(shuō)每次考試的分?jǐn)?shù)肯定是會(huì)上下浮動(dòng)的,可能有幾次的分?jǐn)?shù)比較高,有幾次的分?jǐn)?shù)比較低,但經(jīng)過(guò)了很多次測(cè)驗(yàn)以后這些分?jǐn)?shù)應(yīng)該能夠反映你的真實(shí)能力了,這就是大數(shù)定律定律的主要內(nèi)涵。

用數(shù)學(xué)術(shù)語(yǔ)來(lái)表達(dá)就是:當(dāng)實(shí)驗(yàn)次數(shù)足夠多的時(shí)候,實(shí)驗(yàn)結(jié)果的平均值會(huì)無(wú)限接近一個(gè)數(shù)值,這個(gè)數(shù)值一般叫做“期望值”。它的意義在于我們可以通過(guò)研究概率來(lái)看清風(fēng)險(xiǎn),做出決定,尤其是在理財(cái)和投資的時(shí)候體現(xiàn)的特別明顯。

比如常常有人幻想一夜暴富,最有可能的方法就是買彩票或則進(jìn)賭場(chǎng)。博彩行業(yè)就是依靠概率理論來(lái)發(fā)財(cái)?shù)?,讓大家覺(jué)得自己會(huì)是那個(gè)幸運(yùn)兒。如果按照每期獎(jiǎng)金的數(shù)額除以彩票的發(fā)行量,每張彩票的實(shí)際價(jià)值都不到1分錢。

但是,人們都熱衷于用2元錢來(lái)交換1分錢。就算是某期彩票爆出的大獎(jiǎng)掏空了獎(jiǎng)池,那從長(zhǎng)遠(yuǎn)來(lái)看的話,發(fā)行彩票業(yè)是穩(wěn)賺不賠的。

因?yàn)槭裁茨兀扛鶕?jù)大數(shù)定律,對(duì)于長(zhǎng)期發(fā)行銷量穩(wěn)定的彩票,獎(jiǎng)金總額的期望值是恒定的,發(fā)行機(jī)構(gòu)只要保證發(fā)行彩票的銷售額大于彩金期望值,就肯定能夠賺錢。

賭場(chǎng)也是一樣的,只要能夠吸引到足夠數(shù)量的賭客,不管幸運(yùn)兒贏走多少錢,賭場(chǎng)永遠(yuǎn)是最后的贏家。所以,一夜暴富的事情發(fā)生在我們身上的概率微乎其微,沉溺其中的結(jié)果就是讓賭場(chǎng)老板和彩票發(fā)行機(jī)構(gòu)大賺了一筆。

在我們生活中也有很多相似的案例,例如積分抽獎(jiǎng),我們每天都使用餓了么來(lái)訂外賣,每筆訂單完成評(píng)價(jià)后都會(huì)獎(jiǎng)勵(lì)一定的積分,這些積分可以在餓了么商城兌換商品和抽獎(jiǎng)。

但是我們發(fā)現(xiàn)積分可直接兌換的商品價(jià)值都是很低的,要么就是需要加錢購(gòu)買的,總體來(lái)看性價(jià)比不高。而參與抽獎(jiǎng)的商品可能都是價(jià)值較高的數(shù)碼產(chǎn)品,我們當(dāng)然愿意使用積分去抽取這些價(jià)值較高的獎(jiǎng)品,雖然我們也知道中獎(jiǎng)的幾率很低。當(dāng)然積分抽獎(jiǎng)的最終目的在于快速的消耗用戶賬戶中沉淀的積分而不是賺錢。

1、通過(guò)研究概率,明智的選擇理財(cái)方式

對(duì)于一些期望值比較高的投資,我們也要用到大數(shù)定律。比如一個(gè)投資門檻是100萬(wàn)的項(xiàng)目,成功率只有30%,但是預(yù)期回報(bào)達(dá)到了500%,這么誘人該不該投呢?這個(gè)時(shí)候如果你把注意力都放在了高回報(bào)率上就比較危險(xiǎn)。我們要注意大數(shù)定律成立的前提在于實(shí)驗(yàn)次數(shù)足夠多。投資100萬(wàn)可不是買2元錢的彩票。

如果你是個(gè)工薪階層,你用來(lái)投資的100萬(wàn)是你的全部家當(dāng),那你顯然沒(méi)有多次投資的資本。這個(gè)時(shí)候如果你孤注一擲,那么你會(huì)有70%概率會(huì)血本無(wú)歸。

反過(guò)來(lái),如果你是投資機(jī)構(gòu)或則富二代,那這樣的項(xiàng)目肯定是來(lái)的越多越好。因?yàn)槟阃顿Y的幾百個(gè)項(xiàng)目里面,肯定有一些能夠成功。平均來(lái)看的話一定能夠像開(kāi)賭場(chǎng)一樣賺到大錢,所以面對(duì)理財(cái)投資中的高期望,我們首先應(yīng)該考慮的因素就是:風(fēng)險(xiǎn)傾向。根據(jù)大數(shù)定律你的風(fēng)險(xiǎn)承受能力越強(qiáng),就意味著允許實(shí)驗(yàn)的次數(shù)越多,也就越有可能賺到期望的投資回報(bào)。這樣大家就很容易理解兩個(gè)基本概念

  • 風(fēng)險(xiǎn)投資機(jī)構(gòu)每年投資那么多項(xiàng)目的意義在哪里;
  • 為什么有錢的人賺錢比窮人更容易。

2、幫助我們理性面對(duì)風(fēng)險(xiǎn)

生活中最常見(jiàn)的,依靠大數(shù)定律來(lái)賺錢的其實(shí)是保險(xiǎn)行業(yè)。比如你在網(wǎng)上購(gòu)買某個(gè)電子產(chǎn)品的時(shí)候,網(wǎng)站經(jīng)常會(huì)向我們推銷延長(zhǎng)保修的服務(wù)。比如一臺(tái)2000元的洗衣機(jī),多花100塊錢可以延保一年,如果你掌握了大數(shù)定律就很容易想到。廠家對(duì)這臺(tái)洗衣機(jī)維修服務(wù)的預(yù)期成本肯定少于100元,否則廠家就要賠錢了。但是有些時(shí)候,這種錢還必須得花。大家都知道,保險(xiǎn)公司利潤(rùn)很高,假設(shè)一種人身意外險(xiǎn)的賠償額度是100萬(wàn),發(fā)生意外的概率是百萬(wàn)分之一,那么預(yù)期損失就是1元錢。如果你花10元錢來(lái)買,保險(xiǎn)公司就能賺到10倍的利潤(rùn),基本和開(kāi)賭場(chǎng)沒(méi)什么區(qū)別。但是你要知道,買這類保險(xiǎn)的意義并不是為了省錢,而是當(dāng)你遭受一些難以承受的巨大損失時(shí),幫你渡過(guò)難關(guān)。因?yàn)槿松硪馔獾膿p失是不能和2000元的洗衣機(jī)來(lái)比較的。這個(gè)時(shí)候保險(xiǎn)更多的是一種規(guī)避風(fēng)險(xiǎn)的理性工具。

第二節(jié):中心極限定理

什么是中心極限定理?

中心極限定理(central limit theorem)是概率論中討論隨機(jī)變量序列部分和分布漸近于正態(tài)分布的一類定理。這組定理是數(shù)理統(tǒng)計(jì)學(xué)和誤差分析的理論基礎(chǔ),指出了大量隨機(jī)變量累積分布函數(shù)逐點(diǎn)收斂到正態(tài)分布的積累分布函數(shù)的條件。

光從百科的字面上我們可能很難理解這個(gè)定理到底是個(gè)什么東東?其實(shí),只要我們把它轉(zhuǎn)化成生活中的常常發(fā)生的事情就非常好理解了。比如我們?nèi)マr(nóng)場(chǎng)的一棵樹(shù)上摘蘋果,想知道這棵樹(shù)上的蘋果甜不甜?沒(méi)必要把整棵樹(shù)上所有的蘋果都嘗一遍,在一棵樹(shù)上任意一個(gè)蘋果的甜度絕不會(huì)相差太大,只要從中選取幾個(gè)品嘗就能夠知道這批水果到底甜不甜。

那中心極限定理的含義就是:任意一個(gè)群體樣本的平均值都會(huì)圍繞在這個(gè)群體的整體平均值周圍,我們對(duì)一個(gè)基數(shù)龐大的群體做統(tǒng)計(jì)調(diào)查的時(shí)候,只要對(duì)其中的一部分樣本進(jìn)行研究,得出的結(jié)論就能夠反映出整個(gè)群體的特點(diǎn)。而且抽樣的數(shù)量越大準(zhǔn)確率越高。因?yàn)檫@個(gè)定理的存在我們開(kāi)展調(diào)查統(tǒng)計(jì)就變得簡(jiǎn)單方便了。

通過(guò)上面的例子我們可以得出本節(jié)的第1個(gè)重點(diǎn):

1、如果掌握了某個(gè)群體的具體信息,就能夠推理出從這個(gè)群體中正確抽取的隨機(jī)樣本的情況。

例如,某個(gè)城市正在同時(shí)舉行鐵人三項(xiàng)比賽和相撲比賽,比賽前有一輛載滿外國(guó)鐵人三項(xiàng)運(yùn)動(dòng)員的大巴車失蹤了,結(jié)果警察找到了一輛滿是外國(guó)大胖子的大巴車。由于語(yǔ)言不通,警察只能根據(jù)經(jīng)驗(yàn)來(lái)判斷。即使鐵人三項(xiàng)選手里面可能也有幾個(gè)體重較大的,但是滿車都是大胖子這是不太可能的,所以呢利用中心極限定理不難推斷出來(lái),警察很可能找錯(cuò)了車子。當(dāng)然,這也屬于比較極端的情況。

如果換個(gè)場(chǎng)景條件,找到的兩輛車中乘客有胖有瘦,我們?cè)撛趺磁袛嗄兀窟@個(gè)時(shí)候我們對(duì)乘客的體重進(jìn)行測(cè)量,計(jì)算體重分布的標(biāo)準(zhǔn)差,利用中心極限定理我們?nèi)匀荒軌蚺袛喑瞿妮v車是我們要找的。這是因?yàn)殍F人三項(xiàng)運(yùn)動(dòng)員群體的體重標(biāo)準(zhǔn)差是明顯小于普通群體的。他們的體重分布更集中,這也是中心極限定理的另一種應(yīng)用。那就是本節(jié)的第2個(gè)重點(diǎn):

2、如果已知兩個(gè)樣本的基本特性,就能夠推理出這兩個(gè)樣本是不是來(lái)自同一個(gè)群體。

小結(jié):關(guān)于中心極限定理,大家就可以這樣理解了。雖然它的數(shù)學(xué)計(jì)算很復(fù)雜,但理解起來(lái)并不是那么難。我們理解了大數(shù)定律和中心極限定理就掌握了統(tǒng)計(jì)學(xué)的概率論基礎(chǔ)。那接下來(lái)就可以了解一下,一些開(kāi)展調(diào)查統(tǒng)計(jì)的基本方法,比如如何采集數(shù)據(jù)?

第三節(jié):隨機(jī)抽樣

通過(guò)前兩節(jié)的內(nèi)容我們對(duì)大數(shù)定律和中心極限定理已經(jīng)有了一定了解,本節(jié)主要講講開(kāi)展調(diào)查統(tǒng)計(jì)的基本方法也就是本章的第三個(gè)重點(diǎn)“隨機(jī)抽樣”。

什么是隨機(jī)抽樣?

按照隨機(jī)的原則,即保證總體中每一個(gè)對(duì)象都有已知的、非零的概率被選入作為研究的對(duì)象,保證樣本的代表性。 隨機(jī)抽樣法就是調(diào)查對(duì)象總體中每個(gè)部分都有同等被抽中的可能,是一種完全依照機(jī)會(huì)均等的原則進(jìn)行的抽樣調(diào)查,被稱為是一種“等概率”。隨機(jī)抽樣有四種基本形式,即簡(jiǎn)單隨機(jī)抽樣、等距抽樣、類型抽樣和整群抽樣。它的最大優(yōu)點(diǎn)是在根據(jù)樣本資料推論總體時(shí),可用概率的方式客觀地測(cè)量推論值的可靠程度,從而使這種推論建立在科學(xué)的基礎(chǔ)上。正因?yàn)榇?,隨機(jī)抽樣在社會(huì)調(diào)查和社會(huì)研究中應(yīng)用較廣泛。常用的隨機(jī)抽樣方法主要有純隨機(jī)抽樣、分層抽樣、系統(tǒng)抽樣、整群抽樣、多階段抽樣等。

隨機(jī)抽樣是我們?cè)诠ぷ髦惺占瘮?shù)據(jù)的主要方法,比如開(kāi)展問(wèn)卷調(diào)查的時(shí)候,如果客戶數(shù)量龐大,根據(jù)中心極限定理只要在客戶中抽取部分有代表性的樣本來(lái)填寫問(wèn)卷,就能夠達(dá)到目的。這個(gè)選取有代表性樣本的過(guò)程,我們稱之為“隨機(jī)抽樣”。

所以呢,隨機(jī)取樣只是看似簡(jiǎn)單,它的關(guān)鍵點(diǎn)在于“隨機(jī)”這兩個(gè)字。要做到隨機(jī),必須保證每個(gè)對(duì)象被抽到的概率完全相等。這樣抽樣的樣本才代表了整個(gè)對(duì)象群體。比如說(shuō)我們想知道100個(gè)彈珠中有多少綠色彈珠多少黃色彈珠,只要把它們放進(jìn)一個(gè)盒子里然后隨機(jī)取出30個(gè)就能得到基本準(zhǔn)確的顏色比例。

那么問(wèn)題來(lái)了?我們開(kāi)展調(diào)查時(shí)的對(duì)象大多是我們的用戶,我們所關(guān)心的人口組成,遠(yuǎn)遠(yuǎn)要比一盒子彈珠要復(fù)雜。如果不能保證相關(guān)人口中的每個(gè)人被選為樣本的概率都相同,這樣的抽樣結(jié)果就存在偏見(jiàn),這樣有偏見(jiàn)的樣本往往會(huì)得出荒謬的結(jié)論。

1、選擇性偏見(jiàn)

具體的我們可以把偏見(jiàn)分成幾類,最常見(jiàn)的叫做“選擇性偏見(jiàn)”。1936年美國(guó)總統(tǒng)大選前,文學(xué)文摘雜志曾經(jīng)向1000萬(wàn)名訂閱它的美國(guó)公民發(fā)放問(wèn)卷,開(kāi)展候選人民意調(diào)查。這份1000萬(wàn)人的樣本已經(jīng)非常大了,因?yàn)楫?dāng)時(shí)的美國(guó)的總?cè)丝谥挥胁坏?億3千萬(wàn)。調(diào)查結(jié)果預(yù)測(cè)共和黨人蘭登將以顯著的優(yōu)勢(shì)當(dāng)選,然而當(dāng)大選結(jié)果揭曉后民主黨人羅斯福卻以壓倒性的優(yōu)勢(shì)當(dāng)選了美國(guó)總統(tǒng)。

文學(xué)文摘的這次民意調(diào)查可以說(shuō)相當(dāng)失敗,問(wèn)題就處在編輯們沒(méi)有意識(shí)到,訂閱這本雜志的人平均來(lái)說(shuō)要比普通美國(guó)民眾更富有,他們更傾向于投票給保護(hù)富人利益的共和黨。這樣帶有選擇性偏見(jiàn)的樣本即使容量再大也不能反映出全體美國(guó)人的民意。

2、幸存者偏見(jiàn)

還有一類“幸存者偏見(jiàn)”也很常見(jiàn)。當(dāng)樣本中有數(shù)據(jù)缺失導(dǎo)致組成發(fā)生改變,這種偏見(jiàn)就會(huì)出現(xiàn)。

舉一個(gè)最常見(jiàn)的案例:很多基金公司經(jīng)常利用這種偏見(jiàn)來(lái)操縱數(shù)據(jù)吸引投資,基金公司會(huì)拿基金業(yè)績(jī)和股票市場(chǎng)的基準(zhǔn)來(lái)做比較。比如美國(guó)的標(biāo)準(zhǔn)“普爾指數(shù)”(類似于我國(guó)的上證指數(shù)),如果某一年基金的漲幅高于標(biāo)準(zhǔn)普爾指數(shù)或者是跌幅低于普爾指數(shù),基金公司就會(huì)宣稱我們的基金跑贏了普爾指數(shù)。但是要想實(shí)實(shí)在在的跑贏普爾指數(shù)不是一件容易的事,我們從概率學(xué)的角度假設(shè),某支基金有1/2的概率能夠跑贏標(biāo)準(zhǔn)普爾指數(shù),那么連續(xù)2年跑贏的基金就只剩下1/4,連續(xù)3年跑贏的概率就只有1/8了。

猜猜看,公司會(huì)怎么宣傳自己的基金業(yè)績(jī)呢?他們通常的做法就是同時(shí)開(kāi)放20支新基金,經(jīng)過(guò)3年的經(jīng)營(yíng)總會(huì)有2-3支基金連續(xù)3年跑贏標(biāo)準(zhǔn)普爾指數(shù),那公司只要把十幾支失敗的基金悄悄關(guān)閉,大肆宣傳這2-3支幸存者就可以把投資者的錢騙進(jìn)來(lái)了。而實(shí)際上這些所謂幸存基金的產(chǎn)生就像連續(xù)拋3次硬幣正面都朝上一樣,接下來(lái)的表現(xiàn)會(huì)逐漸回歸平均水平,真正能長(zhǎng)期跑贏普爾指數(shù)的優(yōu)秀基金其實(shí)是鳳毛麟角。

3、健康用戶偏見(jiàn)

此外“健康用戶”偏見(jiàn)也指的我們警惕,假設(shè)衛(wèi)生部門發(fā)布了一個(gè)理論,給孩子穿上紫色睡衣會(huì)有助于孩子大腦的發(fā)育。那么20年后我們通過(guò)抽樣調(diào)查來(lái)驗(yàn)證這個(gè)理論,結(jié)果顯示在哈弗大學(xué)的學(xué)生中有98%的人在少年時(shí)期是穿著紫色睡衣入睡的,而監(jiān)獄里的犯人只有3%的人在少年時(shí)穿過(guò)紫色睡衣,所以我們得出結(jié)論:穿紫色睡衣的孩子確實(shí)更有可能取得成功。

這很顯然是很荒謬的結(jié)論,那問(wèn)題出在哪呢?

其實(shí)我們用來(lái)對(duì)比的兩組人并不是通過(guò)隨機(jī)抽樣得到的,哈弗大學(xué)的學(xué)生和監(jiān)獄里的犯人根本就是兩類人,真正對(duì)孩子大腦發(fā)育有作用的是給孩子穿上紫色睡衣的家長(zhǎng)相比于其他家庭顯然更注重對(duì)孩子的家庭教育。’

有些養(yǎng)生欄目頁(yè)經(jīng)常用類似的調(diào)查數(shù)據(jù)來(lái)證明多吃蔬菜水果的人更加長(zhǎng)壽等等,他們忽略了習(xí)慣吃蔬菜水果的人群往往有健康的生活習(xí)慣,而那些喜歡高熱量食物的人群很可能收入偏低,在生活的其它方面也沒(méi)有健康的習(xí)慣,所以,這樣錯(cuò)誤的抽樣得出的結(jié)論是經(jīng)不起嚴(yán)格考證的。

小結(jié):隨機(jī)抽樣是我們開(kāi)展調(diào)查統(tǒng)計(jì)的第一步,我們要通過(guò)正確抽樣來(lái)保證第一手的數(shù)據(jù)是可靠的、沒(méi)有偏見(jiàn)的,在這個(gè)基礎(chǔ)上我們才能夠應(yīng)用這些數(shù)據(jù)對(duì)復(fù)雜的問(wèn)題展開(kāi)研究。在下一節(jié)我們將介紹一種強(qiáng)大的統(tǒng)計(jì)學(xué)方法“回歸分析”,這是一種非常強(qiáng)大的統(tǒng)計(jì)學(xué)方法,專門用來(lái)分析那些影響因素很多的復(fù)雜問(wèn)題。

第四節(jié):回歸分析

什么是回歸分析?

在統(tǒng)計(jì)學(xué)中,回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡(jiǎn)單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。

在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測(cè)性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測(cè)器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測(cè)分析,時(shí)間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。例如,司機(jī)的魯莽駕駛與道路交通事故數(shù)量之間的關(guān)系,最好的研究方法就是回歸。(來(lái)自百度百科)

轉(zhuǎn)化為通俗易懂的文字,你可以這樣理解:回歸分析就是通過(guò)一個(gè)已知的現(xiàn)象來(lái)找到未知的原因,它可以通過(guò)嚴(yán)格的數(shù)學(xué)分析復(fù)原出每種原因?qū)Y(jié)果的貢獻(xiàn)比例。

倫敦大學(xué)公共衛(wèi)生學(xué)院曾經(jīng)組織過(guò)一項(xiàng)著名的“白廳研究”,醫(yī)學(xué)家們發(fā)現(xiàn)英國(guó)政府里低級(jí)別的公務(wù)員患上心臟病的概率比他們的上司更高。白廳研究就是要找出這背后的真實(shí)原因,這個(gè)研究顯然不能用隨機(jī)抽樣的方法來(lái)實(shí)現(xiàn),因?yàn)槲覀儾豢赡馨迅鱾€(gè)志愿者強(qiáng)行分配到各個(gè)工作崗位工作幾年,然后再看哪些人因公殉職了。研究人員只能在很長(zhǎng)一段時(shí)間里對(duì)數(shù)千名公務(wù)員進(jìn)行詳細(xì)的數(shù)據(jù)采集,來(lái)對(duì)比各類導(dǎo)致心臟病的可能因素。

比如說(shuō),低階公務(wù)員的學(xué)歷普遍偏低,會(huì)不會(huì)是影響因素呢?煙民比例多呢?還是不能享受到高水平的醫(yī)療服務(wù)呢?或則是加班多鍛煉時(shí)間少?這些都是導(dǎo)致心臟病高發(fā)的變量,那么到底哪一個(gè)才是具有決定性的影響呢?如此龐雜的數(shù)據(jù)里有太多錯(cuò)綜復(fù)雜的因素,顯然會(huì)干擾研究人員的判斷。這時(shí)候我們就要用到回歸分析這個(gè)工具,它的作用就好比一個(gè)可以調(diào)節(jié)孔徑的篩子,能在綜合考慮其它變量效果不變的情況下,把其中一個(gè)變量的效果分離出來(lái)。

回歸分析的數(shù)學(xué)過(guò)程比較復(fù)雜,幸好我們現(xiàn)在有了成熟的多元線性回歸方程模型可以套用,我們要做的就是將多個(gè)變量的取樣結(jié)果帶入回歸方程式,計(jì)算結(jié)果就會(huì)顯示出我們關(guān)注的變量和心臟病發(fā)病率的線性關(guān)系(回歸分析軟件:SAS、SPSS、BMDP等)。

通過(guò)統(tǒng)計(jì)推斷我們就能夠知道,這個(gè)變量到底在多大程度上影響了發(fā)病率。實(shí)驗(yàn)結(jié)果表明,造成心臟病高發(fā)的真正原因是對(duì)工作缺乏控制力和話語(yǔ)權(quán),而這類存在感較低的崗位在低級(jí)別職位中更常見(jiàn)?,F(xiàn)在“低控制率”已經(jīng)成為一個(gè)專有名詞了,專指那些精神負(fù)擔(dān)重,決策水平低的工作。

事實(shí)上當(dāng)前科學(xué)界絕大多數(shù)的研究結(jié)論都是以回歸分析作為基礎(chǔ)的。尤其是回歸分析軟件的普及,讓建立模型和解析方程變得很簡(jiǎn)單,但同時(shí)也要注意電腦永遠(yuǎn)不能代替人的工作,如果我們?cè)谶M(jìn)行回歸分析時(shí)遺漏的變量或者忽視反面因素,回歸分析就回得出危險(xiǎn)的結(jié)論。

比如上世紀(jì)90年代,哈弗大學(xué)對(duì)12萬(wàn)名女性開(kāi)展了縱向調(diào)查,經(jīng)過(guò)嚴(yán)格的回歸分析證實(shí),定期攝入雌激素的女性突發(fā)心臟病的概率只有其他女性的1/3。醫(yī)學(xué)機(jī)構(gòu)支持了這個(gè)觀點(diǎn),醫(yī)院開(kāi)始定期為中老年婦女進(jìn)行雌激素的補(bǔ)充治療。然而后來(lái)的臨床試驗(yàn)發(fā)現(xiàn),補(bǔ)充雌激素的副作用會(huì)導(dǎo)致乳腺癌和血栓病高發(fā),這是科學(xué)家沒(méi)有考慮到的重大疏漏。最終因?yàn)榻邮艽萍に刂委煻劳龅呐曰颊哌_(dá)到上萬(wàn)人,所以一旦出現(xiàn)數(shù)據(jù)遺漏,錯(cuò)誤的數(shù)據(jù)結(jié)果甚至?xí)斐扇松韨Α?/p>

下面我們使用IBM公司開(kāi)發(fā)的“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件SPSS(Statistical Product and Service Solutions)做一個(gè)簡(jiǎn)單的實(shí)例,給大家介紹如何使用SPSS做回歸分析的方法。回歸分析的方法包括:線性回歸、邏輯回歸、多項(xiàng)式回歸、逐步回歸等很多種,本次我們就拿就常用的線性回歸結(jié)合案例來(lái)給大家講解:年齡和血壓的關(guān)系。

開(kāi)始之前,我們先了解一下線性回歸到底是怎么回事?它能做什么?

線性回歸的意義

線性回歸包含:一元線性回歸和多元線性回歸。一元線性回歸又叫做簡(jiǎn)單線性回歸,主要用于判斷是否能通過(guò)回歸模型找到一個(gè)“線性組合”,從而證明一組變量(因變量和自變量)的關(guān)系。如果能的話,這種關(guān)系的強(qiáng)度有多大,也就是利用自變量的線性組合來(lái)預(yù)測(cè)因變量的能力有多強(qiáng)?整體解釋能力是否具有統(tǒng)計(jì)上的顯著性意義?在整體解釋能力顯著的情況下,哪些自變量有顯著的意義?

回歸分析的步驟

  1. 確定回歸方程中的解釋變量(自變量)和被解釋變量(因變量);
  2. 確定回歸模型——選擇合適的數(shù)學(xué)模型概括回歸線;
  3. 確定回歸方程——根據(jù)樣本數(shù)據(jù)及確定的回歸模型,在一定的統(tǒng)計(jì)擬合準(zhǔn)則下估計(jì)模型的參數(shù),得到確定的回歸方程;
  4. 對(duì)回歸方程進(jìn)行各種檢驗(yàn)——基于樣本得到的回歸方程是否真實(shí)反映了總體間的統(tǒng)計(jì)關(guān)系?回歸方程能否用于預(yù)測(cè)?;
  5. 利用回歸方程進(jìn)行預(yù)測(cè)。

一元線性回歸模型:

模型說(shuō)明:

X為自變量;

Y為因變量;

Y的截距,即常量;

斜率為回歸系數(shù),表明自變量對(duì)因變量的影響程度;

X的變化引起的Y的線性變化部分:

其它隨機(jī)因素引起的Y的變化部分:

對(duì)一元線性回歸有所了解以后,我們就拿就用它結(jié)合一個(gè)簡(jiǎn)單的案例:年齡和血壓的關(guān)系,創(chuàng)建一個(gè)具體的實(shí)例。

第一步:導(dǎo)入數(shù)據(jù)

打開(kāi)SPSS導(dǎo)入需要分析的表格

第二步:生成散點(diǎn)圖

選擇“簡(jiǎn)單散點(diǎn)圖”,得到以下圖形:

通過(guò)散點(diǎn)圖觀察變量間的趨勢(shì)。如果有多個(gè)變量則做出散點(diǎn)圖矩陣、重疊散點(diǎn)圖和三維散點(diǎn)圖。如果我們覺(jué)得數(shù)據(jù)的分布存在明顯的問(wèn)題,這時(shí)候需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,防止后面得到的結(jié)果和實(shí)際結(jié)果相差過(guò)大。

第三步:分析結(jié)果

我們可以這樣理解:因變量是結(jié)果,自變量是原因。在這個(gè)實(shí)例中我們可以理解為年齡影響血壓。當(dāng)然這里要加個(gè)疑問(wèn),因?yàn)槲覀兪欠治雎铮诘玫阶罱K的結(jié)果之前這只是一個(gè)假設(shè)。

右側(cè)點(diǎn)擊【統(tǒng)計(jì)】按鈕,在彈出的界面做如下勾選

點(diǎn)擊右側(cè)【圖】按鈕,有些版本叫【繪制】,做如下配置

這兩項(xiàng)配置完成后點(diǎn)擊主界面的【確定】按鈕就可以得到輸出結(jié)果,我們只截取部分比較重要的圖標(biāo)來(lái)做講解。

:軟件原因“德賓-沃森”英文實(shí)際為:Durbin-Watson

調(diào)整R方就是反映這個(gè)模型的擬合度的,簡(jiǎn)單說(shuō)就是我們擬合的兩個(gè)變量之間的線性方程與兩個(gè)變量真實(shí)之間關(guān)系的一個(gè)擬合度。擬合度通常是在0-1之間的數(shù)字。

anova也叫方差分析,主要目的是衡量年齡是否能夠顯著的影響血壓

顯著性也叫Sig,顯著性的結(jié)果是0.002也就是0.2%,說(shuō)明年齡完全不能影響血壓這個(gè)假設(shè)發(fā)生的概率是0.2%,因此我們可以得出結(jié)論有99.8%的概率年齡可以顯著影響血壓的。

以上圖標(biāo)說(shuō)明年齡對(duì)血壓的影響是正向的(0.881),也就是說(shuō)年齡越大血壓越高。年齡每增加1分,血壓總分就會(huì)增加0.881分,這就是自變量和因變量之間的一個(gè)定量的影響關(guān)系。

當(dāng)然判斷的依據(jù)和數(shù)據(jù)維度以及最后結(jié)果的幾個(gè)關(guān)鍵值都有密切關(guān)系,加入分析的自變量是否正確、數(shù)量多少等因素對(duì)結(jié)果也會(huì)產(chǎn)生影響。網(wǎng)上有很多專門介紹線性回歸的資料教程,在這里不再詳細(xì)描述,建議大家多看多動(dòng)手多思考,統(tǒng)計(jì)學(xué)雖然入門比較簡(jiǎn)單,但是要真正應(yīng)用到實(shí)際工作中還是需要一定的實(shí)際分析經(jīng)驗(yàn)的。

小結(jié):統(tǒng)計(jì)學(xué)原因雖然看似簡(jiǎn)單,但卻不是人人都可以做數(shù)據(jù)分析師,因?yàn)樗饶芙o我們的觀點(diǎn)找到嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)支持,但有時(shí)也會(huì)給一個(gè)錯(cuò)誤的結(jié)論披上合理的外衣。這就是本章下一節(jié)要講的最后一部分:常犯的概率學(xué)錯(cuò)誤。

第五節(jié):常犯的概率學(xué)錯(cuò)誤

一、“黑天鵝”事件

17世紀(jì)之前的歐洲人認(rèn)為天鵝都是白色的,甚至經(jīng)常用“世界上沒(méi)有黑色的天鵝”這句諺語(yǔ)去諷刺那些無(wú)中生有的人。但隨著第一只黑天鵝在澳大利亞被發(fā)現(xiàn),這句諺語(yǔ)就變成了笑談,現(xiàn)在“黑天鵝”一般用來(lái)指那些影響很大但難以預(yù)測(cè)的小概率事件。通過(guò)這個(gè)例子我們可以了解,忽略那些小概率事件,會(huì)造成多么嚴(yán)重的后果。

2008年美國(guó)次貸危機(jī)爆發(fā)之前,整個(gè)北美金融行業(yè)都在使用同一個(gè)風(fēng)險(xiǎn)價(jià)值模型來(lái)預(yù)測(cè)投資風(fēng)險(xiǎn)。這個(gè)模型的強(qiáng)大之處在于它非常精確,它能把華爾街每家公司的資產(chǎn)都進(jìn)行嚴(yán)格的概率學(xué)分析,給出預(yù)期收益和損失值。并且還能給這些海量的市場(chǎng)信息整合成一個(gè)簡(jiǎn)潔的風(fēng)險(xiǎn)指標(biāo)提供給美聯(lián)儲(chǔ)和財(cái)政部參考,比如分析了以往市場(chǎng)變動(dòng)數(shù)據(jù)后,金融家會(huì)根據(jù)這個(gè)模型給出某項(xiàng)投資在特定周期內(nèi)可能讓公司蒙受的損失,而這種預(yù)測(cè)可以覆蓋高達(dá)99%的市場(chǎng)風(fēng)險(xiǎn)。

然而這個(gè)模型有一個(gè)被忽略的致命問(wèn)題,它的概率學(xué)模型參照的是過(guò)去20年的市場(chǎng)行為,不能對(duì)未知的以外情況作出預(yù)測(cè),所以它預(yù)測(cè)不了黑天鵝的出現(xiàn)。

這只黑天鵝就是2007年美國(guó)商業(yè)銀行放貸業(yè)務(wù)的崩潰,雖然它發(fā)生的概率只有不到1%,但悲劇確實(shí)發(fā)生了。直接導(dǎo)致了一次全球大范圍的金融危機(jī),失業(yè)率達(dá)到了10%,很多國(guó)家和政府都陷入了債務(wù)危機(jī),這就是小概率重大事件的破壞力。

難道這是概率學(xué)本身出問(wèn)題了嗎?顯然不是,模型已經(jīng)告訴了我們有1%的風(fēng)險(xiǎn)無(wú)法預(yù)測(cè),客人們?nèi)匀贿x擇了無(wú)視。所以,最大的風(fēng)險(xiǎn)永遠(yuǎn)都不是那些我們能看得見(jiàn)算得出的,而是那些看上去似乎概率很小,我們認(rèn)為一輩子都不可能發(fā)生的風(fēng)險(xiǎn),但它的確發(fā)生了,而且比我們想象的要頻繁的多。

案例小結(jié):忽略小概率事件,有時(shí)會(huì)造成嚴(yán)重的后果

除了黑天鵝還有一個(gè)我們?nèi)菀缀鲆暤膯?wèn)題:統(tǒng)計(jì)誤差,統(tǒng)計(jì)學(xué)雖然有這嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)計(jì)算,但它并不是完美無(wú)缺的。我們通過(guò)分析數(shù)據(jù)推斷出的結(jié)論永遠(yuǎn)不會(huì)是100%正確的,只要數(shù)據(jù)分析建立在抽樣調(diào)查之上,樣本的統(tǒng)計(jì)結(jié)果和正式情況之間就會(huì)存在誤差。雖然隨著樣本數(shù)量的增大,實(shí)驗(yàn)次數(shù)的增多,這樣的誤差會(huì)接近于零,但即使誤差再小,也不能忽視它的存在。

比如第2節(jié)介紹的中心極限定理,警察通過(guò)計(jì)算車內(nèi)乘客的體重分布,有99%的把握估計(jì)那些體重較大的乘客不是鐵人三項(xiàng)選手,但這個(gè)推理還有1%的概率是錯(cuò)的,原因就在于鐵人三項(xiàng)運(yùn)動(dòng)員體重樣本的平均值雖然會(huì)接近整體的平均值,但并不能說(shuō)二者完全相等。就好像從一棵樹(shù)上摘的蘋果,如果進(jìn)行精確的化學(xué)分析他們的成分和甜度總會(huì)有細(xì)微的不同。這就是統(tǒng)計(jì)誤差的含義,我們不可能通過(guò)數(shù)據(jù)得出完全確鑿的真相,只能通過(guò)合理控制誤差來(lái)無(wú)限接近真相。

二、檢方謬誤

另外舉一個(gè)有趣的例子:檢方謬誤。假設(shè)你是一名法官,聽(tīng)到公訴人陳述這樣的事實(shí)“犯罪現(xiàn)場(chǎng)遺留的DNA樣本和被告的DNA相吻合,除了被告以外這個(gè)樣本和其他人吻合的概率只有百萬(wàn)分之一,在這個(gè)證據(jù)的基礎(chǔ)上你能為被告人定罪嗎?”這時(shí)候如果你忽略百萬(wàn)分之一的誤差就可能會(huì)讓無(wú)辜的人鋃鐺入獄,這是因?yàn)檎`差看似很小,但警方的DNA樣本庫(kù)數(shù)量非常龐大,通過(guò)樣本比對(duì)找到兩個(gè)DNA特征相似的人并不是不可能的,所以給犯罪分子定罪時(shí),不能死守著概率這種破案工具而忽略了性別、年齡、社會(huì)關(guān)系等其它線索。

在現(xiàn)實(shí)中其實(shí)也是一樣的,對(duì)那些意義重大的可研結(jié)論,人們往往對(duì)概率計(jì)算有精確的要求,比如物理學(xué)家在探測(cè)引力波是否真實(shí)存在的時(shí)候,總計(jì)花費(fèi)了數(shù)十億美元用20多年時(shí)間來(lái)建造探測(cè)器,目的就是必須要把實(shí)驗(yàn)誤差控制在一個(gè)極其微小的數(shù)量級(jí)。事實(shí)上這個(gè)探測(cè)器能探測(cè)到小數(shù)點(diǎn)后21位,10的負(fù)21次冪這個(gè)尺度上的引力波變化,愛(ài)因斯坦一個(gè)多世紀(jì)前的預(yù)言才最終得到了有說(shuō)服力的證明。

案例小結(jié):通過(guò)統(tǒng)計(jì)數(shù)據(jù)推斷出的結(jié)論,必定存在誤差,不會(huì)100%正確。即使誤差再小,也不能忽視它的存在。

黑天鵝事件和檢方謬誤充分說(shuō)明人們對(duì)小概率事件和微小誤差的錯(cuò)誤認(rèn)識(shí),會(huì)讓看似精確的概率計(jì)算誤入歧途。精確有時(shí)候并不意味著準(zhǔn)確,客觀事實(shí)和我們對(duì)概率的直觀感受往往是有差異的。概率學(xué)本身不會(huì)犯錯(cuò),錯(cuò)誤的是使用它的人。

其實(shí)在近代歷史中還存在很多與黑天鵝事件類似的事情,比如:9.11事件,泰坦尼克號(hào)、日本地震、中國(guó)雪災(zāi)、光大烏龍等,這些事件的發(fā)生大多都是因?yàn)楹雎孕「怕适录鸬模信d趣的朋友可以去詳細(xì)了解。好了,本章內(nèi)容到這里就全部講完了,感謝大家閱讀。

 

本文由 @Mykite 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自u(píng)nsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!