數(shù)據(jù)分析武器庫:模型空間概述
很多學(xué)科所謂的模型只是對研究對象的定類測量,另外再加一些經(jīng)驗性的描述而已。這些模型非常依賴主觀經(jīng)驗,可重復(fù)性和可操縱性都難以對我們的目標(biāo)產(chǎn)生量級上的效率提升。數(shù)據(jù)一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數(shù)學(xué)工具解決。這部分是文章的重點,關(guān)于數(shù)學(xué)模型空間。
來,先復(fù)習(xí)一下,什么是建模:
昨天介紹了模型本質(zhì)是對現(xiàn)實對象的抽象描述以及附帶的一整套抽象的方法,建模本質(zhì)上就是建立現(xiàn)實對象和模型的一種映射關(guān)系。
今天我們走進(jìn)模型空間,看看里面最重要的是什么:
- 我們先來看看我們平時接觸最多的
- 感覺很高大上的
- 商業(yè)模型是什么?
比如拿我們都知道的swot分析來看:
百科定義:SWOT分析法,即態(tài)勢分析法,就是將與研究對象密切相關(guān)的各種主要內(nèi)部優(yōu)勢、劣勢和外部的機(jī)會和威脅等,通過調(diào)查列舉出來,并依照矩陣形式排列,然后用系統(tǒng)分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應(yīng)的結(jié)論,而結(jié)論通常帶有一定的決策性。
運(yùn)用這種方法,可以對研究對象所處的情景進(jìn)行全面、系統(tǒng)、準(zhǔn)確的研究,從而根據(jù)研究結(jié)果制定相應(yīng)的發(fā)展戰(zhàn)略、計劃以及對策等。SWOT分析法常常被用于制定集團(tuán)發(fā)展戰(zhàn)略和分析競爭對手情況,在戰(zhàn)略分析中,它是最常用的方法之一。
這種框架分析工具本質(zhì)是一個分類方式;首先分類了內(nèi)部和外部,其次分類了優(yōu)勢/劣勢,機(jī)會和威脅,分類本是一種定類測量,相當(dāng)于測量了兩個數(shù)字:一類叫做0,一類叫做1。
接下來,我們需要了解一些關(guān)于測量理論的基礎(chǔ)知識.有助于理解這類模型本質(zhì)都是測量。
一般可以將數(shù)據(jù)類型的度量分為四種:定類、定序、定距和定比。
這四種類型是從低到高的遞進(jìn)關(guān)系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行,理解下面這些類型對于后面學(xué)習(xí)統(tǒng)計分析方法尤為重要。
(1)定類變量
定類就是將給數(shù)據(jù)定義一個類別。這種數(shù)據(jù)類型將所研究的對象分類,也即只能決定研究對象是同類抑或不同類。例如把性別分成男女兩類:把動物分成哺乳類和爬行類等等。
(2)定序變量
定序變量是將同一個類別下的對象分一個次序,即變量的值能把研究對象排列高低或大小,具有>與<的數(shù)學(xué)特質(zhì)。它是比定類變量層次更高的變量,因此也具有定類變量的特質(zhì),即區(qū)分類別(=,≠)。
例如:文化程度可以分為大學(xué)、高中、初中、小學(xué)、文盲;工廠規(guī)??梢苑譃榇?、中、??;年齡可以分為老、中、青。
這些變量的值,既可以區(qū)分異同,也可以區(qū)別研究對象的高低或大小。 注意!各個定序變量的值之間沒有確切的間隔距離。比如:大學(xué)究竟比高中高出多少,大學(xué)與高中之間的距離和初中與小學(xué)之間的距離是否相等,通常是沒有確切的尺度來測量的。
(3)定距變量
定距變量是區(qū)別同一類別下個案中等級次序及其距離的變量,它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數(shù)學(xué)特質(zhì)。但是,定距變量沒有一個真正的零點。
攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。
注意!定距變量各類別之間的距離,只能加減而不能乘除或倍數(shù)的形式來說明它們之間的關(guān)系。
(4)定比變量
定比變量是區(qū)別同一類別個案中等級次序及其距離的變量,定比變量除了具有定距變量的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數(shù)學(xué)特質(zhì)。例如:年齡和收入這兩個變量,固然是定距變量,同時又是定比變量,因為其零點是絕對的,可以作乘除的運(yùn)算。
如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數(shù)這個變量是定距變量,但不是定比變量,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;
從這里我們可以看出,很多學(xué)科所謂的模型只是對研究對象的定類測量,另外再加一些經(jīng)驗性的描述而已。這些模型非常依賴主觀經(jīng)驗,可重復(fù)性和可操縱性都難以對我們的目標(biāo)產(chǎn)生量級上的效率提升。數(shù)據(jù)一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數(shù)學(xué)工具解決。這部分是我們今天的重點,關(guān)于數(shù)學(xué)模型空間。
接下進(jìn)入正題,我們來看一下模型空間的具體內(nèi)容:
需要說明的是對模型空間的分類,是非常有主觀色彩的,我也是斟酌再三之后選取了這樣的角度,以期望不遺漏人類在大多數(shù)方面積累的智慧成果。
關(guān)于人類先天共識模型——圖像
在生活場景中,我們可以很容易被一幅生動的圖像打動,卻很難(也不愿意)被邏輯說服。
這個模型空間內(nèi)重要是最新的心理學(xué)和認(rèn)知科學(xué)的一些研究成果,所以我們在表達(dá)我們的成果的時候,往往還要進(jìn)行一次映射,將抽象成果 映射為 圖形樣式,方便模型的傳播和理解。
從這個角度來看,關(guān)于可視化探索的一些工作也是格外有意義的。
關(guān)于有助于認(rèn)識對象的模型
這個模型空間內(nèi)部主要是各種我們已知的系統(tǒng)和定義的概念,以生物學(xué)和物理學(xué)為主要內(nèi)容。
這部分本質(zhì)為了方便我們尋找同構(gòu)問題,例如:我們用生物的進(jìn)化論類比的去理解人類社會的競爭,我們用漏斗這個圖形,類比商品轉(zhuǎn)化的過程。
但是需要注意的是尋找同構(gòu)對象,一方面方便了我們理解對象,也會引導(dǎo)我們忽略對象的一部分特征。比如:我們拿人類社會的發(fā)展 類比進(jìn)化論的時候,忽略了一個重要事實,我們可以基因編輯,從而大大影響自然選擇。
關(guān)于價值探討的模型
這個類別里也沉淀了,人類的大量的思辨智慧,從柏拉圖到奧古斯丁,從阿圭那到康德,從笛卡爾到休謨,從加繆到沃格林等等,這些偉大如斯的人終其一生都一直在探索一個永恒的問題——人何以為人,這部分也很值得我們?nèi)W(xué)習(xí),但不是今天的重點,以后有機(jī)會可以給大家做一個簡單介紹。
關(guān)于方法論模型
這部分本質(zhì)上可以概括為對因果關(guān)系的探索、分類問題和標(biāo)記問題,也可以理解為“果”單一的因果問題。
對因果關(guān)系的探索存在兩個極端:
- 科學(xué):對正確/穩(wěn)定可復(fù)現(xiàn)的極致追求
- 工程::以完成目標(biāo)為核心,重視經(jīng)驗的積累。
這個時候出現(xiàn)了一種調(diào)和方案——數(shù)據(jù)分析,我們既不能全靠經(jīng)驗,這樣太依賴個人和運(yùn)氣.我們也不能什么事情都做個科學(xué)實驗,等做完了黃花菜都涼了。
接下來主要給大家介紹數(shù)據(jù)分析對于探索因果關(guān)系的一些方式,這也是我們做數(shù)據(jù)分析主要進(jìn)行的工作。
對因果關(guān)系的探索分為充分性和必要性兩個方向:
- 充分性:就是如果A,那么一定B;
- 必要性:是說我們知道了B的很多特征C,有多大可能性認(rèn)為A可以推斷出B。
主要通過幾種方式:計算各種系數(shù)、畫散點圖、畫散點圖矩陣、做線性回歸、概率估計 (關(guān)于相關(guān)性和因果性關(guān)系又可以寫7篇文章了,現(xiàn)實世界中,可以近似的認(rèn)為 相關(guān)性約等于因果關(guān)系,或者相關(guān)性至少可以為我們尋找因果關(guān)系提供一點啟發(fā))。
用Python進(jìn)行相關(guān)性分析
畫散點圖,方法如下:
畫散點圖矩陣的方法,如下:
計算系數(shù)
pearson(皮爾遜)相關(guān)系數(shù)要求樣本滿足正態(tài)分布。
兩個變量之間的皮爾遜相關(guān)系數(shù)定義為兩個變量之間的協(xié)方差和標(biāo)準(zhǔn)差的商,其值介于-1與1之間。
Sperman秩相關(guān)系數(shù),皮爾森相關(guān)系數(shù)主要用于服從正太分布的連續(xù)變量,對于不服從正太分布的變量,分類關(guān)聯(lián)性可采用Sperman秩相關(guān)系數(shù),也稱等級相關(guān)系數(shù)。
通過機(jī)器學(xué)習(xí)的方式探索因果模型
這部分我們會介紹一些最流行的機(jī)器學(xué)習(xí)模型類型,這也是我們發(fā)現(xiàn)相關(guān)性的一種武器。監(jiān)督學(xué)習(xí):監(jiān)督學(xué)習(xí)算法是基于一組標(biāo)記數(shù)據(jù)進(jìn)行預(yù)測的。
比如:歷史銷售數(shù)據(jù)可以來預(yù)測未來的銷售價格。應(yīng)用監(jiān)督學(xué)習(xí)算法,我們需要一個包含標(biāo)簽的訓(xùn)練數(shù)據(jù)集。我們可以使用這個訓(xùn)練數(shù)據(jù)集去訓(xùn)練我們的模型,從而得到一個從輸入數(shù)據(jù)到輸出期望數(shù)據(jù)之間的映射函數(shù)。
這個模型的推斷作用是從一個數(shù)據(jù)集中學(xué)習(xí)出一種模式,可以讓這個模型適應(yīng)新的數(shù)據(jù),也就是說去預(yù)測一些沒有看到過的數(shù)據(jù)。
分類:當(dāng)數(shù)據(jù)被用于預(yù)測一個分類時,監(jiān)督學(xué)習(xí)算法也可以稱為是一種分類算法。比如:我們的一張圖片可以被分類標(biāo)記為狗或者貓。如果我們的分類標(biāo)簽只有兩個類別,那么我們也把這個分類稱之為二分類問題。當(dāng)我們需要分類的東西超過兩個類別的時候,這個模型就是一個多分類模型了。
回歸:當(dāng)我們預(yù)測的值是一個連續(xù)值時,這個問題就變成了一個回歸問題。
預(yù)測:這是根據(jù)過去和現(xiàn)在的一些歷史數(shù)據(jù),來預(yù)測將來的數(shù)據(jù)。最常用的一個領(lǐng)域就是趨勢分析。比如:我們可以根現(xiàn)在和過去幾年的銷售額來預(yù)測下一年的銷售額。
關(guān)于機(jī)器學(xué)習(xí)的模型
監(jiān)督學(xué)習(xí)主要包括用于分類和用于回歸的模型:
- 分類:線性分類器(如LR)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)、K近鄰(KNN)、決策樹(DT)、集成模型(RF/GDBT等)
- 回歸:線性回歸、支持向量機(jī)(SVM)、K近鄰(KNN)、回歸樹(DT)、集成模型(ExtraTrees/RF/GDBT)
關(guān)于各個模型的關(guān)系和選取原則可以參考下面圖片:
最后總結(jié)一下
對模型空間做了一個綜述,著重介紹了因果關(guān)系探索的一些數(shù)學(xué)模型:
講個小故事,關(guān)于測量,一米等于多少?
1791年,著名科學(xué)家拉格朗日,當(dāng)選為法國度量衡委員會主席。在他全力推動下,一項影響了全世界的長度單位——米浮出水面。
法國相關(guān)當(dāng)局規(guī)定:把經(jīng)過巴黎的地球子午線,也就是經(jīng)線長的四千萬分之一定義為1米。通俗地說,l米是從地球北極到赤道距離的一千萬分之一,1791年3月25日(距今227年),法國國民議會決定采納了只基于一個長度基本單位“米”的計量制度?,F(xiàn)在全球通用的國際長度單位米,則由此規(guī)定而來。
剩下的問題是如何測量地球子午線的長度了?
那可是200年前,沒有飛機(jī),沒有核動力航母,于是拿破侖真的派了倆隊人一隊去北極,一隊去秘魯……開始了測赤道……7年之后倆隊人返回測得了結(jié)果是57422toise(法國當(dāng)時長度單位)。
人類為了量化一個對象,有多努力……
作者:小祁愛數(shù)據(jù),公眾號:小祁同學(xué)的成長故事
本文由 @小祁愛數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!