數(shù)據(jù)分析的核心:建模

5 評論 22702 瀏覽 156 收藏 10 分鐘

為什么我們要系統(tǒng)的研究建模過程?我們?nèi)U(kuò)展一個(gè)學(xué)科邊界的兩條路徑,去研究底層概念去擴(kuò)展應(yīng)用領(lǐng)域,我們今天從底層入手。

為什么我們要通過模型認(rèn)識(shí)世界?

為什么我們不直接認(rèn)識(shí)世界,而是要通過模型?

生命有限,時(shí)間有限,我們不可能面面俱到的去考察世界的方方面面,我們必然需要作出選擇,去找到關(guān)鍵,模型就是一系列積累了前人的認(rèn)識(shí)和描述世界智慧的經(jīng)驗(yàn).。生活中我們,都在自覺或者不自覺的使用模型。

舉個(gè)栗子:我們馬上要期末了,經(jīng)過認(rèn)真的學(xué)習(xí),我們考了80分,自我感覺不錯(cuò)啊。都80分了,應(yīng)該算是個(gè)優(yōu)了。但是實(shí)際上可能存在這樣一些情況:滿分是200分……全班平均分90分……

這個(gè)過程中,我們無形之中使用了一個(gè)模型叫做比較:量綱一致,有基準(zhǔn)的情況下,a>b才有意義。 圍繞這個(gè)簡單的模型,各個(gè)學(xué)科發(fā)展出了龐雜的應(yīng)用,比如:經(jīng)濟(jì)學(xué)中的成本/金融學(xué)中的理想收益基準(zhǔn)等等。

為什么我們要系統(tǒng)的研究建模過程?我們?nèi)U(kuò)展一個(gè)學(xué)科邊界的倆條路徑,去研究底層概念去擴(kuò)展應(yīng)用領(lǐng)域。我們今天從底層入手。

1. 模型的概念

在日常話語體系中,我們往往存在這樣的認(rèn)知:建模=數(shù)學(xué)=科學(xué)=高大上=和我無關(guān)。

為了打破大家對于模型先天的一些偏見,我們先從本質(zhì)上看模型到底是什么?模型其實(shí)就是抽象空間的一套演繹體系。

我們先看一下什么是抽象空間?

抽象空間是相對于現(xiàn)實(shí)空間而言的,現(xiàn)實(shí)中我們面對的世界往往是無窮無盡的,世界上有無窮的對象,每個(gè)對象有無窮的維度等著我們?nèi)フJ(rèn)知,面對這樣的世界,我們是沒有辦法直接去認(rèn)識(shí),我們需要主觀的先建立一套選擇標(biāo)準(zhǔn),再選擇一些特定對象,選擇一些特定的維度,特定的過程,這個(gè)選擇構(gòu)成的集合就叫做抽象空間。

有些抽象空間是雜亂無章,互相矛盾的,比如:我們大多數(shù)普通人的思維世界其實(shí)就處在這樣一個(gè)狀態(tài),大多數(shù)時(shí)候,我們不知道自己的信仰是什么,不知道自己世界觀是什么,也不知道自己的價(jià)值觀是什么,個(gè)人選擇受環(huán)境的干擾特別大。

然而,還有一類抽象空間,里面的假設(shè)非常堅(jiān)固,或者反映了人類社會(huì)的普遍訴求,比如:公平/正義/自由等,或者反映了科學(xué)共同體的基本共識(shí),比如:能量守恒;或者是完全建構(gòu)在抽象世界里的描述,比如:倆點(diǎn)之間直線最短。演繹論證非常嚴(yán)密,這一類抽象空間構(gòu)成了人類智慧的結(jié)晶。

我們這里的模型,特指后者,一些凝聚了人類發(fā)展過程中智慧結(jié)晶的抽象空間描述。

知道了什么是模型,我們再來看看什么是建模過程? 建模的本質(zhì)其實(shí)是 現(xiàn)實(shí)世界和抽象空間的映射。

在數(shù)學(xué)里,映射是個(gè)術(shù)語,指兩個(gè)元素的集之間元素相互“對應(yīng)”的關(guān)系。從這個(gè)定義里就可以看出,建模其實(shí)不存在絕對的對錯(cuò),建模的方式,因?yàn)橛成淇臻g的不同,也可能存在千萬種,但是我們?nèi)绾芜x擇建模方式呢?畢竟我們不能挨個(gè)建一遍吧?

我們評價(jià)一個(gè)模型的好壞可以從倆方面展開:

  1. 模型是否反映了對象的重要特征;
  2. 模型和現(xiàn)實(shí)的擬合情況(解釋/預(yù)測/復(fù)現(xiàn))。

最后需要指出的是,任何模型都是一部“有色眼鏡”,它在幫我們看清一些東西的時(shí)候,同時(shí)也遮蔽了我們對另外一些對象的觀察。

所有模型都是錯(cuò)的,但是有些模型是有用的。

2. 數(shù)學(xué)建模的過程

數(shù)據(jù)分析的建模過程中,大多數(shù)時(shí)候,我們還是選擇數(shù)學(xué)空間作為我們的映射對象。數(shù)學(xué)建模是應(yīng)用學(xué)科的核心內(nèi)容,任何一門科學(xué)都是在數(shù)學(xué)的框架下表達(dá)自己解決問題的思想和方法,并和別的專業(yè)或者方向分享這些思想和方法。任何一門學(xué)科,只有當(dāng)其使用數(shù)學(xué)時(shí),才是好的精確的學(xué)科。

分析實(shí)際問題中的各種因素,使用變量表示;分析這些變量之間的關(guān)系,哪些是相互依存的,哪些是獨(dú)立的,他們具有什么樣的關(guān)系;根據(jù)實(shí)際問題選用合適的數(shù)學(xué)框架(典型的有優(yōu)化問題,配置問題等等),并具體的應(yīng)用問題在這個(gè)數(shù)學(xué)框架下表出;選用合適的算法求解數(shù)學(xué)框架下表出的問題; 使用計(jì)算結(jié)果解釋實(shí)際問題,并且分析結(jié)果。

(1)模型假設(shè)

根據(jù)對象的特征和建模目的,對問題進(jìn)行必要的、合理的簡化,用精確的語言作出假設(shè),是建模至關(guān)重要的一步。如果對問題的所有因素一概考慮,無疑是一種有勇氣但方法欠佳的行為。

所以高超的建模者能充分發(fā)揮想象力、洞察力和判斷力,善于辨別主次,而且為了使處理方法簡單,應(yīng)盡量使問題線性化、均勻化。

(2)模型選擇

根據(jù)所作的假設(shè)分析對象的因果關(guān)系,利用對象的內(nèi)在規(guī)律和適當(dāng)?shù)臄?shù)學(xué)工具,構(gòu)造各個(gè)量間的等式關(guān)系或其它數(shù)學(xué)結(jié)構(gòu)。這時(shí),我們便會(huì)進(jìn)入一個(gè)廣闊的應(yīng)用數(shù)學(xué)天地,這里在高數(shù)、概率老人的膝下,有許多可愛的孩子們,他們是圖論、排隊(duì)論、線性規(guī)劃、對策論等許多許多,真是泱泱大國,別有洞天。

不過我們應(yīng)當(dāng)牢記,建立數(shù)學(xué)模型是為了讓更多的人明了并能加以應(yīng)用,因此工具愈簡單愈有價(jià)值。

(3)模型求解

可以采用解方程、畫圖形、證明定理、邏輯運(yùn)算、數(shù)值運(yùn)算等各種傳統(tǒng)的和近代的數(shù)學(xué)方法,特別是計(jì)算機(jī)技術(shù)。一道實(shí)際問題的解決往往需要紛繁的計(jì)算,許多時(shí)候還得將系統(tǒng)運(yùn)行情況用計(jì)算機(jī)模擬出來,因此編程和熟悉數(shù)學(xué)軟件包能力便舉足輕重。

(4)模型分析

對模型解答進(jìn)行數(shù)學(xué)上的分析,“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同”。能否對模型結(jié)果作出細(xì)致精當(dāng)?shù)姆治觯瑳Q定了你的模型能否達(dá)到更高的檔次。還要記住,不論那種情況都需進(jìn)行誤差分析,數(shù)據(jù)穩(wěn)定性分析。

(5)模型應(yīng)用

把數(shù)學(xué)上分析的結(jié)果翻譯回到現(xiàn)實(shí)問題,并用實(shí)際的現(xiàn)象、數(shù)據(jù)與之比較,檢驗(yàn)?zāi)P偷暮侠硇院瓦m用性。

(6)模型評價(jià)

取決于問題的性質(zhì)和建模的目的。

3. 模型空間概述

模型的分類標(biāo)準(zhǔn),也可以表達(dá)成模型有幾方面的特征.這里做一個(gè)簡單的列舉,下次會(huì)結(jié)合具體案例對每類模型做一個(gè)簡單綜述:

總結(jié)

所有模型都是錯(cuò)的,但是有些模型是有用的。

 

作者:小祁愛數(shù)據(jù),公眾號(hào):小祁同學(xué)的成長故事

本文由 @小祁愛數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評論
評論請登錄
  1. 數(shù)據(jù)建模其實(shí)就是找到能體現(xiàn)現(xiàn)實(shí)意義(現(xiàn)實(shí)空間)的數(shù)據(jù)指標(biāo)(數(shù)學(xué)空間)。比如我們用子頁面的瀏覽量÷父頁面的瀏覽量來表示該子頁面在父頁面上的轉(zhuǎn)化程度,其實(shí)這就是一次建模,只有建模,數(shù)據(jù)指標(biāo)才有現(xiàn)實(shí)意義,只有思考明白了這一點(diǎn),才能做數(shù)據(jù)分析,否則數(shù)據(jù)分析就是紙上談兵毫無意義的。作者講的其實(shí)是非常底層的邏輯,覺得看不懂是因?yàn)闆]有花時(shí)間認(rèn)真思考和實(shí)踐這一塊領(lǐng)域。

    來自浙江 回復(fù)
  2. 完全看不懂呀。

    回復(fù)
    1. ?1

      回復(fù)
    2. 說的很專業(yè),但是看不懂,就和專家一樣講了半天很高大上的樣子,臺(tái)下沒人看懂

      回復(fù)
  3. 回復(fù)