大數(shù)據(jù):商業(yè)革命與科學革命

1 評論 12907 瀏覽 0 收藏 21 分鐘

什么叫大數(shù)據(jù)?

“大數(shù)據(jù)”是“數(shù)據(jù)化”趨勢下的必然產(chǎn)物!數(shù)據(jù)化最核心的理念是:“一切都被記錄,一切都被數(shù)字化”,它帶來了兩個重大的變化:一是數(shù)據(jù)量的爆炸性 劇增,最近2年所產(chǎn)生的數(shù)據(jù)量等同于2010年以前整個人類文明產(chǎn)生的數(shù)據(jù)量總和;二是數(shù)據(jù)來源的極大豐富,形成了多源異構的數(shù)據(jù)形態(tài),其中非結構化數(shù)據(jù) (包括語音、視頻、圖像等)所占比例逐年增大。

牛津大學互聯(lián)網(wǎng)研究所維克托·邁爾-舍恩伯格教授指出,“大數(shù)據(jù)”所代表的是當今社會所獨有的一種新型的能力——以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務,或深刻的洞見①。

這種“前所未有的”巨大價值和深刻洞見,并不僅僅來自于單一數(shù)據(jù)集量上的變化,而且是不同領域數(shù)據(jù)集之間深度的交叉關聯(lián),可稱之為“跨域關聯(lián)”。譬 如微博上的內(nèi)容和社交關系,F(xiàn)lickr上的圖片共享,手機通訊關系,淘寶上的購物記錄等數(shù)據(jù)通過同一個用戶關聯(lián)起來;又如移動手機定位的移動軌跡,車載 GPS的移動數(shù)據(jù),街旁上的簽到數(shù)據(jù),順豐物流的遞送數(shù)據(jù),智慧城市中的文本描述等數(shù)據(jù)通過同一個地點關聯(lián)起來。跨域關聯(lián)是數(shù)據(jù)量增大后從量變到質(zhì)變的飛 躍,是大數(shù)據(jù)巨大價值的基礎。

大數(shù)據(jù)會給整個社會帶來從生活到思維上革命性的變化:企業(yè)和政府的管理人員在進行決策的時候,會出現(xiàn)從“經(jīng)驗即決策”到“數(shù)據(jù)輔助決策”再到“數(shù)據(jù) 即決策”的變化;人們所接受的服務,將以數(shù)字化和個性化的方式呈現(xiàn),借助3D打印技術和生物基因工程,零售業(yè)和醫(yī)療業(yè)亦將實現(xiàn)數(shù)字化和個性化的服務;以小 規(guī)模實驗、定性或半定量分析為主要手段的科學分支,如社會學、心理學、管理學等,將會向大規(guī)模定量化數(shù)據(jù)分析轉型;將會出現(xiàn)數(shù)據(jù)運營商和數(shù)據(jù)市場,以數(shù)據(jù) 和數(shù)據(jù)產(chǎn)品為對象,通過加工和交易數(shù)據(jù)獲取商業(yè)價值;人類將在哲學層面上重新思考諸如“物質(zhì)和信息誰更基礎”“生命的本質(zhì)是什么”“生命存在的最終形態(tài)是 什么”等本體論問題……

綜上,大數(shù)據(jù)不是數(shù)據(jù)量的簡單刻畫,也不是特定算法、技術或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革 的總和——大數(shù)據(jù)是基于多源異構、跨域關聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。

大數(shù)據(jù)的戰(zhàn)略地位

大數(shù)據(jù)被認為是繼信息化和互聯(lián)網(wǎng)后整個信息革命的又一次高峰。云計算和大數(shù)據(jù)共同引領以數(shù)據(jù)為材料,計算為能源的又一次生產(chǎn)力的大解放,甚至可以與以蒸汽機的使用和電氣的使用為代表的第一次工業(yè)革命和第二次工業(yè)革命相媲美。

與提升國家競爭力及國民幸福程度密切相關的重大戰(zhàn)略都與大數(shù)據(jù)的分析和利用息息相關,包括與國家安全社會穩(wěn)定相關的尖端武器制造與性能模擬實驗,群 體事件和謠言的預警和干預;與國家科技能力相關的等離子即高能粒子實驗分析,納米材料及生物基因工程;與國民經(jīng)濟繁榮相關的經(jīng)濟金融態(tài)勢感知與失穩(wěn)預測, 精準營銷與智能物流倉儲;與環(huán)境問題相關的全球氣候及生態(tài)系統(tǒng)的分析,局部天氣及空氣質(zhì)量預測;與醫(yī)療衛(wèi)生相關的個性化健康監(jiān)護及醫(yī)療方案,大規(guī)模流行病 趨勢預測和防控策略;與人民幸福生活相關的個性化保險理財方案,智能交通系統(tǒng)等等。數(shù)據(jù)儲備和數(shù)據(jù)分析能力將成為未來新型國家最重要的核心戰(zhàn)略能力。

2012年3月29日,美國政府宣布了“大數(shù)據(jù)研究和發(fā)展倡議”,來推進從大量的、復雜的數(shù)據(jù)集合中獲取知識和洞見的能力。該倡議涉及聯(lián)邦政府的6 個部門(國家科學基金委、國家衛(wèi)生研究院、能源部、國防部、國防部高級研究計劃局和地質(zhì)勘探局)。這些部門將投資總共超過兩億美元,來大力推動和改善與大 數(shù)據(jù)相關的收集、組織和分析工具及技術。

2012年5月,我國召開第424次香山科學會議,這是我國第一個以大數(shù)據(jù)為主題的重大科學工作會議。中國計算機學會、通信學會等于2012年分別 成立了“大數(shù)據(jù)專家委員會”。2012年9月13日,北京航空航天大學聯(lián)合英國愛丁堡大學、英國利茲大學、香港科技大學、美國賓夕法尼亞大學、美國亞利桑 那州立大學、加拿大渥太華大學等共同組建大數(shù)據(jù)科學與工程國際研究中心。

2012年12月13日,在“中關村大數(shù)據(jù)日”活動會上,由寬帶資本、百度、用友、中國聯(lián)通、聯(lián)想集團、北京大學、北京航空航天大學、阿里巴巴、騰 訊等企業(yè)、高校共同發(fā)起成立了大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,并在中關村云基地揭牌成立大數(shù)據(jù)實驗室,該實驗室以大數(shù)據(jù)產(chǎn)業(yè)孵化基金形態(tài)成立,致力于推動學術界大數(shù)據(jù)創(chuàng) 新科技成果產(chǎn)業(yè)化以及為相關產(chǎn)業(yè)引導注入大數(shù)據(jù)科技元素。

自然科學基金委于2013年3月5日~7日,在上海同濟大學舉辦了第89屆“雙清”論壇,論壇的主題是“大數(shù)據(jù)技術與應用中的挑戰(zhàn)性科學問題”,與會的有近十名院士。2013年6月30日,中國信息化百人會以“大數(shù)據(jù):挑戰(zhàn)與機遇”為主題,在上海召開第四次專題研討會。

大數(shù)據(jù)商業(yè)革命

傳統(tǒng)的商務智能已經(jīng)應用了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的技術,對企業(yè)自身的數(shù)據(jù)進行存儲、清洗、索引和分析,并能夠提供包括客戶價值評價、客戶滿意度評價、 服務質(zhì)量評價、營銷效果評價、市場需求評估等各種基于簡單統(tǒng)計和關聯(lián)挖掘的報表——這些統(tǒng)計結果對于企業(yè)自身評估和決策起到了重要的作用。

在商務智能時代積累起來的和數(shù)據(jù)打交道的經(jīng)驗既是大數(shù)據(jù)新商業(yè)模式技術和理念的基礎,又有可能束縛大數(shù)據(jù)商業(yè)革命,因為有經(jīng)驗的商務智能人士會不自覺地把大數(shù)據(jù)分析庸俗化,認為只是傳統(tǒng)商務智能針對更大規(guī)模數(shù)據(jù)集的一種平凡推廣。

大數(shù)據(jù)商業(yè)模式也可以粗略地分為1.0版本,2.0版本和3.0版本。

大數(shù)據(jù)1.0追求從數(shù)據(jù)到分析,從分析到更多更好的數(shù)據(jù),再到更深入分析這樣的正向循環(huán)。它是指企業(yè)自身的產(chǎn)品和服務產(chǎn)生了大量的數(shù)據(jù),通過對這些數(shù)據(jù)進行深入的挖掘分析,改進自身業(yè)務,改進后的業(yè)務吸引更多用戶或客戶,產(chǎn)生更大量的數(shù)據(jù),形成正向的循環(huán)。

亞馬遜是一個典型的例子,他們利用以“基于商品的協(xié)同過濾”為主要代表的一系列推薦算法②,幫助用戶找到他們可能喜歡的商品。百分點科技從事類似的 數(shù)據(jù)分析,但他們不是分析自己的銷售數(shù)據(jù),而是整合了五百多家電子商務網(wǎng)站和一百多家資訊網(wǎng)站的數(shù)據(jù),從用戶的瀏覽、收藏、點擊行為中猜測用戶意圖,推薦 用戶感興趣的商品和資訊③。

這些精準的個性化服務的背后,是非常復雜的算法和實時大數(shù)據(jù)處理能力④。個性化推薦算法大大提高了用戶的黏度和企業(yè)的銷售額,從而產(chǎn)生了更多有價值的數(shù)據(jù),這些數(shù)據(jù)又幫助亞馬遜和百分點把分析做得更深入,進一步提高自身或客戶的訪問和銷售量,產(chǎn)生更多高質(zhì)量的數(shù)據(jù)。

大數(shù)據(jù)2.0強調(diào)的是數(shù)據(jù)的外部性。它是指企業(yè)用自身業(yè)務產(chǎn)生的數(shù)據(jù),去解決主營業(yè)務以外的其他問題,獲得重大的價值;或者引入非企業(yè)自身業(yè)務的外 部數(shù)據(jù),來解決企業(yè)自己遇到的問題。谷歌(Google)曾利用網(wǎng)頁搜索詞的記錄,來預測流感爆發(fā)后隨時間變化的新增病例數(shù)以及實時電價⑤。

顯然,預測流感趨勢和實時電價這些需求并不包含在記錄網(wǎng)頁搜索詞的初衷中。ZestFinance有一個口號,就是一切數(shù)據(jù)都是信用數(shù)據(jù),實際上,他們大量采集用戶在社會媒體上留下的數(shù)據(jù),從這些數(shù)據(jù)中對用戶的信用進行判斷,特別地,預測用戶拖延還貸的概率。

ZestFinance通過這種分析,能夠在低于行業(yè)平均拖延還貸率的條件下,進行更快更低成本的貸款發(fā)放。顯然,用戶在社交媒體上產(chǎn)生的數(shù)據(jù),并 不是ZestFinance自身產(chǎn)生的,但是一樣可以服務于ZestFinance的業(yè)務。同樣,自身業(yè)務產(chǎn)生的數(shù)據(jù)可以用來服務于其他行業(yè),產(chǎn)生重大價 值。譬如淘寶的銷售記錄可以用來估計消費價格指數(shù)(CPI),手機移動軌跡數(shù)據(jù)可以用于交通預報和交通規(guī)劃,等等。

大數(shù)據(jù)3.0是一個尚在探索中的商業(yè)形態(tài)。它首先要求政府和行業(yè),對數(shù)據(jù)質(zhì)量、價值、權益、隱私、安全等產(chǎn)生充分認識,出臺量化與保障措施。在此基 礎上,數(shù)據(jù)運營商出現(xiàn),提供集成數(shù)據(jù)和存儲、計算的平臺。在此基礎上,形成了以加工粗數(shù)據(jù)和已有數(shù)據(jù)產(chǎn)品,產(chǎn)生新的數(shù)據(jù)產(chǎn)品為主要活動的數(shù)據(jù)客 (Dacker)。

個人、團隊和企業(yè)通過數(shù)據(jù)API接口或其他方式付費使用數(shù)據(jù)產(chǎn)品,數(shù)據(jù)客、運營商和被加工原料所有者共同分享數(shù)據(jù)產(chǎn)品的利益。數(shù)據(jù)市場也可能應運而 生,數(shù)據(jù)和數(shù)據(jù)產(chǎn)品有可能像今天淘寶集市上的商品被售賣交換。于是,一種以數(shù)據(jù)/數(shù)據(jù)產(chǎn)品為輸入,數(shù)據(jù)/數(shù)據(jù)產(chǎn)品為輸出的新商業(yè)模式誕生,這種模式不同于 2B(to business)和2C(to customer)的模式——譬如一款精確位置告知實時空氣質(zhì)量的API接口(應用程序接口),既可能被企業(yè)和政府使用,也可能被個人使用。為了區(qū)分,我 們稱這種模式為2D(to data)的商業(yè)模式⑥。新商業(yè)模式的直接后果,就是促進學術團體、企業(yè)和政府通過大量異質(zhì)數(shù)據(jù)和數(shù)據(jù)產(chǎn)品產(chǎn)生科學、社會、經(jīng)濟等方面的新價值。

大數(shù)據(jù)科學革命

科學界實際上比產(chǎn)業(yè)界更早意識到了大數(shù)據(jù)的巨大影響,英國的《自然》雜志在2008年9月就推出了名為“大數(shù)據(jù)”的封面專欄,講述了數(shù)據(jù)在數(shù)學、物 理、生物、工程及社會經(jīng)濟等多學科扮演的愈加重要的角色。越來越多的數(shù)據(jù)本身,在以數(shù)據(jù)為準繩的研究理念指導以及愈發(fā)強大的計算能力支撐下,正在驅(qū)動一次 科學研究方法論上的革命。

以前基于實驗室小規(guī)??刂茖嶒灥陌攵可踔烈远ㄐ詾橹鞯膶W科分支將走向基于大規(guī)模非控制數(shù)據(jù)分析的定量科學,其中社會學、心理學和管理學首當其沖。 通過數(shù)據(jù)分析,我們可以在數(shù)千萬甚至上億樣本的規(guī)模下研究宗教問題、亞文化問題、信息傳播軌跡、社會流動性問題等,而這在以前的社會科學中是絕對不可想象 的。

首先,數(shù)據(jù)給我們提供了一個解釋現(xiàn)象的新穎視角。我們可能都記得道金斯在其飽受爭議的名著《自私的基因》中講很多自然和社會現(xiàn)象都歸結于一種將自己 基因在生物界中最大可能傳播的內(nèi)在驅(qū)動力。這類演化生物學的假設很難再高等生命中獲得直接的驗證——難道你會承認一段段刻骨銘心的愛情背后僅僅是出于繁殖 的目的嗎?最近的一項研究另辟蹊徑⑦,科學家分析了320萬手機用戶4.89億條短信和19.5億條通話記錄,根據(jù)通信頻繁程度,找出了每個人的第一好 友、第二好友等。

統(tǒng)計顯示,男性和女性從青春期直到四十多歲,第一好友往往都是一個同齡異性,女性覺醒更早,對異性的高關注度保持的時間比男性長——這個第一好友, 不言而喻,就是所愛之人。而到了50歲左右的時間,男性的第一好友往往還是一個同齡的女性(他的太太),第二好友是一個或男或女的20歲左右的年輕人(他 的子女),而女性的第一好友往往都是她的子女。這體現(xiàn)了女子很明顯地將自己的社會資本從配偶轉移到了子代。

有趣的是,男性盡管在30多歲的時候表現(xiàn)出對同齡異性特定高關注度的快速下降,但是在進入中老年后對配偶的依賴性遠遠高于女性。這樣的研究當然不能嚴格證明任何演化生物學的假說,但是卻給出了一種研究這類問題的有趣而新穎的視角。

類似地,2010年科學家通過對全英32482個行政區(qū)6500萬人口通話關系的研究發(fā)現(xiàn),電話聯(lián)系人多樣性越強的行政區(qū),其經(jīng)濟社會發(fā)展水平也越 高,從一個側面證明了社會資本等價于經(jīng)濟資本⑧。我們最近和印第安納大學合作,通過對8498份菜譜的分析,證明了地理文化因素比氣候因素對于飲食結構的 形成作用更大,挑戰(zhàn)了“氣候決定飲食結構”這一廣泛為人們接受的常識。

其次,數(shù)據(jù)給我們提供了一個繞開理論直接走向應用的新途徑。Google分析了5000萬搜索詞,從中找到所有和流感傳播趨勢有關的搜索詞,又通過其中相關性最強的45個詞,利用線性回歸模型,預測流感的染病人數(shù)⑨。

Google的預測非常準確,并且能夠比疾控中心早一周對實時染病情況進行預報。我們最近分析了包括亞馬遜和Netflix在內(nèi)的4個網(wǎng)站上數(shù)百萬 用戶對各種商品的評分數(shù)據(jù),發(fā)現(xiàn)用戶的評分存在明顯的錨定效應⑩,也就是說,用戶在給出一個高分之后,下一次評分也偏高,在給出一個低分之后,下一次評分 也偏低。

這和我們常識中看過一部爛片之后下一部片子無論如何都不錯正好相反——我們甚至可以推論,如果你的前任是極品,你的現(xiàn)任恐怕要受前任連累,而不是從 中獲益,當然,這還需要大數(shù)據(jù)科學的驗證。我們進一步的研究顯示,如果去除掉這些心理的偏差,我們對于用戶的評分預測和推薦會變得更加精確??梢钥?到,Google并沒有給出從搜索詞到疾病預測之間的某種嚴謹?shù)睦碚?,我們也沒有對人們評分的心理行為給出任何理論解釋,但是通過海量數(shù)據(jù)分析得到的這些 研究結果已經(jīng)可以應用于實際了。

大數(shù)據(jù)帶來了很多新的重要的科學問題,其中最重要的是預測。預測問題主要可以分為兩類,一是趨勢預測,二是缺失信息預測。趨勢預測是指通過事物的一些基本屬性信息和早期的態(tài)勢分析,預測事物發(fā)展的軌跡和最終影響力。

譬如通過分析社交網(wǎng)絡中注冊一個月的用戶的行為以及這些用戶與其他用戶的互動,預測哪些用戶將來會成為很有影響力的用戶;通過用戶-商品兩部分圖中 產(chǎn)品的早期表現(xiàn),例如一首新歌或一個新歌手上線一周的情況,來預測這首歌或者這個歌手有沒有可能走紅;通過一條信息早期數(shù)小時在微博網(wǎng)絡上的傳播情況,來 預測這條信息最終的影響力等等。

缺失信息預測假設我們觀察到的信息只是全部真實信息的一部分,在這個基礎上探討如何利用當前信息去預測未觀察到得信息。譬如我們現(xiàn)在通過實驗所知道 的蛋白質(zhì)之間的相關作用關系只是全部關系中很小的一部分,但是實驗驗證費用昂貴,通過預測,預先判斷哪些蛋白質(zhì)之間可能有相互作用并以此指導實驗,能夠大 大節(jié)省實驗成本。

又比如,新浪微博上的關注對象推薦是一種典型的缺失信息預測,因為做出推薦的基本假設是“某甲應該關注某乙,只不過現(xiàn)在還沒有關注”。在可預期的未來,絕大部分深入的大數(shù)據(jù)應用,都可以轉化為某種預測問題。

文章來自:199it

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 大數(shù)字這個詞好流行!

    來自新加坡 回復