創(chuàng)業(yè)必稱“大數(shù)據(jù)”?是時候重新審視大數(shù)據(jù)的價值了!
![](http://image.woshipm.com/wp-files/img/67.jpg)
大數(shù)據(jù)到底是什么?它是一項技術(shù)、一個產(chǎn)業(yè)還是一種思維方式?當越來越多的人將興趣轉(zhuǎn)移到AI、VR上時,也許是時候重新審視大數(shù)據(jù)的價值了。
“大數(shù)據(jù)”這個概念大約是從2011年開始火起來的,如果從Apache Hadoop項目的正式啟動算起,海量數(shù)據(jù)的分布式存儲、管理和計算技術(shù)已有10年的歷史。這10年里,創(chuàng)業(yè)圈逐漸流行起一種通病,但凡創(chuàng)業(yè)必稱“大數(shù)據(jù)”,似乎每個創(chuàng)業(yè)項目都會多少與之關(guān)聯(lián)。
在IT領(lǐng)域,一項技術(shù)的價值得以驗證并實現(xiàn)往往需要走完四個階段:技術(shù)原創(chuàng)、開源、產(chǎn)業(yè)化和廣泛應(yīng)用。在這個過程中,新技術(shù)的使用從互聯(lián)網(wǎng)巨頭企業(yè)蔓延到整個互聯(lián)網(wǎng)領(lǐng)域,并隨著其產(chǎn)業(yè)生態(tài)的日臻完善,最終應(yīng)用到更廣泛的社會和行業(yè)領(lǐng)域?!按髷?shù)據(jù)”也不例外,它經(jīng)歷了底層技術(shù)的興起和發(fā)展、產(chǎn)業(yè)生態(tài)的構(gòu)建,正逐步滲透到每個企業(yè)的數(shù)據(jù)化戰(zhàn)略之中。只有把握整條脈絡(luò),窺探“大數(shù)據(jù)”的全貌,才能理解這項技術(shù)的緣起和未來。
技術(shù)篇
移動互聯(lián)網(wǎng)時代,數(shù)據(jù)量呈現(xiàn)指數(shù)級增長,其中文本、音視頻等非結(jié)構(gòu)數(shù)據(jù)的占比已超過85%,未來將進一步增大。Hadoop架構(gòu)的分布式文件系統(tǒng)、分布式數(shù)據(jù)庫和分布式并行計算技術(shù)解決了海量多源異構(gòu)數(shù)據(jù)在存儲、管理和處理上的挑戰(zhàn)。
從2006年4月第一個Apache Hadoop版本發(fā)布至今,Hadoop作為一項實現(xiàn)海量數(shù)據(jù)存儲、管理和計算的開源技術(shù),已迭代到了v2.7.2穩(wěn)定版,其構(gòu)成組件也由傳統(tǒng)的三駕馬車HDFS、MapReduce和HBase社區(qū)發(fā)展為由60多個相關(guān)組件組成的龐大生態(tài),包括數(shù)據(jù)存儲、執(zhí)行引擎、編程和數(shù)據(jù)訪問框架等。其生態(tài)系統(tǒng)從1.0版的三層架構(gòu)演變?yōu)楝F(xiàn)在的四層架構(gòu):
底層——存儲層
現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)量達到PB級,傳統(tǒng)的存儲方式已無法滿足高效的IO性能和成本要求,Hadoop的分布式數(shù)據(jù)存儲和管理技術(shù)解決了這一難題。HDFS現(xiàn)已成為大數(shù)據(jù)磁盤存儲的事實標準,其上層正在涌現(xiàn)越來越多的文件格式封裝(如Parquent)以適應(yīng)BI類數(shù)據(jù)分析、機器學(xué)習(xí)類應(yīng)用等更多的應(yīng)用場景。未來HDFS會繼續(xù)擴展對于新興存儲介質(zhì)和服務(wù)器架構(gòu)的支持。另一方面,區(qū)別于常用的Tachyon或Ignite,分布式內(nèi)存文件系統(tǒng)新貴Arrow為列式內(nèi)存存儲的處理和交互提供了規(guī)范,得到了眾多開發(fā)者和產(chǎn)業(yè)巨頭的支持。
區(qū)別于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,HBase適合于非結(jié)構(gòu)化數(shù)據(jù)存儲。而Cloudera在2015年10月公布的分布式關(guān)系型數(shù)據(jù)庫Kudu有望成為下一代分析平臺的重要組成,它的出現(xiàn)將進一步把Hadoop市場向傳統(tǒng)數(shù)據(jù)倉庫市場靠攏。
中間層——管控層
管控層對Hadoop集群進行高效可靠的資源及數(shù)據(jù)管理。脫胎于MapReduce1.0的YARN已成為Hadoop 2.0的通用資源管理平臺。如何與容器技術(shù)深度融合,如何提高調(diào)度、細粒度管控和多租戶支持的能力,是YARN需要進一步解決的問題。另一方面,Hortonworks的Ranger、Cloudera 的Sentry和RecordService組件實現(xiàn)了對數(shù)據(jù)層面的安全管控。
上層——計算引擎層
在搜索引擎時代,數(shù)據(jù)處理的實時化并不重要,大多采用批處理的方式進行計算。但在SNS、電子商務(wù)、直播等在線應(yīng)用十分普及的今天,在不同場景下對各類非結(jié)構(gòu)化數(shù)據(jù)進行實時處理就變得十分重要。Hadoop在底層共用一份HDFS存儲,上層有很多個組件分別服務(wù)多種應(yīng)用場景,具備“單一平臺多種應(yīng)用”的特點。
例如,Spark組件善于實時處理流數(shù)據(jù),Impala實現(xiàn)諸如OLAP的確定性數(shù)據(jù)分析,Solr組件適用于搜索等探索性數(shù)據(jù)分析,Spark、MapReduce組件可以完成邏輯回歸等預(yù)測性數(shù)據(jù)分析,MapReduce組件可以完成數(shù)據(jù)管道等ETL類任務(wù)。其中,最耀眼的莫過于Spark了,包括IBM、Cloudera、Hortonworks在內(nèi)的產(chǎn)業(yè)巨頭都在全力支持Spark技術(shù),Spark必將成為未來大數(shù)據(jù)分析的核心。
頂層——高級封裝及工具層
Pig、Hive等組件是基于MapReduce、Spark等計算引擎的接口及查詢語言,為業(yè)務(wù)人員提供更高抽象的訪問模型。Hive為方便用戶使用采用SQL,但其問題域比MapReduce、Spark更窄,表達能力受限。Pig采用了腳本語言,相比于Hive SQL具備更好的表達能力。
在結(jié)構(gòu)化數(shù)據(jù)主導(dǎo)的時代,通常使用原有模型便可以進行分析和處理,而面對如今實時變化的海量非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)模型已無法應(yīng)對。在此背景下,機器學(xué)習(xí)技術(shù)正慢慢跨出象牙塔,進入越來越多的應(yīng)用領(lǐng)域,實現(xiàn)自動化的模型構(gòu)建和數(shù)據(jù)分析。
除了Mahout、MLlib、Oryx等已有項目,最近機器學(xué)習(xí)開源領(lǐng)域迎來了數(shù)個明星巨頭的加入。Facebook開源前沿深度學(xué)習(xí)工具“Torch”和針對神經(jīng)網(wǎng)絡(luò)研究的服務(wù)器“Big Sur”;Amazon啟動其機器學(xué)習(xí)平臺Amazon Machine Learning;Google開源其機器學(xué)習(xí)平臺TensorFlow;IBM開源SystemML并成為Apache官方孵化項目;Microsoft亞洲研究院開源分布式機器學(xué)習(xí)工具DMTK。
產(chǎn)業(yè)篇
一項技術(shù)從原創(chuàng)到開源社區(qū)再到產(chǎn)業(yè)化和廣泛應(yīng)用往往需要若干年的時間。在原創(chuàng)能力和開源文化依然落后的中國,單純地對底層技術(shù)進行創(chuàng)新顯然難出成果。盡管如此,在經(jīng)濟轉(zhuǎn)型升級需求的驅(qū)動下,創(chuàng)業(yè)者大量采用C2C(Copy to China)的創(chuàng)業(yè)模式快速推動著中國大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,產(chǎn)業(yè)生態(tài)已初步成型。
產(chǎn)業(yè)基礎(chǔ)層
如果說數(shù)據(jù)是未來企業(yè)的核心資產(chǎn),那么數(shù)據(jù)分析師便是將資產(chǎn)變現(xiàn)的關(guān)鍵資源。以數(shù)據(jù)流通及人才培養(yǎng)和流通為目標,社區(qū)、眾包平臺、垂直媒體、數(shù)據(jù)交易平臺是數(shù)據(jù)產(chǎn)業(yè)發(fā)展壯大的土壤。
社區(qū)
大數(shù)據(jù)技術(shù)社區(qū)為產(chǎn)業(yè)建立了人才根基。社區(qū)天然具備社群和媒體屬性,自然吸引了眾多專業(yè)人才。正基于此,開源中國社區(qū)(新三板掛牌企業(yè))和Bi168大數(shù)據(jù)交流社區(qū)同時開展了代碼托管、測試、培訓(xùn)、招聘、眾包等其他全產(chǎn)業(yè)鏈服務(wù)。
眾包
人力資本的高效配置是產(chǎn)業(yè)發(fā)展的必要條件。Data Castle類似于硅谷的Kaggle,是一家數(shù)據(jù)分析師的眾包平臺。客戶提交數(shù)據(jù)分析需求、發(fā)布競賽,由社區(qū)內(nèi)眾多分析師通過競賽的方式給予最優(yōu)解決方案。
垂直媒體
36大數(shù)據(jù)、數(shù)據(jù)猿、數(shù)據(jù)觀等大數(shù)據(jù)垂直媒體的出現(xiàn)推動了大數(shù)據(jù)技術(shù)和文化的傳播。它們利用媒體的先天優(yōu)勢,快速積累大量專業(yè)用戶,因此與社區(qū)類似,容易向產(chǎn)業(yè)鏈其他環(huán)節(jié)延伸。
數(shù)據(jù)交易平臺
數(shù)據(jù)交易平臺致力于實現(xiàn)數(shù)據(jù)資產(chǎn)的最優(yōu)化配置,推動數(shù)據(jù)開放和自由流通。數(shù)據(jù)堂和聚合數(shù)據(jù)主要采用眾包模式采集數(shù)據(jù)并在ETL之后進行交易,數(shù)據(jù)以API的形態(tài)提供服務(wù)。由于保護隱私和數(shù)據(jù)安全的特殊要求,數(shù)據(jù)的脫敏是交易前的重要工序。貴陽大數(shù)據(jù)交易所是全球范圍內(nèi)落戶中國的第一家大數(shù)據(jù)交易所,在推動政府數(shù)據(jù)公開和行業(yè)數(shù)據(jù)流通上具有開創(chuàng)性的意義。
IT架構(gòu)層
開源文化為Hadoop社區(qū)和生態(tài)帶來了蓬勃發(fā)展,但也導(dǎo)致生態(tài)的復(fù)雜化和組件的碎片化、重復(fù)化,這催生了IBM、MapR、Cloudera、Hortonworks等眾多提供標準化解決方案的企業(yè)。中國也誕生了一些提供基礎(chǔ)技術(shù)服務(wù)的公司。
Hadoop基礎(chǔ)軟件
本領(lǐng)域的企業(yè)幫助客戶搭建Hadoop基礎(chǔ)架構(gòu)。其中,星環(huán)科技TransWarp、華為FusionInsight是Hadoop發(fā)行版的提供商,對標Cloudera CDH和Hortonworks的HDP,其軟件系統(tǒng)對Apache開源社區(qū)軟件進行了功能增強,推動了Hadoop開源技術(shù)在中國的落地。星環(huán)科技更是上榜Gartner 2016數(shù)倉魔力象限的唯一一家中國公司。
數(shù)據(jù)存儲
管理2013年“棱鏡門”后,數(shù)據(jù)安全被上升到國家戰(zhàn)略高度,去IOE正在成為眾多企業(yè)必不可少的一步。以SequoiaDB(巨杉數(shù)據(jù)庫)、達夢數(shù)據(jù)庫、南大通用、龍存科技為代表的國產(chǎn)分布式數(shù)據(jù)庫及存儲系統(tǒng)在銀行、電信、航空等國家戰(zhàn)略關(guān)鍵領(lǐng)域具備較大的市場。
數(shù)據(jù)安全
大數(shù)據(jù)時代,數(shù)據(jù)安全至關(guān)重要。青藤云安全、安全狗等產(chǎn)品從系統(tǒng)層、應(yīng)用層和網(wǎng)絡(luò)層建立多層次防御體系,統(tǒng)一實施管理混合云、多公有云的安全方案,并利用大數(shù)據(jù)分析和可視化展示技術(shù),為用戶提供了分布式框架下的WAF、防CC、抗DDoS、攔病毒、防暴力破解等安全監(jiān)控和防護服務(wù),應(yīng)對頻繁出現(xiàn)的黑客攻擊、網(wǎng)絡(luò)犯罪和安全漏洞。
通用技術(shù)層
日志分析、用戶行為分析、輿情監(jiān)控、精準營銷、可視化等大數(shù)據(jù)的通用技術(shù)在互聯(lián)網(wǎng)企業(yè)已有相當成熟的應(yīng)用。如今,越來越多的非互聯(lián)網(wǎng)企業(yè)也在利用這些通用技術(shù)提高各環(huán)節(jié)的效率。
日志分析
大型企業(yè)的系統(tǒng)每天會產(chǎn)生海量的日志,這些非結(jié)構(gòu)化的日志數(shù)據(jù)蘊含著豐富的信息。對標于美國的Splunk,日志易和瀚思對運維日志、業(yè)務(wù)日志進行采集、搜索、分析、可視化,實現(xiàn)運維監(jiān)控、安全審計、業(yè)務(wù)數(shù)據(jù)分析等功能。
用戶行為分析
移動端用戶行為分析為提升產(chǎn)品用戶體驗,提高用戶轉(zhuǎn)化率、留存率,用戶行為分析是必不可少的環(huán)節(jié)。TalkingData和友盟等企業(yè)通過在APP/手游中接入SDK,實現(xiàn)對用戶行為數(shù)據(jù)的采集、分析與管理。大量的終端覆蓋和數(shù)據(jù)沉淀使得這類企業(yè)具備了提供DMP和移動廣告效果監(jiān)測服務(wù)的能力。GrowingIO更是直接面向業(yè)務(wù)人員,推出了免埋點技術(shù),這一點類似于國外的Heap Analytics。
網(wǎng)站分析
百度統(tǒng)計、CNZZ及締元信(后兩者已與友盟合并為友盟+)等產(chǎn)品可以幫助網(wǎng)站開發(fā)運營人員監(jiān)測和分析用戶的點擊、瀏覽等行為,這些公司也大多提供DMP和互聯(lián)網(wǎng)廣告效果監(jiān)測服務(wù)。
網(wǎng)頁爬蟲
是一種快速搜索海量網(wǎng)頁的技術(shù)。開源的爬蟲技術(shù)包括Nutch這樣的分布式爬蟲項目,Crawler4j、WebMagic、WebCollector等JAVA單機爬蟲和scrapy這樣的非JAVA單機爬蟲框架。利用這些開源技術(shù),市場上出現(xiàn)了很多爬蟲工具,其中八爪魚的規(guī)模和影響力最大,該公司也基于此工具推出了自己的大數(shù)據(jù)交易平臺數(shù)多多。
輿情監(jiān)控
智慧星光、紅麥等互聯(lián)網(wǎng)輿情公司利用網(wǎng)絡(luò)爬蟲和NPL技術(shù),為企業(yè)用戶收集和挖掘散落在互聯(lián)網(wǎng)中的價值信息,助其完成競爭分析、公關(guān)、收集用戶反饋等必要流程。
精準營銷
個性化推薦以完整的用戶標簽為基礎(chǔ),精準營銷、個性化推薦技術(shù)在廣告業(yè)、電商、新聞媒體、應(yīng)用市場等領(lǐng)域得到廣泛應(yīng)用。利用SDK植入、cookie抓取、數(shù)據(jù)采購和互換等途徑,TalkingData、百分點、秒針、AdMaster等眾多DSP、DMP服務(wù)商積累了大量的用戶畫像,并可實現(xiàn)用戶的精準識別,通過RTB技術(shù)提高了廣告投放的實時性和精準度。將用戶畫像及關(guān)聯(lián)數(shù)據(jù)進一步挖掘,利用協(xié)同過濾等算法,TalkingData、百分點幫助應(yīng)用商店和電商平臺搭建了個性化推薦系統(tǒng),呈現(xiàn)出千人千面的效果。另一家利用類似技術(shù)的典型企業(yè)Everstring則專注于B2B marketing領(lǐng)域,為用戶尋找匹配的企業(yè)客戶。
數(shù)據(jù)可視化
可視化是大數(shù)據(jù)價值釋放的最后一公里。大數(shù)據(jù)魔鏡、數(shù)字冰雹等公司具備豐富的可視化效果庫,支持Excel、CSV、TXT文本數(shù)據(jù)以及Oracle、Microsoft SQL Server、Mysql等主流的數(shù)據(jù)庫,簡單拖曳即可分析出想要的結(jié)果,為企業(yè)主和業(yè)務(wù)人員提供數(shù)據(jù)可視化、分析、挖掘的整套解決方案及技術(shù)支持。
面部/圖像識別
面部/圖像識別技術(shù)已被廣泛應(yīng)用到了美艷自拍、身份識別、智能硬件和機器人等多個領(lǐng)域。Face++和Sensetime擁有人臉識別云計算平臺,為開發(fā)者提供了人臉識別接口。漢王、格靈深瞳和圖普科技則分別專注于OCR、安防和鑒黃領(lǐng)域。
語音識別/NLPNLP(自然語言處理)
是實現(xiàn)語音識別的關(guān)鍵技術(shù)??拼笥嶏w、云知聲、出門問問、靈聚科技、思必馳等企業(yè)已將其語音識別組件使用在智能硬件、智能家居、機器人、語音輸入法等多個領(lǐng)域。小i機器人和車音網(wǎng)則分別從智能客服和車載語控單點切入。
行業(yè)應(yīng)用層
每個行業(yè)都有其特定的業(yè)務(wù)邏輯及核心痛點,這些往往不是大數(shù)據(jù)的通用技術(shù)能夠解決的。因此,在市場競爭空前激烈的今天,大數(shù)據(jù)技術(shù)在具體行業(yè)的場景化應(yīng)用乃至整體改造,蘊藏著巨大的商業(yè)機會。然而,受制于企業(yè)主的傳統(tǒng)思維、行業(yè)壁壘、安全顧慮和改造成本等因素,大數(shù)據(jù)在非互聯(lián)網(wǎng)行業(yè)的應(yīng)用仍處于初期,未來將加速拓展。
數(shù)據(jù)化整體解決方案
非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)化轉(zhuǎn)型面臨著來自業(yè)務(wù)流程、成本控制及管理層面的巨大挑戰(zhàn),百分點、美林數(shù)據(jù)、華院數(shù)據(jù)等服務(wù)商針對金融、電信、零售、電商等數(shù)據(jù)密集型行業(yè)提供了較為完整的數(shù)據(jù)化解決方案,并將隨著行業(yè)滲透的深入幫助更多的企業(yè)完成數(shù)據(jù)化轉(zhuǎn)型。
電子政務(wù)政府效率的高低關(guān)系到各行各業(yè)的發(fā)展和民生福祉,電子政務(wù)系統(tǒng)幫助工商、財政、民政、審計、稅務(wù)、園區(qū)、統(tǒng)計、農(nóng)業(yè)等政府部門提高管理和服務(wù)效率。由于用戶的特殊性,電子政務(wù)市場進入門檻高,定制性強,服務(wù)難度大。典型的服務(wù)商包括龍信數(shù)據(jù)、華三、國雙、九次方等。
智慧城市
智慧城市就是運用信息和通信技術(shù)手段感測、分析、整合城市運行核心系統(tǒng)的各項關(guān)鍵信息,從而對包括民生、環(huán)保、公共安全、城市服務(wù)、工商業(yè)活動在內(nèi)的各種需求做出智能響應(yīng)。華三、華為、中興、軟通動力、大漢科技等公司具備強大的軟硬件整合能力、豐富的市政合作經(jīng)驗和資源積累,是該領(lǐng)域的典型服務(wù)商。
金融大數(shù)據(jù)技術(shù)
在金融行業(yè)主要應(yīng)用在征信、風(fēng)控、反欺詐和量化投資領(lǐng)域。聚信立、量化派結(jié)合網(wǎng)絡(luò)數(shù)據(jù)、授權(quán)數(shù)據(jù)和采購數(shù)據(jù)為諸多金融機構(gòu)提供貸款者的信用評估報告;閃銀奇異對個人信用進行在線評分;同盾科技倡導(dǎo)“跨行業(yè)聯(lián)防聯(lián)控”,提供反欺詐SaaS服務(wù);91征信主打多重負債查詢服務(wù);數(shù)聯(lián)銘品搭建第三方企業(yè)數(shù)據(jù)平臺,提供針對企業(yè)的全息畫像,為金融和征信決策做參考。通聯(lián)數(shù)據(jù)和深圳祥云則專注于量化交易。
影視/娛樂
中國電影的市場規(guī)模已居全球第二,電影產(chǎn)業(yè)的投前風(fēng)控、精準營銷、金融服務(wù)存在巨大的市場空間。艾曼、藝恩基于影視娛樂行業(yè)的數(shù)據(jù)和資源積累,抓取全網(wǎng)的娛樂相關(guān)信息,提供影視投資風(fēng)控、明星價值評估、廣告精準分發(fā)等服務(wù)。牧星人影視采集演員檔期、性別、外形、社交關(guān)系、口碑以及劇組預(yù)算等數(shù)據(jù),為劇組招募提供精準推薦。
農(nóng)業(yè)大數(shù)據(jù)
在農(nóng)業(yè)主要應(yīng)用在農(nóng)作物估產(chǎn)、旱情評估、農(nóng)作物長勢監(jiān)測等領(lǐng)域。由于農(nóng)業(yè)信息資源分散、價值密度低、實時性差,服務(wù)商需要有專業(yè)的技術(shù)背景和行業(yè)經(jīng)驗。典型企業(yè)包括太谷雨田、軟通動力、武漢禾訊科技等。行業(yè)整體數(shù)據(jù)化程度低、進入門檻高。
人才招聘
我國人才招聘行業(yè)缺乏對人才與職位的科學(xué)分析,沒有嚴謹?shù)臄?shù)據(jù)體系和分析方法。E成招聘、北森、搜前途、哪上班基于全網(wǎng)數(shù)據(jù)獲取候選人完整畫像,通過機器學(xué)習(xí)算法幫助企業(yè)進行精準人崗匹配;內(nèi)聘網(wǎng)基于文本分析,實現(xiàn)簡歷和職位描述的格式化和自動匹配。
醫(yī)療衛(wèi)生
大數(shù)據(jù)在醫(yī)療行業(yè)主要應(yīng)用于基因測序、醫(yī)療檔案整合和分析、醫(yī)患溝通、醫(yī)療機構(gòu)數(shù)據(jù)化和新藥研制等環(huán)節(jié)。華大基因和解碼DNA提供個人全基因組測序和易感基因檢測等服務(wù)。杏樹林面向醫(yī)生群體推出了電子病歷夾、醫(yī)學(xué)文獻庫等APP。醫(yī)渡云則致力于與領(lǐng)先的大型醫(yī)院共建“醫(yī)療大數(shù)據(jù)”平臺,提高醫(yī)院效率。
企業(yè)轉(zhuǎn)型篇
盡管技術(shù)的日益創(chuàng)新和逐漸完善的產(chǎn)業(yè)配套創(chuàng)造了良好的外部環(huán)境,只有將“數(shù)據(jù)驅(qū)動”的理念根植于企業(yè)本身才能充分發(fā)揮大數(shù)據(jù)的價值。對于一家企業(yè)來說,真正的數(shù)據(jù)化轉(zhuǎn)型絕不僅僅是互聯(lián)網(wǎng)營銷或輿情監(jiān)控這么簡單,它需要戰(zhàn)略層面的規(guī)劃、管理制度的革新和執(zhí)行層面的堅決。這里提出了數(shù)據(jù)化轉(zhuǎn)型的8個步驟,這些建議并沒有必然的時間先后或邏輯關(guān)系,藏在背后的大數(shù)據(jù)理念,或許更加重要。
1. 數(shù)據(jù)全面采集
要求企業(yè)采集并存儲企業(yè)生產(chǎn)經(jīng)營中的一切數(shù)據(jù),形成企業(yè)數(shù)據(jù)資產(chǎn)的理念。
2. 整理數(shù)據(jù)資源,建立數(shù)據(jù)標準形成管理
成立數(shù)據(jù)委員會,建立數(shù)據(jù)目錄和數(shù)據(jù)標準,對數(shù)據(jù)進行分級分權(quán)限的管理,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和可追溯。隨時了解哪位員工在什么時間點在哪一臺設(shè)備上運用何種權(quán)限如何使用。
3. 建設(shè)數(shù)據(jù)管理平臺
建設(shè)具備存儲災(zāi)備功能的數(shù)據(jù)中心,以業(yè)務(wù)需要為引導(dǎo),定做一套數(shù)據(jù)組織和管理的解決方案,硬件方面強調(diào)魯棒性和可擴展性,沒有必要一開始就投入大量經(jīng)費。
4. 建立海量數(shù)據(jù)的深入分析挖掘能力
培養(yǎng)非結(jié)構(gòu)化數(shù)據(jù)的分析處理能力和大數(shù)據(jù)下的機器學(xué)習(xí)的能力。
5. 建立外部數(shù)據(jù)的戰(zhàn)略儲備
外部數(shù)據(jù)對于市場拓展、趨勢分析、競品分析、人才招聘、用戶畫像和產(chǎn)品推薦等意義重大,而網(wǎng)站、論壇、社交媒體和電商平臺上聚集了很多有重要價值的公開數(shù)據(jù)。
6. 建立數(shù)據(jù)的外部創(chuàng)新能力
企業(yè)通過智能終端、傳感網(wǎng)絡(luò)、物流記錄、網(wǎng)點記錄和電子商務(wù)平臺等等,獲得的第一手數(shù)據(jù),很多都可以用于支持在跨領(lǐng)域交叉銷售、環(huán)境保護、健康管理、智慧城市、精準廣告和房地價預(yù)測等方面的創(chuàng)新型應(yīng)用。
7. 推動自身數(shù)據(jù)的開放與共享
要充分借助社會的力量,盡最大可能發(fā)揮數(shù)據(jù)潛藏的價值。Netflix曾經(jīng)公開了包含50多萬用戶和17 770部電影的在線評分數(shù)據(jù),并懸賞100萬美元獎勵能夠?qū)etflix現(xiàn)有評分預(yù)測準確度提高10%的團隊。
8. 數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略投資布局
通過投資的方式迅速形成自己的大數(shù)據(jù)能力甚至大數(shù)據(jù)產(chǎn)業(yè)布局。
結(jié)語
在Gartner的炒作周期曲線上,“大數(shù)據(jù)”概念已從頂峰滑落到了谷底,產(chǎn)業(yè)似乎陷入停滯。但當我們沿著技術(shù)起源、產(chǎn)業(yè)生態(tài)和企業(yè)戰(zhàn)略的脈絡(luò)重新審視大數(shù)據(jù)時,我們發(fā)現(xiàn)大數(shù)據(jù)產(chǎn)業(yè)不僅不會停滯,反而將加速滲透到更多行業(yè)的各類場景中去,并根植在企業(yè)戰(zhàn)略、管理和文化之中。只有當各行各業(yè)的企業(yè)運營實現(xiàn)數(shù)據(jù)驅(qū)動時,大數(shù)據(jù)的價值才真正落地,然而這條路還很長。
作者:星河互聯(lián)
來源:http://www.36dsj.com/archives/66073
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@星河互聯(lián)
講解的點太多,不是很明白
看不太懂