10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(二)

2 評論 9059 瀏覽 47 收藏 15 分鐘

編輯導語:什么是數(shù)據(jù)湖?企業(yè)可以利用數(shù)據(jù)湖盡可能保持業(yè)務數(shù)據(jù)的可還原性,解決存儲全域原始數(shù)據(jù)的問題;而數(shù)據(jù)中臺的存在則可以幫助幫助企業(yè)提升業(yè)務處理效率。不過并非所有的企業(yè)都需要設立數(shù)據(jù)中臺。本篇文章里,作者對數(shù)據(jù)湖與數(shù)據(jù)中臺進行了詳細的解釋,一起來看一下。

引言:文接上回,沒有閱讀第一部分的小伙伴請點擊《10分鐘帶你了解數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系(一)》查看,那我們就開始第二部分的內容吧,如有不準確的地方,還請希望大家進行指正。

一、數(shù)據(jù)湖

上文通過有序性與開放性分別對數(shù)據(jù)倉庫與數(shù)據(jù)湖進行描述并對比,現(xiàn)在我們來詳細地了解一下數(shù)據(jù)湖。

1. 數(shù)據(jù)湖的起源

數(shù)據(jù)湖主要是為了解決存儲全域原始數(shù)據(jù),其名稱中的“湖”字將數(shù)據(jù)湖的含義表現(xiàn)得淋漓盡致。像企業(yè)的生產數(shù)據(jù)(非結構化數(shù)據(jù)與結構化數(shù)據(jù))、業(yè)務歷史數(shù)據(jù)、臨時數(shù)據(jù),諸如IOT設備,移動應用程序以及傳統(tǒng)的設備中返回的第三方數(shù)據(jù)都可以通過ETL工具形成的“水管”存儲進數(shù)據(jù)湖中。

例如筆者之前在工作過程中接觸的手機信令數(shù)據(jù)、GPS返回的定位數(shù)據(jù)等,這些數(shù)據(jù)實際上并沒有預先定義好相應的數(shù)據(jù)結構,這就意味著可以先將數(shù)據(jù)存儲起來而無需對數(shù)據(jù)進行結構化處理,也無需明確要進行什么分析,由數(shù)據(jù)從業(yè)人員在后續(xù)工作中進行探索和嘗試。

上文中提到的結構化數(shù)據(jù)和非結構化數(shù)據(jù),那什么是結構化/非結構化數(shù)據(jù)呢?下面我們就解釋下兩者的區(qū)別與聯(lián)系。

2. 何為結構化/非結構化數(shù)據(jù)

舉個例子。

我們收集到了這樣一堆文字信息:

  • 有個學生叫小趙,男的,97年的,土木工程系的,北京的;
  • 有個學生叫小李,98年的,女的,外語系的,江蘇蘇州的;
  • ·····

諸如此類的文字信息有幾萬行,我們存在word中,亦或是紙質版文件經(jīng)由我們掃描成圖片格式的,這類就可以稱為非結構化數(shù)據(jù)。假設有需求將這些文字信息中按照性別、籍貫、專業(yè)等等統(tǒng)計出來,我們在第一篇文章中提到了關系型數(shù)據(jù)庫,用相關的技術和工具將這些文字信息進行處理,處理后的數(shù)據(jù)就是結構化數(shù)據(jù)。

所以結構化數(shù)據(jù)的定義:是由二維表結構來邏輯表達和實現(xiàn)的數(shù)據(jù),嚴格地遵循數(shù)據(jù)格式與長度規(guī)范,主要通過關系型數(shù)據(jù)庫進行存儲和管理。

非結構化數(shù)據(jù):不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結構化數(shù)據(jù),包括所有格式的辦公文檔、 XML 、 HTML 、各類報表、圖片和音頻、視頻信息等。

3. 數(shù)據(jù)湖的作用

回歸正題,企業(yè)為什么要建立數(shù)據(jù)湖呢,首先數(shù)據(jù)湖中存在一個重要的組成部分ODS(Operating Data Store,操作數(shù)據(jù)存儲),大家是否記得上一篇文章講過OLTP(On-Line Transaction Processing),OLTP側重于基本的、日常的事務處理,而我們現(xiàn)在提到的ODS就是OLTP數(shù)據(jù)的快照與歷史。

我們在上文的數(shù)據(jù)庫一節(jié)描述時提到業(yè)務數(shù)據(jù)庫與數(shù)據(jù)倉庫的結構不同,業(yè)務數(shù)據(jù)庫是為OLTP設計的,是系統(tǒng)的實時狀態(tài)的數(shù)據(jù),而數(shù)據(jù)倉庫的數(shù)據(jù)是為OLAP的需求建設的,是為了深度的多維度分析。所以這樣就會造成基于數(shù)據(jù)倉庫的數(shù)據(jù)分析會產生以下的限制:

  • 由于數(shù)據(jù)倉庫的架構設計事先訂好的,很難能做到全面覆蓋,因此基于數(shù)據(jù)倉庫的分析是收到事先定義的分析目標及數(shù)據(jù)庫的框架限制。
  • 從OLTP的實時狀態(tài)到OLAP的分析數(shù)據(jù)的轉換會有不少信息損失,舉個例子來說,某個用戶在某個應用程序中錢包的余額,在OLTP系統(tǒng)中僅僅只會按照業(yè)務發(fā)生情況對錢包中的余額進行實時更新,然而在OLAP系統(tǒng)中也是僅僅會記錄對該錢包操作的交易,如果想要去查詢并分析該用戶的歷史余額就會比較麻煩。

而從根本上來講,數(shù)據(jù)湖的最主要作用是盡可能保持業(yè)務數(shù)據(jù)的可還原性。數(shù)據(jù)湖的定位和搜索引擎類似,我們可以像在搜索引擎中檢索數(shù)據(jù)一樣,實現(xiàn)按需檢索,即取即用,它存取這原始的未經(jīng)改變的全量數(shù)據(jù),可以存取、處理、分析。

4. 數(shù)據(jù)湖的發(fā)展

數(shù)據(jù)湖最早是2011年由Pentaho的首席技術官James Dixon提出的一個概念,他認為諸如數(shù)據(jù)集市,數(shù)據(jù)倉庫由于其有序性的特點,勢必會帶來數(shù)據(jù)孤島效應,而數(shù)據(jù)湖可以由于其開放性的特點可以解決數(shù)據(jù)孤島問題。

但隨著數(shù)據(jù)湖在各類企業(yè)的應用,大家都覺得:嗯,這個數(shù)據(jù)有用,我要放進去;那個數(shù)據(jù)也有用,我也要放進去;于是把所有的數(shù)據(jù)不假思索地扔進基于數(shù)據(jù)湖的相關技術或工具中,沒有規(guī)則不成方圓,當我們認為所有數(shù)據(jù)都有用時,那么所有的數(shù)據(jù)都是垃圾,數(shù)據(jù)湖也變成了造成企業(yè)成本高企的數(shù)據(jù)沼澤。

所以這也是為什么“數(shù)據(jù)湖”叫“湖”,而不叫數(shù)據(jù)河,數(shù)據(jù)池亦或是數(shù)據(jù)海。

首先數(shù)據(jù)要能“存”,數(shù)據(jù)要夠“存”,數(shù)據(jù)要有邊界地“存”。企業(yè)級的數(shù)據(jù)是需要長期積淀的,所以是“數(shù)據(jù)湖”。

同時湖水天然會進行分層,滿足不同的生態(tài)系統(tǒng)要求,這與企業(yè)建設統(tǒng)一數(shù)據(jù)中心,存放管理數(shù)據(jù)的需求是一致的。熱數(shù)據(jù)在上層方便流通應用,溫數(shù)據(jù)、冷數(shù)據(jù)位于數(shù)據(jù)中心的不同存儲介質之中,達到數(shù)據(jù)存儲容量與成本的平衡。

二、數(shù)據(jù)中臺

我們終于迎來了最近幾年很火的數(shù)據(jù)中臺。網(wǎng)上有很多文章關于數(shù)據(jù)中臺的介紹,什么Hive、Spark、Hadoop、Kalfa等等很多技術名詞,聽上去非常的高大上而且云里霧里的,會使初涉產品的我們望而卻步。

所以接下來我們從何為中臺、何為數(shù)據(jù)中臺、數(shù)據(jù)中臺可以做什么三個方面來講講數(shù)據(jù)中臺。

1. 何為中臺

首先拋開數(shù)據(jù),中臺這一概念這兩年在國內大火。說起來源,網(wǎng)上文章都會提到這種組織是2015年馬云參觀Supercell的游戲公司借鑒過來的,并且后來“阿里巴巴”CEO逍遙子提出的組建的“大中臺,小前臺”的組織和業(yè)務體制。那么我們能用一個比較淺顯的例子來理解“中臺”一詞么?

當然可以,有一家連鎖且超級便宜的意大利西餐連鎖店“薩莉亞”,相信大部分同學都光顧過,9元的意面,24的披薩,上菜速度超快,雖然比不上傳統(tǒng)西餐,但相比于這個價位,屬實很良心了,而且目前薩莉亞在中國已經(jīng)開設了將近400家(截止2019年)分店。

那么薩莉亞保持價格低廉同時上菜效率高效的原因是什么?答案很簡單,就是中央廚房進行粗加工,然后門店的廚師僅需要簡單地烹飪即可端上餐桌。相比于傳統(tǒng)餐廳采購(買菜)→配菜→做菜的環(huán)節(jié),既減少門店廚師的數(shù)量,降低人工成本的同時又加快上菜速度。

回到我們研發(fā)流程來看,采購(買菜)→配菜環(huán)節(jié)就是我們研發(fā)的后臺,他們幫助我們解決“有什么”;而配菜→做菜環(huán)節(jié)就是我們的業(yè)務前臺團隊,他們要做的就是根據(jù)客戶的“口味”來“做什么”。

而配菜,蔬菜整理這個環(huán)節(jié),也就是薩莉亞的“中央廚房”就相當于我們的中臺,僅僅需要門店的需求,中央廚房就可以快速提供對應的材料,提高業(yè)務開發(fā)效率,減少重復開發(fā)成本。

2. 何為數(shù)據(jù)中臺

介紹完了“中臺”這一概念,數(shù)據(jù)中臺相信大家也能舉一反三。沒錯,對于采購來的“菜”就相當于數(shù)據(jù),做出來的“菜”就相當于業(yè)務部門所以需要的數(shù)據(jù)應用。

那么配菜環(huán)節(jié)就相當于IT部門的各種數(shù)據(jù)算法,每道菜單獨配菜效率慢且冗余度較高,于是“中央廚房”就對數(shù)據(jù)算法進行規(guī)范化,系統(tǒng)化。針對于業(yè)務部門所需要的各道菜提供粗加工的半成品,這就是“數(shù)據(jù)產品”。

這種“中央廚房”配菜的過程就相當于我們所說的“數(shù)據(jù)中臺”。那么是不是每個企業(yè)都必須搭建數(shù)據(jù)中臺么?數(shù)據(jù)中臺在業(yè)務上能解決什么問題呢?

3. 數(shù)據(jù)中臺能做什么

所有企業(yè)是否都需要搭建數(shù)據(jù)中臺?首先我們知道企業(yè)引進一項技術或產品,不在于是否“時髦”,不在于是否“高科技”,而在于是否適合該公司目前的發(fā)展,是否能提高公司的利潤,降低公司的成本。

首先數(shù)據(jù)中臺的作用通過對中臺及數(shù)據(jù)中臺的描述,總結以下2點:

  1. 提供數(shù)據(jù)產品及數(shù)據(jù)服務,包括但不限于決策支持類工具(例如業(yè)務報表、大屏數(shù)據(jù)可視化展示);數(shù)據(jù)分析類(BI商業(yè)智能、機器學習模型、數(shù)據(jù)挖掘);數(shù)據(jù)檢索(日志分析)等;
  2. 提升企業(yè)各部門的數(shù)據(jù)連通性,避免數(shù)據(jù)孤島的產生。

根據(jù)以上提到數(shù)據(jù)中臺的兩個優(yōu)勢,針對一個企業(yè)是否搭建數(shù)據(jù)中臺,亦或是說一個企業(yè)在一開始從零到一就要構建數(shù)據(jù)中臺?筆者在此有幾點自己的總結:

首先針對于不同的行業(yè),盡管傳統(tǒng)企業(yè)數(shù)字化改革正在路上且已經(jīng)有很多行業(yè)已經(jīng)改革成功,但是針對于大部分傳統(tǒng)企業(yè),別說數(shù)據(jù)中臺,公司連數(shù)據(jù)倉庫的時代都沒有到來,“羅馬不是一天建成的”拋去建設數(shù)據(jù)中臺的財力,時間成本高昂不提,就是對于傳統(tǒng)企業(yè)的業(yè)務流轉模式,企業(yè)員工接受程度來說都是一條難以逾越的鴻溝,數(shù)據(jù)中臺不可操之過急。

對于一些處于數(shù)據(jù)倉庫時代的傳統(tǒng)企業(yè)或互聯(lián)網(wǎng)企業(yè),由于各個部門不停無限地進行滿足其業(yè)務支撐點取數(shù)要求、業(yè)務統(tǒng)計、看數(shù)需求,就可以嘗試轉型數(shù)據(jù)中臺。

對初創(chuàng)企業(yè),業(yè)務線單一且業(yè)務模式還經(jīng)常不斷變化,不斷試錯時,沒有能力去進行數(shù)據(jù)中臺的搭建,換言之就是“先活下去最重要”。

三、小結

本篇文章分兩部分介紹了數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺的區(qū)別與聯(lián)系。

關于數(shù)據(jù)有人說數(shù)據(jù)是新的石油資源,國家也將數(shù)據(jù)作為一種新型生產要素,與傳統(tǒng)生產要素并列。

筆者曾經(jīng)在泛互聯(lián)網(wǎng)以及傳統(tǒng)企業(yè)的業(yè)務部門都工作一段時間,由于各類原因,相比于泛互聯(lián)網(wǎng)行業(yè)的數(shù)據(jù)化相比,傳統(tǒng)企業(yè)的數(shù)據(jù)化之路并不一帆風順。2020年8月,國務院國資委引發(fā)《關于加快推進國有企業(yè)數(shù)字化轉型工作的通知》表現(xiàn)出各國有企業(yè)未來數(shù)字化轉型將成為必然,如何協(xié)助傳統(tǒng)企業(yè)進行數(shù)字化轉型,利用數(shù)據(jù)驅動傳統(tǒng)行業(yè)迸發(fā)新的活力對于數(shù)據(jù)產品經(jīng)理,尤其是對ToB的數(shù)據(jù)產品經(jīng)理將會是挑戰(zhàn)與機遇。

筆者會繼續(xù)努力與大家分享交流其他數(shù)據(jù)產品相關的文章與內容。

 

本文由 @快樂的給予 原創(chuàng)發(fā)布于人人都是產品經(jīng)理,未經(jīng)許可,禁止轉載

題圖來自 Pexels,基于 CC0 協(xié)議

更多精彩內容,請關注人人都是產品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 蹲蹲更新

    來自廣東 回復
  2. 寫的很棒~ 方便提供下微信號碼? 想交流交流~
    我的: 921947885

    來自廣東 回復