數(shù)倉大揭秘:一篇文章帶你走進(jìn)神秘的數(shù)據(jù)世界!

3 評論 1094 瀏覽 20 收藏 16 分鐘

可能不少人都聽說過數(shù)據(jù)倉庫,其實(shí)簡單理解,數(shù)據(jù)倉庫即一個數(shù)據(jù)存儲系統(tǒng),它可以從不同源系統(tǒng)中收集數(shù)據(jù),并對數(shù)據(jù)做相應(yīng)的處理,以為企業(yè)提供決策支持。這篇文章里,作者就對數(shù)據(jù)倉庫、包括數(shù)據(jù)庫、數(shù)據(jù)中臺等概念做了解讀和分析,一起來看。

一、什么是數(shù)據(jù)倉庫?

1. 數(shù)倉的概念

數(shù)據(jù)倉庫是一個用于存儲、管理和分析大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的集中式數(shù)據(jù)庫系統(tǒng)。它從不同的源系統(tǒng)中收集數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行清洗、整合和轉(zhuǎn)換,以便能夠支持復(fù)雜的商業(yè)智能和數(shù)據(jù)分析應(yīng)用程序。

簡而言之,數(shù)據(jù)倉庫用于分析,為企業(yè)提供決策支持。

數(shù)據(jù)倉庫本身不“生產(chǎn)”任何數(shù)據(jù),同時(shí)也不“消費(fèi)”任何數(shù)據(jù),數(shù)據(jù)來源于外部,并開發(fā)給外部應(yīng)用。

2. 數(shù)倉的特點(diǎn)

數(shù)據(jù)倉庫是一個集成、非易失的、以主題為導(dǎo)向的數(shù)據(jù)存儲系統(tǒng),旨在支持企業(yè)決策和數(shù)據(jù)分析需求。它具有高性能查詢、歷史數(shù)據(jù)存儲和決策支持的特點(diǎn),為企業(yè)提供了準(zhǔn)確、全面和及時(shí)的信息基礎(chǔ)。

數(shù)據(jù)倉庫具有以下特點(diǎn):

  • 主題導(dǎo)向:數(shù)據(jù)倉庫基于主題組織數(shù)據(jù),而不是按照應(yīng)用程序或業(yè)務(wù)部門的結(jié)構(gòu)組織數(shù)據(jù)。
  • 面向分析:數(shù)據(jù)倉庫的主要用途是進(jìn)行數(shù)據(jù)分析和生成報(bào)表,支持?jǐn)?shù)據(jù)挖掘、統(tǒng)計(jì)分析、預(yù)測建模等操作。
  • 集成性:數(shù)據(jù)倉庫從多個源中提取、轉(zhuǎn)換和加載數(shù)據(jù),確保數(shù)據(jù)的一致性和準(zhǔn)確性。
  • 非易失性:數(shù)據(jù)倉庫通常存儲大量的歷史數(shù)據(jù),包括過去幾年的數(shù)據(jù),一般不會被修改或刪除,而是追加新數(shù)據(jù)。這樣可以確保歷史數(shù)據(jù)的完整性和可追溯性,用戶可以進(jìn)行趨勢分析、時(shí)間序列分析和比較分析,可以更好地理解業(yè)務(wù)發(fā)展和變化。

二、為什么要有數(shù)據(jù)倉庫?

數(shù)據(jù)倉庫可以對業(yè)務(wù)數(shù)據(jù)進(jìn)行整合、清洗和轉(zhuǎn)換,提高數(shù)據(jù)的質(zhì)量和一致性,同時(shí)也提供更好的查詢和分析性能。數(shù)據(jù)倉庫不僅可以提供實(shí)時(shí)數(shù)據(jù)查詢,還可以支持歷史數(shù)據(jù)及趨勢的分析,為企業(yè)提供更全面的數(shù)據(jù)視圖和高效的數(shù)據(jù)分析能力。如果不搭建數(shù)據(jù)倉庫,直接把業(yè)務(wù)數(shù)據(jù)拿來分析,可能會存在以下幾個問題:

  • 數(shù)據(jù)質(zhì)量問題:業(yè)務(wù)數(shù)據(jù)通常來自于不同的系統(tǒng)和部門,不同系統(tǒng)之間的數(shù)據(jù)格式、定義和標(biāo)準(zhǔn)可能不一致,數(shù)據(jù)質(zhì)量也可能存在問題。這樣的數(shù)據(jù)可能包含重復(fù)、缺失或不正確的數(shù)據(jù),這些問題會影響數(shù)據(jù)的準(zhǔn)確性。
  • 速度問題:業(yè)務(wù)數(shù)據(jù)通常以事務(wù)方式記錄在各自的系統(tǒng)中,隨著數(shù)據(jù)量的增加,數(shù)據(jù)查詢和處理速度可能會變慢。由于業(yè)務(wù)數(shù)據(jù)的數(shù)量龐大和多樣化,直接對其進(jìn)行數(shù)據(jù)分析可能導(dǎo)致數(shù)據(jù)查詢和處理的速度明顯降低。
  • 數(shù)據(jù)冗余問題:企業(yè)內(nèi)部的業(yè)務(wù)數(shù)據(jù)通常存在重復(fù)的情況。當(dāng)多個系統(tǒng)中存在相同的數(shù)據(jù)時(shí),如果不進(jìn)行整合和清洗,數(shù)據(jù)分析過程中可能會出現(xiàn)重復(fù)計(jì)算或不一致的數(shù)據(jù)結(jié)果。
  • 數(shù)據(jù)不一致問題:由于業(yè)務(wù)數(shù)據(jù)來自不同的系統(tǒng)和部門,數(shù)據(jù)之間可能存在不一致性。這個問題可能由于不同系統(tǒng)使用的數(shù)據(jù)格式和標(biāo)準(zhǔn)不同,也可能由于數(shù)據(jù)來源不同等因素導(dǎo)致。

1. 數(shù)據(jù)倉庫的數(shù)據(jù)從哪來

數(shù)據(jù)倉庫的數(shù)據(jù)來自企業(yè)內(nèi)部和外部的多個數(shù)據(jù)源。數(shù)據(jù)形式多種多樣,可能是Oracle、MySQL、SQL Server等關(guān)系數(shù)據(jù)庫里的結(jié)構(gòu)化數(shù)據(jù),可能是文本、CSV等平面文件或Word、Excel文檔中的數(shù)據(jù),還可能是HTML、XML等自描述的半結(jié)構(gòu)化數(shù)據(jù)。

這些業(yè)務(wù)數(shù)據(jù)經(jīng)過一系列的數(shù)據(jù)抽取、轉(zhuǎn)換、清洗,最終以一種統(tǒng)一的格式裝載進(jìn)數(shù)據(jù)倉庫。數(shù)據(jù)倉庫里的數(shù)據(jù)作為分析用的數(shù)據(jù)源,提供給后面的即席查詢、分析系統(tǒng)、數(shù)據(jù)集市、報(bào)表系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)等。

2. 數(shù)據(jù)倉庫的作用

  • 決策支持:數(shù)據(jù)倉庫采用了ETL(Extract,Transform,Load)過程,將來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成和轉(zhuǎn)化,獲得一致和綜合的視圖,使得企業(yè)決策者可以更好地理解和分析數(shù)據(jù)。通過數(shù)據(jù)倉庫,決策者可以獲取準(zhǔn)確、實(shí)時(shí)的信息,做出基于數(shù)據(jù)的明智決策,促進(jìn)企業(yè)的發(fā)展和競爭力提升。
  • 數(shù)據(jù)分析:數(shù)據(jù)倉庫為企業(yè)提供了豐富的數(shù)據(jù)分析功能和工具。通過對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行挖掘、統(tǒng)計(jì)分析和可視化,企業(yè)可以發(fā)現(xiàn)潛在的業(yè)務(wù)趨勢、關(guān)聯(lián)關(guān)系和異常情況。這些分析結(jié)果可以幫助企業(yè)發(fā)現(xiàn)業(yè)務(wù)機(jī)會、改進(jìn)業(yè)務(wù)流程、優(yōu)化資源配置等。
  • 數(shù)據(jù)整合:企業(yè)內(nèi)部通常有多個業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫,它們之間可能存在數(shù)據(jù)格式不一致、冗余數(shù)據(jù)和數(shù)據(jù)孤島的問題。數(shù)據(jù)倉庫通過數(shù)據(jù)整合和轉(zhuǎn)換的過程,將數(shù)據(jù)整合成統(tǒng)一的格式和模型,消除了冗余和不一致性。這樣做可以提高數(shù)據(jù)質(zhì)量,減少數(shù)據(jù)重復(fù)和冗余,提供一致性的數(shù)據(jù)源。
  • 歷史數(shù)據(jù)分析:數(shù)據(jù)倉庫通常存儲大量的歷史數(shù)據(jù),包括過去幾年的數(shù)據(jù)。這些歷史數(shù)據(jù)對于企業(yè)進(jìn)行趨勢分析、時(shí)間序列分析和比較分析非常有價(jià)值。通過分析歷史數(shù)據(jù),企業(yè)可以了解業(yè)務(wù)的發(fā)展軌跡、識別周期性變化和預(yù)測未來趨勢,幫助企業(yè)做出更具戰(zhàn)略性的決策。
  • 統(tǒng)一數(shù)據(jù)視圖:數(shù)據(jù)倉庫提供了一個統(tǒng)一的數(shù)據(jù)視圖,將企業(yè)各個部門的數(shù)據(jù)整合在一起。這樣,不同部門的用戶可以從同一個數(shù)據(jù)倉庫中獲取數(shù)據(jù),共享數(shù)據(jù)資源,避免了數(shù)據(jù)孤島和數(shù)據(jù)沖突的問題。同時(shí),統(tǒng)一的數(shù)據(jù)視圖也方便了數(shù)據(jù)分析和數(shù)據(jù)共享的需求。
  • 高性能查詢:數(shù)據(jù)倉庫通過數(shù)據(jù)建模、索引等技術(shù),提供了高性能的查詢功能。這使得用戶可以進(jìn)行復(fù)雜的分析查詢,對大規(guī)模數(shù)據(jù)進(jìn)行快速查詢和處理。數(shù)據(jù)倉庫的高性能查詢功能對于及時(shí)響應(yīng)用戶的查詢需求和分析需求非常重要。

三、數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別

數(shù)據(jù)庫是事務(wù)系統(tǒng)的數(shù)據(jù)平臺,數(shù)據(jù)倉庫是分析系統(tǒng)的數(shù)據(jù)平臺,它從事務(wù)系統(tǒng)獲取數(shù)據(jù),并做匯總,加工,為決策者提供決策依據(jù)。數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別實(shí)際上講的是聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)與聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)的區(qū)別。

OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。

四、數(shù)據(jù)倉庫與數(shù)據(jù)中臺的區(qū)別

數(shù)據(jù)倉庫和數(shù)據(jù)中臺是兩種不同的數(shù)據(jù)管理架構(gòu),都是為了支持企業(yè)數(shù)據(jù)管理和分析而設(shè)計(jì)的,具體的實(shí)現(xiàn)方式和架構(gòu)會根據(jù)不同組織的需求和情況有所不同。

五、數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)平臺、數(shù)據(jù)中臺

數(shù)據(jù)倉庫主要面向結(jié)構(gòu)化數(shù)據(jù)的整合和分析,數(shù)據(jù)湖主要面向原始數(shù)據(jù)的存儲和批量處理,數(shù)據(jù)平臺是一個綜合的數(shù)據(jù)管理和分析平臺,而數(shù)據(jù)中臺則是一個數(shù)據(jù)整合和標(biāo)準(zhǔn)化管理的中間層。它們在數(shù)據(jù)處理、存儲和分析的策略、技術(shù)和能力上有所區(qū)別。

  • 數(shù)據(jù)湖(Data Lake):數(shù)據(jù)湖是一個存儲大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的集合。與數(shù)據(jù)倉庫不同,數(shù)據(jù)湖不需要提前定義模型和架構(gòu)。數(shù)據(jù)湖將原始數(shù)據(jù)以其原始形式存儲,可以容納多種數(shù)據(jù)類型和格式。數(shù)據(jù)湖通常用于數(shù)據(jù)存儲和批量處理,支持?jǐn)?shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和高級分析。
  • 數(shù)據(jù)倉庫(Data Warehouse):數(shù)據(jù)倉庫是一個集中式的存儲系統(tǒng),用于導(dǎo)入、集成和管理結(jié)構(gòu)化數(shù)據(jù)。它以主題為導(dǎo)向,將數(shù)據(jù)從不同的源系統(tǒng)中提取、轉(zhuǎn)換和加載,以支持決策支持系統(tǒng)(DSS)和商業(yè)智能(BI)應(yīng)用程序。數(shù)據(jù)倉庫通常遵循預(yù)定義的數(shù)據(jù)模型和架構(gòu),進(jìn)行數(shù)據(jù)清洗、聚合和查詢優(yōu)化。
  • 數(shù)據(jù)平臺(Data Platform):數(shù)據(jù)平臺是一個綜合的數(shù)據(jù)管理和分析平臺,集成了數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集成、數(shù)據(jù)治理等功能。數(shù)據(jù)平臺旨在為企業(yè)提供一個全面的數(shù)據(jù)基礎(chǔ)設(shè)施,支持?jǐn)?shù)據(jù)的采集、存儲、處理和分析。數(shù)據(jù)平臺可以包括多個組件和技術(shù),如數(shù)據(jù)倉庫、數(shù)據(jù)湖、ETL工具、分析工具、可視化工具等。
  • 數(shù)據(jù)中臺(Data Middeleware):數(shù)據(jù)中臺是將企業(yè)內(nèi)外部數(shù)據(jù)進(jìn)行整合和統(tǒng)一管理的中間層。它提供了數(shù)據(jù)標(biāo)準(zhǔn)化、整合、共享和治理的能力,以滿足不同業(yè)務(wù)部門和應(yīng)用程序的數(shù)據(jù)需求。數(shù)據(jù)中臺可以支持企業(yè)內(nèi)外部的數(shù)據(jù)交換、數(shù)據(jù)集成和數(shù)據(jù)分發(fā),實(shí)現(xiàn)數(shù)據(jù)的互通互聯(lián)。

1. 數(shù)據(jù)湖與數(shù)據(jù)倉庫的聯(lián)系

  • 數(shù)據(jù)倉庫可以使用數(shù)據(jù)湖作為其底層存儲架構(gòu)。數(shù)據(jù)湖可以作為數(shù)據(jù)倉庫的數(shù)據(jù)源,提供原始的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
  • 數(shù)據(jù)倉庫可以從數(shù)據(jù)湖中提取數(shù)據(jù),并經(jīng)過清洗、加工、轉(zhuǎn)換等流程后,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中進(jìn)行存儲和分析。

數(shù)據(jù)倉庫 vs 數(shù)據(jù)湖 vs 湖倉一體

2. 數(shù)據(jù)平臺與數(shù)據(jù)倉庫的聯(lián)系

  • 數(shù)據(jù)平臺可以與數(shù)據(jù)倉庫集成,通過自動化操作和數(shù)據(jù)工程支持,將數(shù)據(jù)從數(shù)據(jù)倉庫中提取、轉(zhuǎn)換和加載,以支持實(shí)時(shí)數(shù)據(jù)分析和自助服務(wù)分析。
  • 數(shù)據(jù)平臺還可以為數(shù)據(jù)倉庫提供綜合數(shù)據(jù)服務(wù),包括數(shù)據(jù)整合、數(shù)據(jù)安全與隱私、數(shù)字化轉(zhuǎn)型等功能。

3. 數(shù)據(jù)平臺與數(shù)據(jù)中臺的聯(lián)系

  • 數(shù)據(jù)平臺是數(shù)據(jù)中臺的核心組成部分,為數(shù)據(jù)中臺提供了綜合的數(shù)據(jù)服務(wù)支持,包括數(shù)據(jù)整合、實(shí)時(shí)數(shù)據(jù)分析、自助服務(wù)分析、數(shù)據(jù)安全與隱私等。
  • 數(shù)據(jù)中臺利用數(shù)據(jù)平臺的功能,統(tǒng)一管理和治理數(shù)據(jù),標(biāo)準(zhǔn)化數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量,以支持?jǐn)?shù)據(jù)共享、數(shù)據(jù)交換、數(shù)據(jù)運(yùn)營和服務(wù)等需求。

4. 數(shù)據(jù)湖與數(shù)據(jù)中臺的聯(lián)系

  • 數(shù)據(jù)湖是數(shù)據(jù)中臺的重要組成部分,作為數(shù)據(jù)中臺的存儲層面基礎(chǔ),提供了存儲各種結(jié)構(gòu)化和非結(jié)構(gòu)化原始數(shù)據(jù)的能力。
  • 數(shù)據(jù)中臺使用數(shù)據(jù)湖作為數(shù)據(jù)源,通過數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)集市等手段,對數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行管理、分析、共享和交換。

六、總結(jié)

數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺在數(shù)據(jù)管理和分析領(lǐng)域發(fā)揮著重要作用。數(shù)據(jù)平臺適用于集成多個數(shù)據(jù)源和處理工具,實(shí)現(xiàn)高效的數(shù)據(jù)管理與分析;數(shù)據(jù)倉庫用于支持企業(yè)決策,提供一致整合且易理解的數(shù)據(jù);數(shù)據(jù)湖適用于存儲各種類型的原始數(shù)據(jù),具備靈活性和可擴(kuò)展性;數(shù)據(jù)中臺以標(biāo)準(zhǔn)化的接口、元數(shù)據(jù)和數(shù)據(jù)治理為基礎(chǔ),為企業(yè)內(nèi)外的各種應(yīng)用場景提供數(shù)據(jù)支持。

根據(jù)實(shí)際需求,可以選擇合適的數(shù)據(jù)管理工具和架構(gòu),并在不同方式之間進(jìn)行協(xié)同,以實(shí)現(xiàn)高效、可靠和靈活的數(shù)據(jù)管理與分析。

本文由 @數(shù)據(jù)產(chǎn)品探索家 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)授權(quán),禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 太棒了吧????

    來自寧夏 回復(fù)
  2. 寫的很專業(yè),估計(jì)是同行

    來自上海 回復(fù)
    1. 哈哈,多謝!正在摸索中,還有很多不懂的

      來自湖北 回復(fù)