避免“數(shù)據(jù)湖”成為“數(shù)據(jù)沼澤”,流動(dòng)的“數(shù)據(jù)河”是關(guān)鍵
數(shù)據(jù)只有流動(dòng)起來(lái)才可以產(chǎn)生價(jià)值,基于IOTA架構(gòu)的數(shù)據(jù)河與數(shù)據(jù)湖組建企業(yè)內(nèi)部的可流動(dòng)的大數(shù)據(jù)水系,用數(shù)據(jù)驅(qū)動(dòng)整個(gè)企業(yè)精益成長(zhǎng)。
數(shù)據(jù)湖(Data Lake)在Wiki中定義如下:
簡(jiǎn)而言之,數(shù)據(jù)湖是按存儲(chǔ)原始數(shù)據(jù)格式的數(shù)據(jù)存儲(chǔ),旨在任何數(shù)據(jù)可以以最原始的形態(tài)儲(chǔ)存,可是結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),以確保數(shù)據(jù)在使用時(shí)可以不丟失任何細(xì)節(jié)。一般以Hadoop系統(tǒng)存儲(chǔ)為比較典型的解決方案,所有的實(shí)時(shí)數(shù)據(jù)和批量數(shù)據(jù),都匯總到數(shù)據(jù)湖當(dāng)中,然后從湖中取相關(guān)數(shù)據(jù)用于機(jī)器學(xué)習(xí)或者數(shù)據(jù)分析。
數(shù)據(jù)湖的概念被企業(yè)中廣泛用于大數(shù)據(jù)平臺(tái)的存儲(chǔ)與使用,替代了原有數(shù)據(jù)倉(cāng)庫(kù)體系當(dāng)中的ODS(operational data store)存儲(chǔ)企業(yè)中各種各樣的數(shù)據(jù)。在易觀,SDK的月活達(dá)到5.9億,當(dāng)易觀的數(shù)據(jù)湖達(dá)到6.8Pb都無(wú)法存儲(chǔ)半年數(shù)據(jù)的時(shí)候,我意識(shí)到這個(gè)問(wèn)題:“這樣真的是對(duì)的么?數(shù)據(jù)一味的堆積,等待被使用時(shí)才調(diào)用? ”
企業(yè)的業(yè)務(wù)是實(shí)時(shí)在變化的,這代表著沉積在數(shù)據(jù)湖中的數(shù)據(jù)定義、數(shù)據(jù)格式實(shí)時(shí)都在發(fā)生的轉(zhuǎn)變,企業(yè)的大型數(shù)據(jù)湖對(duì)企業(yè)數(shù)據(jù)治理(Data Governance)提升了更高的要求。大部分使用數(shù)據(jù)湖的企業(yè)在數(shù)據(jù)真的需要使用的時(shí)候,往往因?yàn)閿?shù)據(jù)湖中的數(shù)據(jù)質(zhì)量太差而無(wú)法最終使用。
數(shù)據(jù)湖,被企業(yè)當(dāng)成一個(gè)大數(shù)據(jù)的垃圾桶,最終數(shù)據(jù)湖成為臭氣熏天,存儲(chǔ)在Hadoop當(dāng)中的數(shù)據(jù)成為無(wú)人可以清理的數(shù)據(jù)沼澤,最終以為T(mén)CO(Total cost of ownship)過(guò)高而被企業(yè)所拋棄。
這個(gè)時(shí)候我意識(shí)到:“大數(shù)據(jù),不被有效使用就會(huì)成為大垃圾?!?/strong>
如何讓大數(shù)據(jù)的水保持清亮不會(huì)成為數(shù)據(jù)沼澤?
中國(guó)有句諺語(yǔ):
“流水不腐,戶(hù)樞不蠹”。
數(shù)據(jù)只有流動(dòng)起來(lái),才可以不成為數(shù)據(jù)沼澤,湖泊只是暫存數(shù)據(jù)河流的基地。數(shù)據(jù)流動(dòng)就意味著所有的數(shù)據(jù)產(chǎn)生,最終要有它的耕種者和使用者。要讓數(shù)據(jù)有效流動(dòng)起來(lái),就要建立有效的“數(shù)據(jù)河”(Data River)。
什么是數(shù)據(jù)河?
數(shù)據(jù)河(Data River)就是在由源頭產(chǎn)生清晰干凈的有效數(shù)據(jù)(去ETL化,數(shù)據(jù)源頭業(yè)務(wù)就像生態(tài)水源一樣,不讓污水流下去),通過(guò)各個(gè)河流網(wǎng),流向各個(gè)數(shù)據(jù)消費(fèi)端的架構(gòu)。
數(shù)據(jù)河的特點(diǎn)如下:
- 源頭有效:根據(jù)大數(shù)據(jù)IOTA架構(gòu),數(shù)據(jù)河在產(chǎn)生的源頭就需要加工為有效的CDM數(shù)據(jù)(Common Data Model),參見(jiàn)文章《Lambda架構(gòu)已死,去ETL化的IOTA才是未來(lái)》,數(shù)據(jù)通過(guò)數(shù)據(jù)耕種方和使用方直接在數(shù)據(jù)產(chǎn)生源頭通過(guò)Edge SDK?進(jìn)行清洗。
- 全局唯一:多條數(shù)據(jù)河的差別在于CDM模型的不同,而不是使用者的使用方法不同,避免同樣數(shù)據(jù)源被多次加工失去數(shù)據(jù)唯一性。
- 高低流向:數(shù)據(jù)河一定是要有高低流向,即每條河流都需要有確定的使用者,而不是漫無(wú)目的的洪水,數(shù)據(jù)源頭的質(zhì)量是通過(guò)環(huán)境治理由使用者定義的,而不是由產(chǎn)生者,產(chǎn)生者只關(guān)注數(shù)據(jù)是真實(shí)即可。
- 湖中暫存:數(shù)據(jù)河一定是基于IOTA架構(gòu)的實(shí)時(shí)數(shù)據(jù),在CDM模型的支持下,實(shí)時(shí)流向使用者。數(shù)據(jù)河在數(shù)據(jù)湖中只是暫存,一定會(huì)流向其他河流和分支,而不會(huì)沉積在數(shù)據(jù)湖中,否則會(huì)產(chǎn)生數(shù)據(jù)淤泥,最終成為數(shù)據(jù)沼澤。
最終一個(gè)企業(yè)內(nèi)部由多條河流組成一個(gè)公司內(nèi)部的數(shù)據(jù)生態(tài)(Enterprise Data Eco System?):
- 數(shù)據(jù)源頭(Data Source):數(shù)據(jù)產(chǎn)生者,確保產(chǎn)生的數(shù)據(jù)都是真實(shí)數(shù)據(jù),像冰川雪水一樣確保數(shù)據(jù)真實(shí)性。通過(guò)邊緣計(jì)算,變?yōu)镮OTA架構(gòu)當(dāng)中的CDM模型,確保CDM全局唯一,不用管數(shù)據(jù)業(yè)務(wù)統(tǒng)計(jì)的計(jì)算邏輯。
- 數(shù)據(jù)河(Data River):有全局CDM模型唯一定義的,由數(shù)據(jù)源頭流向數(shù)據(jù)消費(fèi)者的數(shù)據(jù)架構(gòu),可以使用大數(shù)據(jù)IOTA架構(gòu)或者其他類(lèi)似的去實(shí)時(shí)數(shù)據(jù)處理架構(gòu)。
- 數(shù)據(jù)消費(fèi)者(Data Cosumer):數(shù)據(jù)消費(fèi)方,拿到原始真實(shí)的數(shù)據(jù),根據(jù)自己的業(yè)務(wù)邏輯,實(shí)時(shí)計(jì)算為自己所需要的結(jié)果或者根據(jù)數(shù)據(jù)實(shí)時(shí)驅(qū)動(dòng)自己的業(yè)務(wù)。
- 數(shù)據(jù)三角洲(Data Delta):多條數(shù)據(jù)河交匯使用的地方,需要數(shù)據(jù)耕種者(Data Cultivators)把兩個(gè)不同的CDM模型(例如:用戶(hù)行為數(shù)據(jù)的CDM與商品庫(kù)存數(shù)據(jù)的CDM),實(shí)時(shí)合并,提供給數(shù)據(jù)消費(fèi)者實(shí)時(shí)驅(qū)動(dòng)自己的業(yè)務(wù)。一般,三角洲的河流交匯越多,這個(gè)三角洲的土壤更加肥沃。數(shù)據(jù)三角洲的耕種,可以通過(guò)AI或者機(jī)器學(xué)習(xí)會(huì)產(chǎn)生新的數(shù)據(jù)源,在新的CDM模型和使用者的支撐下可以是新的數(shù)據(jù)源頭(Data Source)。
- 數(shù)據(jù)湖(Data Lake):在河流交匯或者河水需要暫存下來(lái)的時(shí)候,這是根據(jù)數(shù)據(jù)耕種者的需要,其中的數(shù)據(jù)一定是要繼續(xù)流動(dòng)的,而不是死水,即數(shù)據(jù)在數(shù)據(jù)湖中暫存時(shí)間是有限的,例如:3個(gè)月或者6個(gè)月,最終在數(shù)據(jù)消費(fèi)者這里才是永久保留。
這個(gè)模式比較典型的一個(gè)實(shí)現(xiàn)就是易觀方舟,易觀方舟以IOTA架構(gòu)安裝到企業(yè)內(nèi)部,幫助企業(yè)建立用戶(hù)行為分析這個(gè)CDM的數(shù)據(jù)河,以“主、謂、賓”的模式打通企業(yè)內(nèi)部用戶(hù)的各種行為,直接提供給產(chǎn)品和運(yùn)營(yíng)做相關(guān)的數(shù)據(jù)分析,同時(shí)也是一個(gè)PaaS平臺(tái),可以供給給其他數(shù)據(jù)耕種者繼續(xù)再次加工。
數(shù)據(jù)河是數(shù)據(jù)驅(qū)動(dòng)中臺(tái)的最終架構(gòu),只有讓數(shù)據(jù)流動(dòng)起來(lái)不斷消費(fèi)才可以讓數(shù)據(jù)不斷的自我更新迭代數(shù)據(jù)質(zhì)量,不斷自我加強(qiáng)才可以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。
數(shù)據(jù),只有流動(dòng)起來(lái)才可以產(chǎn)生價(jià)值。寧要IOTA架構(gòu)下的數(shù)據(jù)河,不要Lambda架構(gòu)下的數(shù)據(jù)湖。
本文由@Analysys易觀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理 。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
不明覺(jué)厲qwq