談?wù)剶?shù)據(jù)治理是什么?
本人所在的公司正在進(jìn)行體系化的數(shù)據(jù)治理工作,結(jié)合自己的實際工作經(jīng)營和了解的數(shù)據(jù)治理相關(guān)信息,寫了這篇文章,這只代表我對數(shù)據(jù)治理的理解。
數(shù)據(jù)治理這項工作一直都是存在的,和數(shù)據(jù)庫設(shè)計的三范式一樣都是為了數(shù)據(jù)的管理。數(shù)據(jù)治理是一整套完整的組織、制度、技術(shù)管理行為。
我們可以將大數(shù)據(jù)治理定義:大數(shù)據(jù)治是廣義信息化治理計劃的一部分,即制定與大數(shù)據(jù)有關(guān)的管理優(yōu)化、數(shù)據(jù)保護(hù)、數(shù)據(jù)變現(xiàn)的政策。
它的發(fā)起背景多數(shù)是由于公司戰(zhàn)略政策和業(yè)務(wù)日益變大的數(shù)據(jù)需求和要求所產(chǎn)生的。我所在的公司,當(dāng)業(yè)務(wù)經(jīng)歷粗放式增長后,原有的模式已不能帶動業(yè)務(wù)的增長,需要通過數(shù)據(jù)手段賦能新的業(yè)務(wù)增長點。因此業(yè)務(wù)對數(shù)據(jù)提出了準(zhǔn)確性、及時性等要求,原有業(yè)務(wù)采集一個需求需要4天時間已經(jīng)不能滿足業(yè)務(wù),從而產(chǎn)生了數(shù)據(jù)治理項目的啟動。
說了數(shù)據(jù)治理產(chǎn)生的背景,我再來談下數(shù)據(jù)治理的對象。它包括數(shù)據(jù)、開發(fā)流程、管理流程、制度、組織。我認(rèn)為只要和目標(biāo)相關(guān)聯(lián)的,都可以算作治理的對象,數(shù)據(jù)治理就是將關(guān)聯(lián)方通過一套完整的管理行為,形成有序的工作以達(dá)成目標(biāo)。
數(shù)據(jù)治理框架:
下面主要是介紹范圍這塊:
數(shù)據(jù)治理項目的范圍
數(shù)據(jù)治理項目的范圍通常都會包含:組織建設(shè)、數(shù)據(jù)安全、數(shù)據(jù)開發(fā)、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理、數(shù)據(jù)價值等幾個模塊。當(dāng)然基于每家公司的數(shù)據(jù)治理的目標(biāo)不一樣,每家公司的數(shù)據(jù)治理實施關(guān)鍵路徑也會不一樣。我所在的公司數(shù)據(jù)治理的目標(biāo)是為方便業(yè)務(wù)快速掌握了解數(shù)據(jù)、公開透明數(shù)據(jù)資產(chǎn)的動態(tài),所以把數(shù)據(jù)價值、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量做為了實施關(guān)鍵路徑。
元數(shù)據(jù)管理
元數(shù)據(jù)從數(shù)據(jù)的角度可以分為三類:業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
- 業(yè)務(wù)元數(shù)據(jù)是從業(yè)務(wù)的視角去描述數(shù)據(jù),讓不懂?dāng)?shù)據(jù)的人可以快速讀懂?dāng)?shù)據(jù),例如:表名稱、表的血緣關(guān)系、表的字段說明、指標(biāo)的統(tǒng)計口徑等多種業(yè)務(wù)描述;
- 技術(shù)元數(shù)據(jù)自然就是從技術(shù)的角度去描述數(shù)據(jù),例如:表的sql、字段長度、字段類型等多種技術(shù)描述;
- 管理元數(shù)據(jù)是包含數(shù)據(jù)管理的信息在里面,例如:表的業(yè)務(wù)屬主、表的技術(shù)負(fù)責(zé)人。
元數(shù)據(jù)的管理通常包含:血緣分析、數(shù)據(jù)生命周期。
血緣分析:對元數(shù)據(jù)的上下游進(jìn)行分析,我的公司按照數(shù)據(jù)存儲的數(shù)據(jù)庫將血緣分析分為了兩類:
- 存在Hadoop平臺的血緣分析,可用通過腳本解析出到字段級的上下游關(guān)系;
- 建表有主外鍵的,可通過主外鍵建立血緣關(guān)系。
數(shù)據(jù)生命周期:數(shù)據(jù)都存在生命周期,當(dāng)元數(shù)據(jù)訪問量變低,數(shù)據(jù)價值不存在的時候,可將它下線清除,釋放存儲空間。
數(shù)據(jù)安全
數(shù)據(jù)安全主要是對數(shù)據(jù)的安全脫敏管控和安全檢查,脫敏機(jī)制有兩種方案:
1)在數(shù)據(jù)倉庫的接入和輸出進(jìn)行脫敏管控:數(shù)據(jù)接入識別敏感信息,通過脫敏工具進(jìn)行脫敏處理,產(chǎn)生脫敏表和敏感表兩張表(脫敏表與敏感表之間要有映射關(guān)系),敏感數(shù)據(jù)不對中間層開放,對于數(shù)倉中間層則只有脫敏表,開發(fā)和測試的時候也只能使用脫敏表,在數(shù)據(jù)輸出層,首先應(yīng)用層的開發(fā)先對敏感數(shù)據(jù)進(jìn)行申請,申請通過后得到敏感表的使用權(quán),開發(fā)通過映射關(guān)系將敏感表的脫敏數(shù)據(jù)進(jìn)行關(guān)聯(lián)處理。
這種方案的好處:安全易管控,脫敏過程少,但會增加開發(fā)的工作量。
2)針對用戶進(jìn)行脫敏管理,數(shù)據(jù)倉庫的每一層都需要對敏感數(shù)據(jù)進(jìn)行脫敏處理,對于敏感數(shù)據(jù)申請權(quán)限的用戶可以查看敏感信息,沒有權(quán)限的用戶只能查看脫敏表。這種脫敏機(jī)制好處在于對開發(fā)沒什么影響,但加大安全管理的復(fù)雜度,需要全域掃描敏感信息,脫敏工作大。
數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量的提升通常包含以下幾個方面:
1)數(shù)據(jù)質(zhì)量評估,提供數(shù)據(jù)質(zhì)量評估能力,如數(shù)據(jù)一致性、完整性、正確性、合規(guī)性、及時性等,對數(shù)據(jù)進(jìn)行全面檢查;
2)數(shù)據(jù)質(zhì)量檢查,提供可配置化的檢查規(guī)則,通過腳本定時調(diào)度執(zhí)行;
3)數(shù)據(jù)質(zhì)量監(jiān)控,提供報警規(guī)則,根據(jù)配置檢查規(guī)則的閥值,對超出閥值的進(jìn)行不同程級的告警和通知;
4)問題處理機(jī)制,對數(shù)據(jù)問題按照流程進(jìn)行處理,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提高數(shù)據(jù)質(zhì)量;
5)根據(jù)血緣關(guān)系和業(yè)務(wù)場景鎖定高價值數(shù)據(jù),進(jìn)行高安全級別管控,避免數(shù)據(jù)出錯。
數(shù)據(jù)價值
數(shù)據(jù)治理最重要的產(chǎn)出物,通過數(shù)據(jù)治理能為業(yè)務(wù)帶來的業(yè)務(wù)價值。如我所在的公司,數(shù)據(jù)價值體現(xiàn)在數(shù)據(jù)資產(chǎn)可視化。對于不同看數(shù)據(jù)角色定義不同的價值,對于數(shù)據(jù)業(yè)務(wù)分析人員,通過數(shù)據(jù)標(biāo)準(zhǔn)化管理和平臺搭建,讓不懂?dāng)?shù)據(jù)的業(yè)務(wù)能夠快速掌握數(shù)據(jù),并可以自己進(jìn)行數(shù)據(jù)挖掘、數(shù)據(jù)分析等工作。
對于高層領(lǐng)導(dǎo),將公司的業(yè)務(wù)數(shù)據(jù)以報告的形式,讓領(lǐng)導(dǎo)快速了解數(shù)據(jù)的成本及分布情況。當(dāng)然不同的公司側(cè)重的價值會不一樣,數(shù)據(jù)治理同時也能有效的控制數(shù)據(jù)成本,減少因為數(shù)據(jù)帶來的摩擦,提升數(shù)據(jù)質(zhì)量和安全。
數(shù)據(jù)開發(fā)
對數(shù)據(jù)開發(fā)進(jìn)行標(biāo)準(zhǔn)的流程管理是數(shù)據(jù)治理核心的一部分,首先根據(jù)公司實際情況分析、制定可落地的數(shù)據(jù)開發(fā)管理規(guī)范。過于復(fù)雜的數(shù)據(jù)開發(fā)規(guī)范維護(hù)成本高,同時也加重開發(fā)工作量,導(dǎo)致難以執(zhí)行。過于簡單的規(guī)范又無法很好的管理開發(fā)流程。最主要的還是定制完規(guī)范后拉各關(guān)聯(lián)方進(jìn)行評審,大家對可落地,可管理的角度是評估規(guī)范。
當(dāng)規(guī)范制定好后,就是按照規(guī)范進(jìn)行落地執(zhí)行。通常數(shù)據(jù)開發(fā)規(guī)范包含:數(shù)據(jù)建模、數(shù)據(jù)設(shè)計、數(shù)據(jù)項目部署和實施。
數(shù)據(jù)建模是一種分析和設(shè)計方法,用于:
- 定義和分析數(shù)據(jù)需求;
- 設(shè)計滿足需求的數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)設(shè)計是做表的關(guān)聯(lián)影響分析,數(shù)據(jù)上游于哪些表, 根據(jù)數(shù)據(jù)開發(fā)規(guī)范對表的命名和結(jié)構(gòu)進(jìn)行設(shè)計。數(shù)據(jù)項目部署和實施主要是發(fā)布管理,就不做解釋了。
組織建設(shè)
數(shù)據(jù)組織是保障數(shù)據(jù)治理能夠長期有效的重要手段之一,通常數(shù)據(jù)組織都是可以跨職責(zé)的,組織的職能和分類如下:
1)數(shù)據(jù)治理委員會,在公司內(nèi)部擁有數(shù)據(jù)的最高決策權(quán),代表了企業(yè)的高層視角
2)數(shù)據(jù)管理指導(dǎo)委員會,為數(shù)據(jù)委員會提供支持,針對一些具體數(shù)據(jù)管理措施起草相關(guān)政策和標(biāo)準(zhǔn),提供委員會評審和批準(zhǔn)
3)數(shù)據(jù)管理制度團(tuán)隊,在某個業(yè)務(wù)領(lǐng)域內(nèi),協(xié)助完成數(shù)據(jù)制度管理的數(shù)據(jù)管理專員小組,數(shù)據(jù)管理制度團(tuán)隊來著不同的部門和跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)專家
下面這張圖摘至于《數(shù)據(jù)治理體系》-管理組織:
本文由 @木子姐 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
數(shù)據(jù)質(zhì)量:基于場景的規(guī)則類型確定,搭建數(shù)據(jù)規(guī)則,從任務(wù)創(chuàng)建,規(guī)則配置再到調(diào)度配置進(jìn)行數(shù)據(jù)質(zhì)量管理,確認(rèn)數(shù)據(jù)質(zhì)量的評分等級;
元數(shù)據(jù)管理:描述數(shù)據(jù)的數(shù)據(jù),搭建數(shù)據(jù)源管理和采集任務(wù)管理,采集數(shù)據(jù)信息,其中包括數(shù)據(jù)源信息,數(shù)據(jù)庫信息,分區(qū)信息,變更信息,調(diào)度信息,血緣信息,字段信息等等進(jìn)行數(shù)據(jù)的治理,這是一個作用,另外一個是通過業(yè)務(wù)屬性,技術(shù)屬性,管理屬性建立數(shù)據(jù)標(biāo)準(zhǔn)對接數(shù)倉進(jìn)行依標(biāo)建表;
數(shù)據(jù)安全;對表進(jìn)行分類,部位維度,角色維度登進(jìn)行配置,可以按照表維度和角色維度進(jìn)行配置,也可以申請表的權(quán)限進(jìn)行審批,收回;
數(shù)據(jù)價值:數(shù)據(jù)是賦能業(yè)務(wù)的,價值的考慮如果是電商精細(xì)化運(yùn)營,包括指標(biāo),標(biāo)簽等進(jìn)行衡量
前輩是否同意這些觀點
mark
您好,想向您申請授權(quán)轉(zhuǎn)載這篇文章到公眾號~
可以呀