數(shù)據(jù)中臺(tái):怎樣評(píng)價(jià)數(shù)據(jù)資產(chǎn)的健康度?

8 評(píng)論 9018 瀏覽 67 收藏 11 分鐘

編輯導(dǎo)語(yǔ):作為數(shù)據(jù)中臺(tái)能力的根基,對(duì)數(shù)據(jù)資產(chǎn)的管理則必然提至中臺(tái)建設(shè)日程當(dāng)中。那么,數(shù)據(jù)資產(chǎn)管理過(guò)程中可能會(huì)出現(xiàn)什么問(wèn)題?數(shù)據(jù)資產(chǎn)健康管理又可以從哪些方面入手呢?本篇文章里,作者就數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)資產(chǎn)健康度評(píng)價(jià)方面的問(wèn)題做了總結(jié),一起來(lái)看一下。

數(shù)據(jù)資產(chǎn)是數(shù)據(jù)中臺(tái)能力的根基,數(shù)據(jù)資產(chǎn)的健康度直接關(guān)系到中臺(tái)建設(shè)的成敗。那么在數(shù)據(jù)中臺(tái)建設(shè)過(guò)程中究竟該如何評(píng)價(jià)數(shù)據(jù)資產(chǎn)建設(shè)及管理的情況呢?

一、數(shù)據(jù)資產(chǎn)管理過(guò)程常見(jiàn)問(wèn)題

規(guī)范不統(tǒng)一,不同業(yè)務(wù)部門(mén)、不同開(kāi)發(fā)人員發(fā)現(xiàn)習(xí)慣及意識(shí)不同,缺少統(tǒng)一的資產(chǎn)建設(shè)規(guī)范管控時(shí),會(huì)帶來(lái)命名不規(guī)范、建模不標(biāo)準(zhǔn)等問(wèn)題。

數(shù)據(jù)復(fù)用低,元數(shù)據(jù)信息缺失、數(shù)據(jù)權(quán)限申請(qǐng)及審批流程斷層、缺少高效易用的數(shù)據(jù)地圖檢索工具等會(huì)帶來(lái)數(shù)倉(cāng)人員開(kāi)發(fā)了很多模型,但是業(yè)務(wù)并不知曉,重復(fù)造輪子。

考核難量化,對(duì)于數(shù)倉(cāng)開(kāi)發(fā)人員的績(jī)效該如何量化評(píng)估呢?開(kāi)發(fā)的模型數(shù)量?Bug數(shù)?還是數(shù)據(jù)質(zhì)量問(wèn)題的次數(shù)?

上傳不下達(dá),管理層及數(shù)據(jù)管理者希望不斷降低數(shù)據(jù)的存儲(chǔ)及計(jì)算成本,但由于成本核算粒度粗,無(wú)法將成本追溯到個(gè)人開(kāi)發(fā)者。對(duì)于一線開(kāi)發(fā)同學(xué)來(lái)說(shuō),短期內(nèi)只要能最快完成業(yè)務(wù)需求即可,不會(huì)過(guò)多關(guān)注成本問(wèn)題。對(duì)于低效高耗任務(wù)、冷數(shù)據(jù)缺乏主動(dòng)治理意識(shí)。

二、數(shù)據(jù)資產(chǎn)健康度評(píng)價(jià)維度

1. 規(guī)范性

庫(kù)名、表名、指標(biāo)及字段名是否符合約定的規(guī)范,例如:數(shù)倉(cāng)分層、業(yè)務(wù)線、數(shù)據(jù)域、業(yè)務(wù)過(guò)程的組合,形成可以通過(guò)名稱(chēng)識(shí)別出數(shù)據(jù)的基本內(nèi)容,而不是隨心所欲的中英文混合、縮寫(xiě),只有熟悉的人才可以知道表是干什么用的。

資產(chǎn)建設(shè)過(guò)程中,可以將集團(tuán)或者數(shù)據(jù)部門(mén)的規(guī)范抽象、集成到ETL過(guò)程,在系統(tǒng)層面做攔截,事前監(jiān)測(cè)不規(guī)范的數(shù)據(jù)開(kāi)發(fā)過(guò)程??梢詤⒖及⒗锏膁ataphin。

2. 豐富性

元數(shù)據(jù)覆蓋度,包括資產(chǎn)技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)等信息,元數(shù)據(jù)越完善,才能為使用者提供更準(zhǔn)確的決策依據(jù),減少溝通成本,提升數(shù)據(jù)復(fù)用度。

例如,表的責(zé)任人、業(yè)務(wù)描述信息、主題、層級(jí)、標(biāo)簽豐富度,字段說(shuō)明及加工邏輯使用文檔。技術(shù)元數(shù)據(jù)主要以數(shù)據(jù)開(kāi)發(fā)人員使用為主,例如存儲(chǔ)大小、小文件數(shù)量、使用熱度(近X天使用人次)。

除系統(tǒng)可以自動(dòng)獲取的外,其他相關(guān)元數(shù)據(jù)需要數(shù)據(jù)開(kāi)發(fā)人員進(jìn)行常態(tài)化的維護(hù)和更新。

3. 完善度

數(shù)倉(cāng)模型對(duì)業(yè)務(wù)的支撐和覆蓋情況,完善度越高的數(shù)倉(cāng)體系,業(yè)務(wù)獲取和使用數(shù)據(jù)的成本就越低。即當(dāng)業(yè)務(wù)需要數(shù)據(jù)時(shí),已經(jīng)相應(yīng)的模型在哪里等著使用了,而不是再去對(duì)接業(yè)務(wù)溝通需求,排期開(kāi)發(fā)。

例如當(dāng)管理者問(wèn)數(shù)倉(cāng)負(fù)責(zé)人,你們天天搞數(shù)倉(cāng)建設(shè),現(xiàn)在到底建設(shè)到什么程度了呢?有了完善度評(píng)價(jià)標(biāo)準(zhǔn),可以量化數(shù)倉(cāng)建設(shè)成熟度。一般來(lái)說(shuō),典型的數(shù)倉(cāng)體系架構(gòu)如下:

通過(guò)數(shù)據(jù)血緣及查詢(xún)?nèi)罩荆梢詫?duì)數(shù)據(jù)加工任務(wù)以及Adhoc查詢(xún)進(jìn)行統(tǒng)計(jì)分析。

例如,在數(shù)據(jù)查詢(xún)中,直接查詢(xún)ODS的任務(wù)占比,占比越高說(shuō)明有大量任務(wù)基于原始數(shù)據(jù)加工,中間模型DWD、DWT、DWA復(fù)用性很差。在技術(shù)上,直接查詢(xún)底層表,查詢(xún)掃描的數(shù)據(jù)量會(huì)越大,查詢(xún)時(shí)間會(huì)越長(zhǎng),查詢(xún)的資源消耗也越大,使用數(shù)據(jù)的人滿(mǎn)意度會(huì)低??梢钥鐚右寐蕘?lái)衡量支持完善度。

DWD層:看 ODS層有多少表被DWT/DWA/APP 層引用,占所有活躍的ODS 層表比例。

DWT/DWA/APP層完善度:主要看匯總數(shù)據(jù)能直接滿(mǎn)足多少查詢(xún)需求,也就是用匯總層數(shù)據(jù)的查詢(xún)比例,如果匯總數(shù)據(jù)無(wú)法滿(mǎn)足需求,使用數(shù)據(jù)的人就必須使用明細(xì)數(shù)據(jù),甚至是原始數(shù)據(jù)。

匯總數(shù)據(jù)查詢(xún)比例:DWT/DWA/APP層的查詢(xún)占所有查詢(xún)的比例。

跨層引用率越低越好,在數(shù)據(jù)中臺(tái)模型設(shè)計(jì)規(guī)范中,一般不允許出現(xiàn)跨層引用,例如ODS層數(shù)據(jù)只能被 DWD引用。

4. 復(fù)用度

復(fù)用度顧名思義,資產(chǎn)建設(shè)完成后,被不同業(yè)務(wù)或用戶(hù)復(fù)用的情況,復(fù)用才會(huì)減少重復(fù)開(kāi)。

可以用引用系數(shù)作為數(shù)據(jù)中臺(tái)資產(chǎn)復(fù)用度評(píng)價(jià)指標(biāo)。引用系數(shù)越高,說(shuō)明復(fù)用性越好。

引用系數(shù):數(shù)據(jù)表被讀取,產(chǎn)出下游模型的平均數(shù)量。例如一張DWD 層表被8張 DWS層表引用,這個(gè)表的引用系數(shù)就是8,把擁有下游的DWD 層表(有下游表的)引用系數(shù)取平均值,則為DWD 層的平均引用系數(shù)。

5. 數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的原因包括開(kāi)發(fā)質(zhì)量問(wèn)題、集群穩(wěn)定性、以及業(yè)務(wù)變更等多種問(wèn)題,對(duì)于難以掌控的外部因素,只能是早發(fā)現(xiàn)早修復(fù),數(shù)據(jù)資產(chǎn)的評(píng)價(jià)維度主要是監(jiān)控體系的覆蓋度、監(jiān)控報(bào)警的處理率以及平均處理時(shí)長(zhǎng)。

6. 成本優(yōu)化維度

數(shù)據(jù)成本的管控需要建立自上而下的成本分?jǐn)偱c評(píng)價(jià)體系,才能自下而上形成主動(dòng)治理、優(yōu)化的意識(shí)。例如考核每個(gè)數(shù)據(jù)開(kāi)發(fā)人員待治理的任務(wù)數(shù)量以及治理成效。

在成本優(yōu)化中,最常關(guān)注的包括:資產(chǎn)存儲(chǔ)、計(jì)算耗時(shí)/資源情況折算成成本。產(chǎn)生的小文件合并問(wèn)題、冷熱數(shù)據(jù)分級(jí)及歸檔、HDFS路徑治理等。

7. 數(shù)據(jù)安全

隨著數(shù)據(jù)安全法以及個(gè)人信息保護(hù)法相繼生效,手機(jī)號(hào)、身份證等絕密信息進(jìn)入集群后是嚴(yán)禁明文傳輸?shù)?。?shù)據(jù)開(kāi)發(fā)在數(shù)據(jù)工作是否做到了對(duì)所有敏感信息的加密脫敏處理,也是資產(chǎn)健康度的評(píng)價(jià)維度之一。

三、資產(chǎn)健康分的計(jì)算邏輯及應(yīng)用

健康分價(jià)值:從數(shù)倉(cāng)總體到組織部門(mén)以及一線的數(shù)據(jù)開(kāi)發(fā)者,形成統(tǒng)一的量化標(biāo)準(zhǔn),客觀評(píng)價(jià)資產(chǎn)建設(shè)工作。對(duì)于最最細(xì)粒度度的單個(gè)模型,可以直觀展示模型健康度,責(zé)任到人,形成自上而下的考核以及自下而上的管理、治理動(dòng)作。

健康分的計(jì)算邏輯:根據(jù)企業(yè)自身關(guān)注的重點(diǎn),多方討論確認(rèn)評(píng)價(jià)指標(biāo)以及權(quán)重系數(shù)。從單個(gè)表的健康分,匯總到個(gè)人數(shù)據(jù)開(kāi)發(fā)者,以及數(shù)據(jù)團(tuán)隊(duì)的健康分。評(píng)價(jià)指標(biāo)可以從前面章節(jié)中的七大維度進(jìn)行篩選,主要可以包括:

  • 建設(shè)規(guī)范度:不符合建表或命名規(guī)范;
  • 信息豐富度:元數(shù)據(jù)是否缺失,字段描述100%覆蓋,主題、標(biāo)簽是否缺失等;
  • 完善度:跨層引用比例;
  • 復(fù)用度:模型引用系數(shù);
  • 數(shù)據(jù)質(zhì)量:監(jiān)控覆蓋度、平均異常次數(shù)(延遲、數(shù)據(jù)錯(cuò)誤)、平均處理時(shí)長(zhǎng);
  • 成本優(yōu)化:存儲(chǔ)成本、計(jì)算成本、近X天使用情況、小文件數(shù)量;
  • 數(shù)據(jù)安全:是否存在敏感字段未脫敏。

四、基于健康分的資產(chǎn)管理工作臺(tái)

除了數(shù)據(jù)工作者主動(dòng)治理和規(guī)范的意識(shí)外,很多時(shí)候是缺少有效的工具。將資產(chǎn)健康分以及治理動(dòng)作進(jìn)行可視化展示,為數(shù)據(jù)工作者提供一站式工作臺(tái),不僅可以讓大家養(yǎng)成規(guī)范化、周期性治理的習(xí)慣,也可以形成上下一致的資產(chǎn)管理及治理標(biāo)準(zhǔn)。

工作臺(tái)產(chǎn)品設(shè)計(jì)中的核心原則:客觀評(píng)估現(xiàn)狀,給出原因及可執(zhí)行的動(dòng)作,量化治理效果。即:每天上班打開(kāi)工作臺(tái),知道自己數(shù)倉(cāng)工作目前的定位及問(wèn)題,如何去優(yōu)化改善,做了一系列的動(dòng)作后,效果如何了。

五、小結(jié)

利用資產(chǎn)健康分,量化資產(chǎn)建設(shè)及管理效果,可以做到自上而下的上傳下達(dá)管理,也可以為一線數(shù)據(jù)工作者提供追蹤、可執(zhí)行的行動(dòng)指南,相比較過(guò)去以統(tǒng)計(jì)為主的資產(chǎn)“大盤(pán)”,資產(chǎn)健康分可以更精細(xì)化地指導(dǎo)數(shù)據(jù)資產(chǎn)管理及治理工作。

#專(zhuān)欄作家#

數(shù)據(jù)干飯人,微信號(hào)公眾號(hào):數(shù)據(jù)干飯人,人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。專(zhuān)注數(shù)據(jù)中臺(tái)產(chǎn)品領(lǐng)域,覆蓋開(kāi)發(fā)套件,數(shù)據(jù)資產(chǎn)與數(shù)據(jù)治理,BI與數(shù)據(jù)可視化,精準(zhǔn)營(yíng)銷(xiāo)平臺(tái)等數(shù)據(jù)產(chǎn)品。擅長(zhǎng)大數(shù)據(jù)解決方案規(guī)劃與產(chǎn)品方案設(shè)計(jì)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 不經(jīng)意間,發(fā)了一篇評(píng)論率最高的文章哈哈!
    歡迎大家關(guān)注微信公眾號(hào):數(shù)據(jù)干飯人,一起交流數(shù)據(jù)產(chǎn)品、數(shù)據(jù)中臺(tái)相關(guān)內(nèi)容

    來(lái)自江蘇 回復(fù)
    1. 辛苦了

      回復(fù)
  2. 數(shù)據(jù)資產(chǎn)是數(shù)據(jù)中臺(tái)能力的根基,數(shù)據(jù)資產(chǎn)的健康度直接關(guān)系到中臺(tái)建設(shè)的成敗。

    來(lái)自湖北 回復(fù)
  3. 雖然看不太懂,但感覺(jué)很有深度,去我的收藏夾吃灰吧

    來(lái)自江西 回復(fù)
  4. 文中的“資產(chǎn)健康分可以更精細(xì)化地指導(dǎo)數(shù)據(jù)資產(chǎn)管理及治理工作?!敝档糜涗?/p>

    來(lái)自江西 回復(fù)
  5. 雖然不涉及平時(shí)的工作,但增加了知識(shí)面,很高大上的新知識(shí)。努力看懂

    來(lái)自北京 回復(fù)
  6. “數(shù)據(jù)資產(chǎn)健康度”一個(gè)新學(xué)的名詞,聽(tīng)起來(lái)很有深度哈哈哈

    來(lái)自江西 回復(fù)
    1. 隨著企業(yè)數(shù)據(jù)化的不斷深入,數(shù)據(jù)治理會(huì)成為數(shù)據(jù)資產(chǎn)工作的重要內(nèi)容

      來(lái)自江蘇 回復(fù)