解密OneEntity體系

0 評(píng)論 2775 瀏覽 1 收藏 10 分鐘

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價(jià)值,阿里設(shè)計(jì)了OneEntity,來提供全域數(shù)據(jù)與服務(wù)。本文作者分析了創(chuàng)造OneEntity的原因和價(jià)值,解析了OneEntity體系。

前幾篇你跟草帽小子一起了解了阿里數(shù)據(jù)中臺(tái)的建設(shè)計(jì)劃,接下來我們一起來解密OneEntity體系。

一、數(shù)據(jù)孤島

阿里巴巴作為一家包含多條業(yè)務(wù)線的公司,如電商、金融、廣告、文化、教育、娛樂、設(shè)備和社交等領(lǐng)域,數(shù)據(jù)區(qū)域包含國內(nèi)、國外;數(shù)據(jù)場景包含線上的人貨場錢、線下的人貨場錢位置等數(shù)據(jù),以及物流、用餐、咨詢、影視、出行、閱讀、音樂和健康等相關(guān)數(shù)據(jù)。

僅是與人相關(guān)的數(shù)據(jù)就包含業(yè)務(wù)賬號(hào)信息、PC cookie、無線IMEI與IDFA等設(shè)備標(biāo)志、身份屬性等。

而隨著人們互聯(lián)網(wǎng)行為的多樣化,如果每天都有數(shù)千億條實(shí)體數(shù)據(jù)產(chǎn)生,而這些數(shù)據(jù)都分屬于不同業(yè)務(wù)單元,那么數(shù)據(jù)就很容易孤立。

阿里巴巴云上數(shù)據(jù)中臺(tái)之道04——解密OneEntity體系

草帽小子思考:以前總是不理解數(shù)據(jù)孤島這一部分,明明已經(jīng)建立了onedata體系,做好了各業(yè)務(wù)線數(shù)據(jù)接入,ODS層數(shù)據(jù)全面接管,明明數(shù)據(jù)都匯總到了一塊,為何還說數(shù)據(jù)孤島呢?

直到真正開始做用戶畫像這一工作才發(fā)現(xiàn),底層的指標(biāo)體系往往是直接面向各個(gè)業(yè)務(wù)線內(nèi),缺乏一個(gè)業(yè)務(wù)線間的關(guān)聯(lián),這是由業(yè)務(wù)局限性導(dǎo)致的。比如說,你是淘寶的運(yùn)營人員,那你會(huì)關(guān)注釘釘?shù)闹笜?biāo)體系是怎樣的嗎?

答案是顯然不會(huì)。

那這樣就產(chǎn)生了數(shù)據(jù)的斷層,單是從底層的指標(biāo)層,用戶在釘釘?shù)男袨榱?xí)慣,淘寶的人員是無法獲知的。那如果我作為淘寶的人員,既想知道他在淘寶上購物行為,也想知道他在釘釘、支付寶、優(yōu)酷等地方的行為習(xí)慣,又該從何得知呢?

二、數(shù)據(jù)只有融通才能真正產(chǎn)生價(jià)值

為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價(jià)值,阿里設(shè)計(jì)了OneEntity來提供全域數(shù)據(jù)與服務(wù)。OneEntity體系主要包含統(tǒng)一實(shí)體、全域標(biāo)簽、全域關(guān)系、全域行為4大類。

阿里巴巴云上數(shù)據(jù)中臺(tái)之道04——解密OneEntity體系

1. OneEntity統(tǒng)一實(shí)體

將若干個(gè)實(shí)體歸攏到一起,并命名為OneEntity,可分為一般質(zhì)量、高質(zhì)量、高價(jià)值OneEntity。

2. GProfile全域標(biāo)簽

基于歸攏后的數(shù)據(jù)對(duì)OneEntity進(jìn)行貼標(biāo)簽的操作。在OneEntity體系中,如何為OneEntity貼上標(biāo)簽并找出高質(zhì)量、高價(jià)值的OneEntity是最常見的問題。

這幾離不開標(biāo)簽的萃取能力,那阿里是怎么萃取標(biāo)簽的呢?

阿里巴巴云上數(shù)據(jù)中臺(tái)之道04——解密OneEntity體系

(1)有效

一方面,主動(dòng)去找人口學(xué)、社會(huì)學(xué)等學(xué)科的教授,學(xué)習(xí)與“人”相關(guān)的理論知識(shí);

另一方面,調(diào)研了很多業(yè)界的標(biāo)簽分類體系,取長補(bǔ)短。

最終,將“人”的立體刻畫劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:

人的核心屬性,可分為自然屬性、社會(huì)屬性。

  • 自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會(huì)因人為因素發(fā)生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。
  • 社會(huì)屬性:指人在實(shí)踐活動(dòng)基礎(chǔ)上產(chǎn)生的一切社會(huì)關(guān)系的總和。人一旦進(jìn)入社會(huì)就會(huì)產(chǎn)生社會(huì)屬性。例如經(jīng)濟(jì)狀況、家庭狀況、社會(huì)地位、政治宗教、地理位置、價(jià)值觀等。

人的向往與需求,可分為興趣偏好、行為消費(fèi)偏好。

  • 興趣偏好:是人堆非物化對(duì)象的內(nèi)在心理向往與外在行為表達(dá),是一種法子內(nèi)心的本能喜好,與物質(zhì)無必然關(guān)系。例如渴望愛情、需要安全感、討厭臟亂環(huán)境等。
  • 行為消費(fèi)偏好:是人對(duì)物化對(duì)象的需求與外在行為表達(dá),涉及各行業(yè),與物質(zhì)世界存在千絲萬縷的聯(lián)系。例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護(hù)行業(yè)偏好、家裝行業(yè)偏好等。

在以上四大類的基礎(chǔ)上,我們又嘗試根據(jù)不同的業(yè)務(wù)形態(tài)進(jìn)一步細(xì)分二級(jí)、三級(jí)分類。

(2)高速

標(biāo)簽的萃取工作包含:數(shù)據(jù)采集;清洗,去噪聲并統(tǒng)一;反復(fù)試用并確定最佳算法及模型;為模型選擇計(jì)算因子并對(duì)模型中的每一個(gè)計(jì)算因子調(diào)配權(quán)重;產(chǎn)出標(biāo)簽質(zhì)量評(píng)估報(bào)告以輔助驗(yàn)收。

我們隨機(jī)抽查了若干個(gè)在用的標(biāo)簽,預(yù)估工作量和工作周期,一個(gè)有價(jià)值的標(biāo)簽的萃取,平均耗時(shí)2周。

慢的主要原因,一是由于萃取流程復(fù)雜,每個(gè)標(biāo)簽萃取都依賴底層的基礎(chǔ)數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);二是大量重復(fù)的人力,對(duì)應(yīng)的標(biāo)簽萃取邏輯時(shí)可以復(fù)用的,包含算法的選擇、模型訓(xùn)練和計(jì)算因子的加權(quán)等,但由于不同人來做,造成了很多重復(fù)工作。

標(biāo)簽萃取過程復(fù)雜,那有什么可以參考的流程呢?

阿里巴巴云上數(shù)據(jù)中臺(tái)之道04——解密OneEntity體系

首先,數(shù)據(jù)源層面:建設(shè)一套完整的數(shù)據(jù)源,以O(shè)neEntity體系為核心,將OneEntity相關(guān)實(shí)體及其行為全部串聯(lián)起來,與存量的標(biāo)簽一起作為數(shù)據(jù)源。

其次,標(biāo)簽計(jì)算層面:將標(biāo)簽萃取邏輯沉淀為2種,分別對(duì)應(yīng)到偏好類標(biāo)簽和分類預(yù)測類標(biāo)簽的工具型產(chǎn)品的生產(chǎn)過程中,包含計(jì)算因子、權(quán)重等業(yè)務(wù)規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。

最后,標(biāo)簽監(jiān)測層面:沉淀質(zhì)量評(píng)估報(bào)告和生產(chǎn)監(jiān)測、上線等管理流程。

當(dāng)一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個(gè)同類型標(biāo)簽只需要2天左右,這是因?yàn)樵谘a(bǔ)足數(shù)據(jù)源、確定業(yè)務(wù)規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過程中,減少了大量的代碼開發(fā)與模型訓(xùn)練的工作。

在這個(gè)過程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉工程師、數(shù)據(jù)科學(xué)家為主導(dǎo),轉(zhuǎn)變?yōu)閷?duì)業(yè)務(wù)更為熟悉的業(yè)務(wù)人員、數(shù)據(jù)分析師為主導(dǎo)。

3. GRelation全域關(guān)系

找到對(duì)象的關(guān)聯(lián)關(guān)系,當(dāng)OneEntity代表人時(shí),就可以找出他的親屬、朋友、校友和同事等;當(dāng)OneEntity代表商品時(shí),就可以找出他的上下游商品/貨等。

4. GBehavior全域行為

將與OneEntity相關(guān)的實(shí)習(xí)及行為關(guān)聯(lián)起來,形成一套用戶行為體系。如:

  • 姓名、郵箱、地址等,這是現(xiàn)實(shí)世界中的唯一標(biāo)志,就像OneEntity代表著你在大數(shù)據(jù)世界里的唯一標(biāo)志。
  • 籍貫、年齡、政治面貌、宗教信仰等,這是現(xiàn)實(shí)世界中的標(biāo)簽畫像
  • 父母、子女、夫妻等,天生或后天產(chǎn)生的一系列關(guān)系,代表著GRelation在大數(shù)據(jù)世界中的關(guān)系
  • 何年何月讀大學(xué)、何年何月第一次參加工作、何年何月獲得某項(xiàng)獎(jiǎng)勵(lì)以及證明人是誰等

在大數(shù)據(jù)的世界里,將孤島數(shù)據(jù)實(shí)現(xiàn)融通并加以萃取,可以圍繞一個(gè)主題展開全面剖析。

專欄作家

草帽小子,公眾號(hào):一個(gè)數(shù)據(jù)人的自留地,人人都是產(chǎn)品經(jīng)理專欄作家?!洞髷?shù)據(jù)實(shí)踐之路:數(shù)據(jù)中臺(tái)+數(shù)據(jù)分析+產(chǎn)品應(yīng)用》書籍作者,專注用戶畫像領(lǐng)域。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!