知識圖譜的本體模型設計和ER模型設計的區(qū)別
本體的概念最早起源于哲學領域, 指的是對客觀存在系統(tǒng)的解釋和說明。這句話出現(xiàn)在了幾乎所有系統(tǒng)介紹知識圖譜和本體的材料里。在很長一段時間里,以為這是一句廢話,現(xiàn)在對這句話有了更多的體驗。
一、前言
知識圖譜的本體涉及很多具體概念,如:實體、關系、對象節(jié)點(資源)、數(shù)據(jù)節(jié)點(字面量)等。
所以向別人解釋什么是本體時需要耗費非常多的精力,巴拉巴拉拋出一大堆概念,最后對方可能沒聽懂,或者聽懂了但是人家根本就不關注這些細節(jié)。所以針對不同的聽眾可以有完全不同的說法。
當對方是市場人員或者客戶,和對方提到”本體“兩個字,僅僅是為了說明知識圖譜構(gòu)建工程需要做哪些事情。
比如:我們需要三周時間進行業(yè)務梳理和本體構(gòu)建。
那么無論如何也繞不過什么是本體,要解釋為什么要耗費這么長時間去構(gòu)建本體。這種時候可以說的非常粗略:“本體是一個數(shù)據(jù)模型,這個模型用以約束知識圖譜數(shù)據(jù)的組織方式”。
當時對方是技術人員或者產(chǎn)品人員,可以說:“本體可以理解為關系型數(shù)據(jù)庫的ER模型”。
ER模型即“Entity-relationship model”,其實本體也是這兩個概念,實體和關系。本體把名詞概念稱作一個實體,一個實體是一個節(jié)點,各個概念之間的聯(lián)系稱作關系,一條關系是兩個相關節(jié)點之間的連線。
本體就是定義哪些名詞概念成為實體節(jié)點和定義實體間關系的模型。如果對方是個Coder,也可以說本體模型類似類圖,表達類與類之間的關系。
本體的一個實體就是一種類,本體的實例節(jié)點就是類的實例對象。本體的關系就是表達類之間的關系,當然本體的關系類型比類圖的關系類型要多的多。
所以本體設計和傳統(tǒng)的數(shù)據(jù)庫或者數(shù)倉設計一樣,需要強依賴于業(yè)務流程和業(yè)務需求。剛剛接觸知識圖譜和本體的時候,我曾錯誤的將本體設計和ER設計等同起來,甚至為了簡便直接將ER模型當作本體模型使用。
本篇文章將會分享相關經(jīng)驗,通過舉個小例子來討論下本體設計和關系型數(shù)據(jù)庫ER圖的區(qū)別。
本體和知識圖譜的構(gòu)建流程可以查看本人在本站之前的文章進行交流:
二、場景舉例
拿私募基金業(yè)務為例,有如下簡化版的數(shù)據(jù)結(jié)構(gòu)。
私募基金管理人和其相關的股東、聯(lián)系人、實際控制人、員工。根據(jù)相關規(guī)定:基金管理人的法律主體被限定為公司或合伙企業(yè),自然人被排除在外。
基金管理人通常都會設定為公司形式,尤其是有限責任公司形式。其中股東和實際控制人可以為自然人,也可以為法人。
員工和聯(lián)系人為自然人,一家私募基金管理人對應一個聯(lián)系人和實際控制人,對應多個股東和公司員工。一個法人或自然人可以同時為股東和實際控制人,一個自然人可以同時作為一家私募基金管理人的員工和聯(lián)系人。
三、本體設計
如果我們直接把ER模型轉(zhuǎn)化成本體模型,再直接依據(jù)該本體進行數(shù)據(jù)映,可以得到相應的圖譜如下。
該圖譜最大的問題在于:同一個人或者同一家公司會有多個節(jié)點,換句話說沒有做節(jié)點融合。
如上圖所示:有兩個相同的自然人節(jié)點——”趙某“,兩個相同公司節(jié)點——“北京XX科技有限公司”。
這對于知識圖譜的大部分應用場景來說是不合理的,在同一個圖譜中,同一個實例不能屬于兩種類型,不能成為兩個節(jié)點。
所以上述的知識圖譜應該如下:
為什么同一個實例不能有不同的節(jié)點呢?從應用的角度,在更加復雜從的關系中,很難發(fā)現(xiàn)關鍵節(jié)點和業(yè)務關注的關系結(jié)構(gòu)。
將上述關系以未作節(jié)點融合的圖譜進行展示,仍舊很難發(fā)現(xiàn)多個節(jié)點之間存在的關系。
根據(jù)上述描述,如果采用進行實體融合后的圖譜,則可以非常容易的發(fā)現(xiàn)該圖譜中存在穿刺投資、持股方和被持股方擁有相同的聯(lián)系人等結(jié)構(gòu)。
所以由以上的圖譜倒推得到一個更加合理的本體模型如下:
總結(jié)
”本體的概念最早起源于哲學領域, 指的是對客觀存在系統(tǒng)的解釋和說明“——這句話出現(xiàn)在了幾乎所有系統(tǒng)介紹知識圖譜和本體的材料里。
在很長一段時間里,本人也以為這是一句廢話。現(xiàn)在對這句話有了更多的體驗:
什么是客觀世界,就是一個實例就只有一個。我作為一個自然人只有一個,所以反應在圖譜里也只能有一個節(jié)點。但是我是作為”人“存在,還是作為“男人”存在,還是作為“員工”存在,是依賴于特定范圍的業(yè)務需要。結(jié)合知識圖譜的發(fā)展史,
知識圖譜起源于語義網(wǎng)絡和網(wǎng)絡鏈接,本體的目標史對數(shù)據(jù)標準進行定義,使得圖譜支持數(shù)據(jù)融合以及便于機器理解和展示。
本體模型的設計和其他數(shù)據(jù)模型的設計類似,沒有一個絕對正確的設計,只能說哪個模型更加合理。
從以往經(jīng)驗看來:一個合理的本體模型大概要滿足以下幾點要求:
- 有效地支撐業(yè)務的分析和決策。
- 正確一致地展示數(shù)據(jù)信息。
- 擁有廣泛的適用性,易于添加新的節(jié)點類型和關系
作者:Eric ,數(shù)據(jù)產(chǎn)品經(jīng)理。金融大數(shù)據(jù)方向,知識圖譜工程化。
本文由 @Eric_Xie 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議。
自然人,還是企業(yè)法人都可以抽象為當事人,一切關系都可以用協(xié)議表示
前輩您好 我目前也在做知識圖譜產(chǎn)品 目前在百度實習 您方便加個微信嗎 看到您的文章很想多跟您交流 感謝 我的微信號是lixx9503 謝謝
建議你看看
@南風追憶 的關于圖譜的