基于電子病歷(EMR)的大數(shù)據(jù)知識挖掘

0 評論 6967 瀏覽 17 收藏 12 分鐘

編輯導(dǎo)語:隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)醫(yī)療信息化也不斷完善,如今電子病歷也已經(jīng)廣泛運(yùn)用了,用賬號進(jìn)行登錄有助于病例的查找;本文作者分享了關(guān)于基于電子病歷(EMR)的大數(shù)據(jù)知識挖掘,我們一起來學(xué)習(xí)一下。

隨著醫(yī)療機(jī)構(gòu)信息化建設(shè)的大力推進(jìn),電子病歷數(shù)據(jù)持續(xù)的海量增長,針對電子病歷數(shù)據(jù)的知識挖掘也應(yīng)運(yùn)而生;電子病歷記錄了病患就診的全過程,包含數(shù)字、圖像、文本等多種數(shù)字化信息。

項(xiàng)目從電子病歷應(yīng)用場景出發(fā),根據(jù)完整的醫(yī)療活動(dòng)過程中不同的角色,分別從臨床醫(yī)療、教學(xué)科研、管理部門和病患四個(gè)角度進(jìn)行需求分析;明確電子病歷的功能定位,挖掘出電子病歷中潛在的醫(yī)學(xué)規(guī)則和模式;一方面為醫(yī)務(wù)人員臨床診斷中提供決策支持,另一方面方便向大眾普及病癥知識,為疾病防治與健康醫(yī)療模式帶來改變。

一、核心技術(shù)

1.?數(shù)據(jù)清洗

1)隱私數(shù)據(jù)處理

電子病歷中包含患者的全部信息,對電子病歷的信息抽取涉及到患者隱私,因此需要將患者身份信息隱藏,僅保留研究相關(guān)的診斷信息,以保護(hù)患者基本權(quán)益不受侵犯。

2)主數(shù)據(jù)目錄(分詞、詞性、同義詞、相似詞)

首先保障數(shù)據(jù)的完整性、一致性與唯一性,自動(dòng)分詞和詞性標(biāo)注是文本挖掘的基礎(chǔ),分詞和詞性算法的優(yōu)劣直接決定了文本挖掘的效果。

首先融合權(quán)威詞表、官方標(biāo)準(zhǔn),通過網(wǎng)絡(luò)盡可能完整地收錄醫(yī)學(xué)詞匯,構(gòu)建醫(yī)學(xué)詞典,避免分詞錯(cuò)誤;同時(shí)構(gòu)建詞性標(biāo)注集合,確保適應(yīng)電子病歷的詞性體系;并結(jié)合基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的分詞和詞性算法,對未登錄詞進(jìn)行識別,提升電子病歷分詞和詞性效果;構(gòu)建電子病歷分詞和詞性標(biāo)準(zhǔn),為后續(xù)電子病歷的挖掘奠定基礎(chǔ)。

2.?數(shù)據(jù)抽取

抽取規(guī)則:多種表達(dá)式(業(yè)務(wù)活動(dòng)、時(shí)間軸、病種、科室、地名等)

為了實(shí)現(xiàn)對電子病歷數(shù)據(jù)的有效組織和分析,基于電子病歷信息庫,在傳統(tǒng)機(jī)器學(xué)習(xí)模型上,使用基于七分位詞位標(biāo)注集和復(fù)雜語言特征模板的條件隨機(jī)場,從電子病歷的文本中抽取實(shí)體。

基于深度學(xué)習(xí)模型,在人工標(biāo)注電子病歷實(shí)體數(shù)據(jù)的基礎(chǔ)上,構(gòu)建RNN、LSTM、LSTM-CRF和BERT等深度學(xué)習(xí)實(shí)體抽取模型。

在上述所構(gòu)建的兩類實(shí)體抽取模型的基礎(chǔ)上,完成對電子病歷中實(shí)體的抽??;在本部分不僅完成對實(shí)體的抽取任務(wù),而且會對所構(gòu)建的實(shí)體抽取模型的整體性能進(jìn)行縱向和橫向的對比,以確定最適合電子病歷實(shí)體抽取的模型;構(gòu)建電子病歷的實(shí)體標(biāo)注規(guī)范,并形成針對電子病歷的實(shí)體抽取模型。

例如:時(shí)間軸。

電子病歷具有顯著地時(shí)序性:病癥在不同診療階段具有明顯的差異;病人生命體征受時(shí)間規(guī)律影響;流行病的環(huán)境因素中時(shí)間因素也是重要的組成部分。

除了電子病歷生成時(shí)間、修改時(shí)間等顯示時(shí)間外,病歷中的隱式時(shí)間點(diǎn)及時(shí)間段推斷也是研究的重難點(diǎn),對電子病歷時(shí)間維度上的研究也是電子病歷挖掘的重中之重。

3.?數(shù)據(jù)存儲

基于Hadoop大數(shù)據(jù)平臺搭建全文檢索引擎,實(shí)現(xiàn)海量結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)的高效存儲和檢索,提供更快、更優(yōu)用戶體驗(yàn)。

4.?數(shù)據(jù)倉庫

主要步驟包括:

  • 命名實(shí)體識別,即在文本中找到關(guān)鍵詞,并能與文中所指的概念對應(yīng)起來;如在某一文本中,不僅能通過基因符號識別出這個(gè)基因,也可以通過同義詞,或以往名稱識別出該基因。
  • 信息抽取,基于語言結(jié)構(gòu)的先驗(yàn)知識(如自然語言中的主、謂、賓三元結(jié)構(gòu)),通過自然語言處理方法,抽取出特定的動(dòng)詞或名詞。
  • 信息存儲,將抽取到的信息(數(shù)據(jù))加載并轉(zhuǎn)存到標(biāo)準(zhǔn)化數(shù)據(jù)模型中,形成以患者為中心、醫(yī)院臨床信息系統(tǒng)(HIS、EMR、LIS、PACS等)無縫、連續(xù)和可互操作的集中式醫(yī)療大數(shù)據(jù)平臺;該過程中的數(shù)據(jù)抽取、轉(zhuǎn)化、加載稱之為數(shù)據(jù)倉庫(extract-transform-load, ETL)技術(shù)。

二、業(yè)務(wù)應(yīng)用

1.?全文檢索平臺

當(dāng)前,海量的電子病歷為醫(yī)務(wù)人員蘊(yùn)藏了豐富的專業(yè)知識,卻也給循證醫(yī)學(xué)造成了阻礙。

其中大量非結(jié)構(gòu)化的文本無法有效地進(jìn)行信息查詢,主要存兩點(diǎn)問題:

  • 數(shù)據(jù)庫無法存儲海量數(shù)據(jù);
  • 數(shù)據(jù)庫中非結(jié)構(gòu)化數(shù)據(jù)查詢效率極低。

基于大數(shù)據(jù)技術(shù),構(gòu)建高性能數(shù)據(jù)存儲、分布式檢索和分析平臺,實(shí)現(xiàn)海量病歷文本高效檢索,為臨床醫(yī)療和教學(xué)科研等工作提供基礎(chǔ)保障。

2.?構(gòu)建臨床循證知識庫(輔助治療)

知識庫是經(jīng)過有機(jī)組織的知識集群,采用命名實(shí)體識別方法對電子病歷中疾病名稱、身體部位、癥狀、檢查項(xiàng)目、治療手段、藥品名進(jìn)行抽取,形成實(shí)時(shí)更新的醫(yī)學(xué)實(shí)體庫及相關(guān)的醫(yī)療用語庫。

利用關(guān)系抽取方法,抽取出“癥狀-診斷”關(guān)系,“疾病-藥物”關(guān)系,形成可供推理的醫(yī)學(xué)知識圖譜;為臨床醫(yī)療提供決策輔助,加強(qiáng)藥物管理,實(shí)現(xiàn)精準(zhǔn)用藥。

綜合利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)、NLP和深度學(xué)習(xí)等技術(shù),通過主訴+病史+AI輔助檢查檢驗(yàn)結(jié)果構(gòu)建單病種診斷知識圖譜,并提供大數(shù)據(jù)精準(zhǔn)治理方案。

3.?定制電子病歷模板

由于電子病歷形式多樣,各個(gè)系統(tǒng)之間沒用統(tǒng)一的規(guī)范,嚴(yán)重阻礙了電子病歷的分析與利用,通過實(shí)體標(biāo)準(zhǔn)化技術(shù)將不規(guī)范的醫(yī)療實(shí)體映射為標(biāo)準(zhǔn)的醫(yī)療實(shí)體,為有效利用醫(yī)療數(shù)據(jù)掃除障礙。

形成醫(yī)務(wù)人員廣泛認(rèn)可的實(shí)體標(biāo)準(zhǔn),并統(tǒng)一定制電子病歷模板供系統(tǒng)開發(fā)商借鑒;在醫(yī)務(wù)人員培養(yǎng)過程中,加強(qiáng)醫(yī)療實(shí)體規(guī)范化,對電子病歷使用進(jìn)行培訓(xùn)和意見反饋,提升病歷質(zhì)量。

4.?病癥分類模型研究

首先采用分類算法對不同科室的病歷建立分類模型,為病癥自動(dòng)分診提供幫助;其次,電子病歷具有冗余性,通常為了確診需要檢查很多項(xiàng)目,無論檢查結(jié)果正?;虍惓6紩暾涗浽诎浮?/p>

病歷中除了提及的實(shí)體,還有用來修飾的定性詞或數(shù)字,如“{無}關(guān)節(jié)腫痛”,“體溫{37}度”等,這類定性詞或定量數(shù)值對疾病的診斷具有關(guān)鍵作用;通過建立分類模型能夠輔助醫(yī)生進(jìn)行診斷,提高整體醫(yī)療水平。

5.?知識普及與推薦服務(wù)

基于醫(yī)學(xué)知識圖譜和患者既往病史向患者提供針對性的病癥知識普及服務(wù),為病患了解自身疾病的相關(guān)信息提供權(quán)威、便捷的途徑,防止被互聯(lián)網(wǎng)錯(cuò)誤信息誤導(dǎo)。

滿足病患對自身健康管理的需求,同時(shí)也消除了醫(yī)患之間的信息不對稱,這有助于緩解醫(yī)患之間的緊張關(guān)系,從根源消除醫(yī)患糾紛;采用基于內(nèi)容和基于協(xié)同過濾的方法進(jìn)行專家推薦,方便病患和醫(yī)生之間相互了解,也便于患者找到合適的醫(yī)生。

6. 疾病預(yù)測推演

根據(jù)確診病歷,統(tǒng)計(jì)病例數(shù)、性別比例、年齡分布、職業(yè)分布、手術(shù)率、好轉(zhuǎn)率、死亡率、并發(fā)癥、用藥情況及關(guān)聯(lián)的檢查檢驗(yàn)等;在臨床治療方案的選擇中,可列出相關(guān)治療方案的比例,便于醫(yī)生進(jìn)行比較分析臨床效果。

通過數(shù)據(jù)分析找到患病特點(diǎn)十分必要,除此之外,如果能將臨床描述性信息轉(zhuǎn)化為數(shù)字化臨床信息,將基因數(shù)據(jù)、臨床表型和疾病三者關(guān)聯(lián)起來;比如:任一臨床表型能同時(shí)找到與之相關(guān)的基因或蛋白信息,并通過這種方式指出疾病分子機(jī)制、耐藥性、推測預(yù)后等,這對于臨床醫(yī)生而言將十分有意義。

三、研究方法

文獻(xiàn)調(diào)研法:針對電子病歷的數(shù)據(jù)獲取和清洗、電子病歷的實(shí)體抽取,電子病歷的實(shí)體自動(dòng)分類,通過文獻(xiàn)調(diào)研的方法搜集與電子病歷實(shí)體相關(guān)的研究,并從中汲取和借鑒相應(yīng)的技術(shù)和方法,從而為完成本子課題的研究任務(wù)奠定堅(jiān)實(shí)的基礎(chǔ)。

人工內(nèi)省法:對電子病歷進(jìn)行語料訓(xùn)練并總結(jié)出實(shí)體分布的整體特征,人工對電子病歷實(shí)體進(jìn)行類別劃分和訓(xùn)練模型所使用實(shí)體知識的標(biāo)注,都是基于人工內(nèi)省的方法實(shí)現(xiàn)的;人工內(nèi)省的方法為電子病歷多模態(tài)實(shí)體知識庫的構(gòu)建提供了支撐。

機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法:電子病歷多模態(tài)實(shí)體知識庫中傳統(tǒng)實(shí)體知識的抽取、深度學(xué)習(xí)實(shí)體知識的抽取、多個(gè)實(shí)體分類模型的構(gòu)建均是通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法實(shí)現(xiàn)的。

自然語言處理法:對電子病歷文本內(nèi)容進(jìn)行的實(shí)體的抽取、類別模型的構(gòu)建中所涉及到的實(shí)體語言特征的分析、語言模型的構(gòu)建,均是通過自然語言處理的研究方法完成的。

 

本文由 @CTO老王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!