怎樣從臟亂差的醫(yī)療大數(shù)據(jù)中提取價(jià)值(二)
編輯導(dǎo)語:上期講到了隨著大數(shù)據(jù)時代的到來,醫(yī)療信息化建設(shè)迫切的需求與醫(yī)療大數(shù)據(jù)的溯源過程,還深入的提出了在臟亂差的醫(yī)療大數(shù)據(jù)中怎么發(fā)現(xiàn)價(jià)值;接下來我們再進(jìn)一步探討一下數(shù)據(jù)的價(jià)值與特征。
一、數(shù)據(jù)特征
1)數(shù)據(jù)異構(gòu)
多平臺,多種接口,數(shù)據(jù)類型沒有一個標(biāo)準(zhǔn),只能是點(diǎn)對點(diǎn)的對接大量數(shù)據(jù),內(nèi)容冗雜,過程繁復(fù),速度緩慢。
2) 主題分散性
就診信息分布在不同的平臺上,不能夠形成以患者為中心的所有電子化就診信息集成,不能提供完整、全面、準(zhǔn)確、及時的患者臨床信息。
3)數(shù)據(jù)量大
在大數(shù)據(jù)背景下,行業(yè)應(yīng)用的數(shù)據(jù)量通常都以億級別計(jì)算,存儲通常在TB/PB級別甚至更多。
4)數(shù)據(jù)多態(tài)
數(shù)據(jù)模型在數(shù)據(jù)出現(xiàn)之后才能確定,數(shù)據(jù)模型隨著數(shù)據(jù)量增長不斷演變。
二、數(shù)據(jù)價(jià)值
數(shù)據(jù)流通:
- 院內(nèi)流通、院外流通;
- 例如:從信息科流通到臨床醫(yī)務(wù)人員,從醫(yī)院流通到衛(wèi)生管理部分,從省內(nèi)醫(yī)院流通到省外醫(yī)院。
數(shù)據(jù)開放:
- 面向個人:如查閱報(bào)告、健康評估、健康檔案等;
- 面向企業(yè)、政府:調(diào)閱病理取證、獲取群體用藥信息、醫(yī)療數(shù)據(jù)監(jiān)管等;
數(shù)據(jù)挖掘:
- 科研:科研統(tǒng)計(jì)分析和深度挖掘,如療效分析等;
- 臨床:如手術(shù)風(fēng)險(xiǎn)評估、預(yù)測模型建立等;
- 其他:醫(yī)院管理、趨勢分析等
三、數(shù)據(jù)產(chǎn)品
產(chǎn)品的定義:
建立數(shù)倉產(chǎn)品需依據(jù)衛(wèi)生部統(tǒng)計(jì)信息中心2011年發(fā)布的《基于電子病歷的醫(yī)院信息平臺建設(shè)技術(shù)解決方案》建立標(biāo)準(zhǔn)化醫(yī)院數(shù)據(jù)資產(chǎn)目錄。
數(shù)倉需以醫(yī)院基礎(chǔ)業(yè)務(wù)活動為索引,提供HIS、LIS、EMR等多數(shù)據(jù)源業(yè)務(wù)表字段綁定規(guī)則;實(shí)現(xiàn)零代碼綁架,業(yè)務(wù)人員即可通過頁面配置綁定規(guī)則。
數(shù)倉將根據(jù)配置自動生成調(diào)度任務(wù),并通過Hadoop生態(tài)圈sqoop技術(shù)實(shí)現(xiàn)對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)抽取;提供全量數(shù)據(jù)抽取與增量數(shù)據(jù)抽取兩種方式,抽取過程實(shí)現(xiàn)透明、可追溯。
解決的問題:
- 實(shí)現(xiàn)以患者為中心的醫(yī)療信息采集、清洗、存儲、加載和決策輔助。保障原始數(shù)據(jù)來源追溯、主數(shù)據(jù)標(biāo)準(zhǔn)唯一、數(shù)據(jù)應(yīng)用及時高效。
- 實(shí)現(xiàn)基于數(shù)據(jù)中心的全量數(shù)據(jù),構(gòu)建應(yīng)用主題庫,為醫(yī)院臨床輔助、精細(xì)化運(yùn)營管理、科研管理提供強(qiáng)有力的數(shù)據(jù)支撐。
- 實(shí)現(xiàn)“數(shù)據(jù)湖”數(shù)據(jù)資產(chǎn)目錄,提高數(shù)據(jù)價(jià)值。
- 實(shí)現(xiàn)億級別數(shù)據(jù)量查詢、統(tǒng)計(jì)、分析秒處理展示。
四、產(chǎn)品功能
數(shù)據(jù)集成:
院內(nèi)分散、異構(gòu)數(shù)據(jù)依據(jù)頤東數(shù)倉資產(chǎn)目錄表字段規(guī)則映射,并通過ETL工具實(shí)現(xiàn)歷史數(shù)據(jù)、實(shí)時數(shù)據(jù)抽取轉(zhuǎn)換。業(yè)務(wù)系統(tǒng)或集成平臺之間進(jìn)行數(shù)據(jù)字典與碼表的映射轉(zhuǎn)換,解決系統(tǒng)之間的數(shù)據(jù)一致性問題。新舊系統(tǒng)切換或系統(tǒng)升級,歷史數(shù)據(jù)在新編碼體系和分類體系下的轉(zhuǎn)換和對接。
數(shù)據(jù)稽查:
用戶可以根據(jù)需求上傳需要比對的數(shù)據(jù)及相應(yīng)標(biāo)準(zhǔn),通過軟件對數(shù)據(jù)進(jìn)行一致性和準(zhǔn)確性稽核。
疾病稽查:
藥品稽查:
醫(yī)療知識庫:主數(shù)據(jù)管理
疾病、手術(shù)標(biāo)準(zhǔn):
五、產(chǎn)品應(yīng)用
1)數(shù)據(jù)治理
數(shù)據(jù)治理是治理多元異構(gòu)的數(shù)據(jù),治理數(shù)據(jù)資產(chǎn),突出醫(yī)療價(jià)值,確保數(shù)據(jù)質(zhì)量控制數(shù)據(jù)治理的過程要確保數(shù)據(jù)的完整性(事件、表單、記錄、表項(xiàng)),一致性(主數(shù)據(jù)一致性、邏輯一致性),唯一性(無二義冗余、指標(biāo)及計(jì)算口徑),及時性,原始性,可溯源性及可測量性。
解決的問題:數(shù)據(jù)重復(fù)、一碼多病、數(shù)據(jù)雜亂、臟數(shù)據(jù)多
治理的方案:通過數(shù)倉產(chǎn)品建立院內(nèi)數(shù)據(jù)資產(chǎn)目錄索引大數(shù)據(jù)中心
2)大數(shù)據(jù)中心
3)數(shù)據(jù)集市
根據(jù)臨床科室構(gòu)建應(yīng)用主題庫,為醫(yī)院臨床輔助、精細(xì)化運(yùn)營管理、科研管理提供強(qiáng)有力的數(shù)據(jù)支撐。
4)數(shù)據(jù)上報(bào)
解決針對衛(wèi)計(jì)委統(tǒng)計(jì)信息中心以《江蘇省健康信息平臺共享數(shù)據(jù)集》為基準(zhǔn)上傳的數(shù)據(jù)的數(shù)據(jù)稽核與表結(jié)構(gòu)轉(zhuǎn)換。
5)精準(zhǔn)治理
單病種科研知識庫,輔助治理。
六、產(chǎn)品特性
1)多種數(shù)據(jù)源
支持多種數(shù)據(jù)源,一鍵接入,無需繁瑣配置。
2)零代碼
簡單易用的用戶體驗(yàn),零代碼建立傳輸任務(wù),降低企業(yè)用戶使用門檻。
3)實(shí)時融合
實(shí)時的數(shù)據(jù)融合與集成,不讓延遲成為瓶頸,保證數(shù)據(jù)的時效性。
4)開箱即用
簡單快速的安裝流程,高效部署生產(chǎn)環(huán)境,即裝即用。
5)錯誤隊(duì)列預(yù)警
群集監(jiān)控、故障排除、擴(kuò)容擴(kuò)展、應(yīng)急處理,完善糾錯與預(yù)警機(jī)制。
6)安全審計(jì)
數(shù)據(jù)審計(jì)、數(shù)據(jù)盤點(diǎn)、權(quán)限認(rèn)證、隱私處理。
7)全程質(zhì)量管控
高質(zhì)量體系保障數(shù)據(jù)傳輸?shù)陌踩耘c準(zhǔn)確性,真正實(shí)現(xiàn)數(shù)據(jù)無憂。
8)數(shù)據(jù)服務(wù)
開放接口,開放數(shù)據(jù),開放服務(wù),支持第三方嫁接服務(wù)。
9)大數(shù)據(jù)生態(tài)系統(tǒng)
Hadoop生態(tài)系統(tǒng)中集成了大量的工具和組件來滿足不同計(jì)算和存儲需求,比如HDFS分布式文件系統(tǒng)、HBase列式數(shù)據(jù)庫、Hive數(shù)據(jù)倉庫、Kafka服務(wù)編排、MapReduce服務(wù)調(diào)度、impala類SQL數(shù)據(jù)倉庫等,可以方便地進(jìn)行數(shù)據(jù)存儲和分析計(jì)算。
產(chǎn)品技術(shù)架構(gòu):
數(shù)據(jù)倉庫(ETL) + 自然語言處理(NPL)+大數(shù)據(jù)技術(shù)(Hadoop)+安全通信(OAuth2.0、密碼學(xué)、CAS)
七、名詞解釋
CDC又稱變更數(shù)據(jù)捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動時會插入數(shù)據(jù)到日志表中;CDC通過捕獲進(jìn)程將變更數(shù)據(jù)捕獲到變更表中,通過cdc提供的查詢函數(shù),我們可以捕獲這部分?jǐn)?shù)據(jù)。
ETL數(shù)據(jù)倉庫技術(shù)(Extract-Transform-Load),它是將數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)倉庫的過程。用來描述將數(shù)據(jù)從來源端經(jīng)過萃?。╡xtract)、轉(zhuǎn)置(transform)、加載(load)至目的端的過程。使用到的工具包含(kettle、flume、sqoop)。
Kettle基于JAVA的ETL工具,支持圖形化的GUI設(shè)計(jì)界面,然后可以以工作流的形式流轉(zhuǎn),在做一些簡單或復(fù)雜的數(shù)據(jù)抽取、質(zhì)量檢測、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)過濾等方面有著比較穩(wěn)定的表現(xiàn)。
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
Sqoop是Apache開源軟件,主要用于在HADOOP(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql…)間進(jìn)行數(shù)據(jù)的傳遞;適用于能與大數(shù)據(jù)集群直接通信的關(guān)系數(shù)據(jù)庫間的大批量數(shù)據(jù)傳輸。
本文由 @CTO老王 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!