医疗大数据与统计数据的差异分析及应用思考

加入收藏 | 设为首页

行业信息

行业新闻

政策法规

行业新闻

时间：2018-02-02 来源：作者：

摘要

本文在上海市搭建“健康信息网”平台，汇集形成公立医疗机构诊疗信息的大数据中心的背景下，结合上海市大数据分析实践，总结分析医疗大数据与传统卫生统计数据之间差异及其产生的原因，发现两类数据的收集目标、方法、管控体系均存在本质差异，这必然导致所收集的数据汇总量的偏差；并在此基础上，提出要正视差异，并且在了解两类数据自身优势的基础上，将两类数据有机融合、互补应用，这样才能更好地为医疗体制改革提供决策支撑。

关键词

医疗大数据卫生统计差异分析

前言

随着“大数据时代”的到来，医疗大数据作为其中重要的组成部分，越来越受到各级各类部门和机构的重视；而随着医疗大数据收集、存储和利用工作的深入开展，关于此类数据与传统卫生统计调查所收集数据之间关系等类似问题，也越来越频繁地被提及。本文是从上海市实践经验角度分析总结两类数据的关系，希望可以为相关工作的开展提供参考。

问题提出

“建立实用共享的医药卫生信息系统”是中共中央、国务院《关于深化医药卫生体制改革的意见》中重要内容之一，区域卫生信息化建设被认为是未来医疗行业的发展方向。上海市于2011年4月12日正式启动“基于居民电子健康档案的卫生信息化工程（以下简称健康信息网工程）”，该工程是上海市政府在卫生信息化领域的重大基础性设施建设，也是实现上海所有公立医疗卫生机构互联互通、共享整合的基础。
目前，已基本建立覆盖全市各级各类公立医疗卫生机构的健康信息网，建成市区两级数据交换共享平台，实现了所有区县的38家三级医院、近100家二级医疗机构、240家社区卫生服务中心以及各级各类公共卫生机构和10000 余个医生工作站的互联互通。该网连通的信息系统包括医疗服务相关的医院HIS、CIS 和LIS以及公共卫生服务相关系统等。目前上海市级数据中心已集中汇总了200多亿条的诊疗数据，并且这一数字以每天增加1600 多万条的速度急速增长着，由此，上海市的卫生数据规模之大可见一斑，接下来上海计划对这一庞大的数据进行深入分析与利用。
在分析利用之初，上海首先将目前数据中心的200多亿条记录按时间等维度进行初步的分类汇总统计，将汇总的常规指标值，如门急诊总人次数、门诊次均费用等指标，将其与内涵一致的卫生统计指标结果进行比对。从理论上讲，两类指标数值应该趋于一致。而实践证明，两类指标数值并不是非常吻合，有的甚至差异较大。因此针对这类差异的产生原因以及后续如何更好地综合利用两类数据等内容均有待深入研究。

两类数据差异原因分析

在发现两类数据的差异之后，需要首先分析差异产生的原因，有些差异是合理的，可以被解释的；有些差异则会反映出数据收集过程中存在的问题。通过分析，发现差异产生原因主要为以下几方面：

采集的初衷不同

采集方法不同

日常管控不同

两类数据的应用与建议

通过以上分析可知，两类收据采集初衷、方式和日常管控等模式的本质差异，必然导致其数据汇总指标上的出入，并且这些客观存在的差异很难在短时间内消失。因此一味地追求最终汇总指标的完全一致，或者完全放任这些数据的差异存在都是不恰当的，只有充分理解差异及其存在的原因，优势互补，才能更好地为卫生决策服务。结合上海市的实践，我们总结了几点建议如下：

明确界限和内涵

统一口径和标准

理解差异原因，指导实际监管

挖掘各自优势，实现互补应用

总之，医疗大数据的发展，为整个卫生行业的发展提供了机遇和挑战，如何用好医疗大数据，充分理解和把握此类数据与传统统计数据的关系，将两类数据融合运用，都是卫生信息化工作者面临的崭新课题。本文仅是结合上海市的实践进行了相应的探讨，希望可以为相关工作的开展提供参考。

本文摘自《中国卫生信息管理杂志》杂志

备案序号:蜀ICP备19025360号

中国民族卫生协会信息化专业委员会信息中心建设和维护

地址：四川省成都市青羊区上汪家拐街39号省卫生厅1楼6106室 | 邮编：610041 | 局总机：028-86133236