
第一节 健康医疗大数据概念及特征
一、发展历程
随着互联网、移动互联网、物联网以及云计算等技术的快速发展,各行各业的数据量呈现出爆发式增长态势。据国际数据公司(International Data Corporation,IDC)监测,各个领域产生的数据正在以指数级增长,大约每两年翻一番,这个速度将至少保持到2020年,并且85%以上的数据以非结构化或半结构化的形式存在,大数据时代已来临。2008年Nature出版专刊Big Data,从计算机技术、环境科学、生物医学等多个方面介绍了海量数据带来的机遇与挑战;2011年Science推出“Dealing With Data”专栏,讨论数据洪流带来的挑战。
在大数据的迅速发展下,健康医疗大数据也迎来了高速发展时期。医院是产生和使用健康医疗大数据的重要终端。在行业信息共享、价值挖掘等方面,美国医疗机构通过统一大数据标准积累海量病案,实现医院运营改善并提供辅助诊断等功能。美国建立的卫生信息传输健康等级7标准(Health Level Seven,HL7)和健康信息交换协议(Health Information Exchange,HIE),用于多种操作和硬件环境,以规范临床医学和健康信息格式,降低系统互联成本并促进系统间数据共享。在健康医疗大数据应用方面,亚利桑那州的圣约瑟夫医疗健康中心使用数据分析软件,根据患者患病风险和保险分类,建立工作流程表,制定工作计划,将30天复发率减少了15%。
2014年美国Empatica公司研发出一款通过美国食品药品管理局(Food and Drug Administration,FDA)批准的监测癫痫发作的智能手表,该手表可通过机器学习识别惊厥性癫痫发作,并向护理人员发送警报。2017年美国Kardia公司推出美国FDA批准的心电图移动设备,通过采集心悸、呼吸短促等问题信号预测心脏及脑卒中的风险。然而由于各个厂商的算法和标准不统一,缺乏共享开放机制的支撑,这些数据的有效整合利用还存在一定阻碍。未来数据海量积累、格式化收集存储以及共享机制探索均为健康医疗大数据有效应用的重要环节。
我国2015—2017年健康医疗大数据市场规模分别为10亿元、15亿元、27亿元人民币。2015年由原国家卫计委发布《全国医疗卫生服务体系规划纲要(2015—2020年)》,提出2018年底前建成国家政府数据统一开放平台,率先在医疗、卫生等重要领域实现公共数据资源合理适度向社会开放。2016年原国家卫计委牵头起草的《关于促进和规范健康医疗大数据应用发展的指导意见》提出,到2020年建成国家医疗卫生信息分级开放应用平台,基本实现城乡居民拥有规范化的电子健康档案和功能完备的健康卡,适应国情的健康医疗大数据应用发展模式基本建立,健康医疗大数据产业体系初步形成、新业态蓬勃发展。2017年7月国家发展改革委印发《关于促进分享经济发展的指导性意见》,提出充分运用大数据等信息技术手段,多渠道收集相关数据并建立数据库,促进经济发展、改善民生。2017年12月国家强调推动实施国家大数据战略,加快建设数字中国。
当前大数据战略已上升为国家战略高度,国家从战略规划、技术能力以及应用与管理3个层面积极落实推进大数据发展政策,加速大数据产业发展从理论研究进入应用阶段。
在健康医疗数据库方面,2006年我国开始建设国家医疗健康数据库,整合区域范围内医院、基层卫生机构及公共卫生机构的各类数据,形成以个人为中心的全生命周期电子健康档案库。2015年原国家卫计委启动了十省互联互通项目,我国约50%的委属医院、42%的省属医院和38%的市属医院已启动医院信息平台建设。2016年原国家卫计委启动“1 + 5 + X”健康医疗大数据发展规划,建设江苏省(东)、贵州省(西)、福建省(南)、山东省(北)以及安徽省(中)五大数据中心。2017年原国家卫计委牵头组建医疗健康数据三大集团,包括中国健康医疗大数据产业发展有限公司、中国健康医疗大数据科技发展集团公司及中国健康医疗大数据股份有限公司,以承担国家健康医疗大数据中心、区域中心、应用发展中心和产业园建设任务。在生物数据库方面,国家基因库2016年正式建成,该基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体。
福建省和江苏省作为国家健康医疗大数据中心的“先行者”,立足自身优势,逐步建立了政策保障体系和数据平台。福州启动了国家健康医疗大数据中心与产业园建设试点工程,围绕“一个中心、一个产业园、两个基地、四大应用领域”在全国首发“一个办法、两大平台”,即《福州市健康医疗大数据资源管理暂行办法》、国家健康医疗大数据平台(福州)和国家健康医疗大数据安全服务平台(福州)。通过汇聚公共卫生数据、临床数据、基因组学数据、物联网数据等近百亿条数据,在安全为先、隐私保护的前提下,平台将对外提供数据、应用、科研、生态和安全五方面服务。“两大平台”已完成全市13家市属医院、24家县级医院和其他医疗机构的健康医疗大数据采集。南京成立国家健康医疗大数据中心与产业园建设试点工程,实行“1 + 3”模式。即“1个中心”构建统一权威、互联互通的人口健康医疗信息平台,并培育“互联网健康医疗”新业态;“3个基地”分别为医疗养生等方面的综合服务应用基地、生物医药研发应用基地以及尖端医疗科技应用基地。国家健康医疗大数据中心建设试点工程南京园区存储中心一期工程已于2017年9月底全面完成,其存储容量达52PB,并配置了2340TFLOPS的超算设备,用于统一储存江苏省8 000万人口的个人健康档案和电子病历,以及全省174家三级医院的影像资料等健康医疗大数据。
二、概念
大数据自提出至今得到广泛关注但并无统一的定义,由于大数据是相对概念,因此目前的定义都是对大数据的定性描述,并未明确定量指标。维基百科中指出,大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间限制的数据集;全球著名的管理咨询公司McKinsey则将数据规模超出传统数据库管理软件的获取、存储、管理以及分析能力的数据集称为大数据;研究机构Gartner将大数据归纳为需要新处理模式才能增强决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;徐宗本院士则在第462次香山科学会议上的报告中将大数据定义为“不能够集中存储,并且难以在可接受时间内分析处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值的海量复杂数据集”。
健康医疗大数据行业还处于起步阶段,属于朝阳产业。健康医疗大数据行业链包含数据采集、治理、分析和应用等多个环节,每一个环节都不可或缺。在大数据采集环节,收集来自医院、政府、医药企业、保险公司、医生和公众等多个源头的医疗健康相关数据,通过标准化接口联合汇入,构成基础数据库;大数据治理环节通过标准制定、规则制定、数据整合和数据存储,将采集的原始数据在保证隐私和数据安全的前提下,实现数据的开放查询;在大数据分析环节,提供数据分析工具,洞察和挖掘数据价值;在大数据应用环节,利用大数据分析结果为用户提供决策依据,包括公众的健康决策、患者的治疗决策、医生的诊疗决策、医药企业的生产决策、政府的公共健康、医疗政策制定等,实现大数据的社会、商业、科研的多重价值,促进健康医疗资源的合理配置。
健康医疗大数据涵盖人的全生命周期,既包括个人健康数据,又涉及医药服务、疾病防控、健康保障和食品安全、养生保健等多方面数据的汇聚和聚合。具体而言,健康医疗大数据是指人从出生、婴幼儿保健、疫苗注射、入学体检、工作体检、就诊、住院、饮食、运动、睡眠、死亡等一系列生命过程所产生的数据,主要分为因就医所产生的临床数据和因生活过程所产生的非临床数据。从内容来看,健康医疗大数据包括出生数据(体重、血型、基因等)、临床数据(电子病历、电子处方、药物服用)、运动数据、体检数据、饮食数据(含饮酒数据)、睡眠数据、死因数据等,围绕个体的健康医疗大数据衍生出公共卫生方面的数据,包括血液传播、食品安全和疾病预防等。健康医疗大数据三维空间模型如图1-1所示。

图1-1 健康医疗大数据三维空间模型
三、特征
1.大数据特征
通常将大数据特征描述为“4V”,即规模性(volume)、多样性(variety)、高速性(velocity)和价值性(value)。
(1)规模性:
大数据的“数量大”,存储单位从过去的GB到TB,直至PB、EB。目前全球数据量仍在增长,年增长率超过40%。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。
(2)多样性:
广泛的数据来源决定了大数据形式多样性。按照不同的划分方式,数据可以被划分为多种类型,最常用和最基本的就是利用数据关系进行划分,大数据大体可分为3类:①结构化数据,例如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;②非结构化的数据,例如视频、图片、音频等,其特点是数据间没有因果关;③半结构化数据,例如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
(3)高速性:
数据的增长速度和处理速度是大数据高速性的重要体现。与以往的档案、广播、报纸等传统数据载体不同,大数据的交换和传播是通过互联网、云计算等方式实现的,远比传统媒介的信息交换和传播速度快捷。大数据与海量数据的重要区别,除了大数据的数据规模更大以外,大数据对处理数据的响应速度有更严格的要求。
(4)价值性:
大数据的价值密度低。大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少。现在的任务就是将这些ZB、PB级的数据,利用云计算、智能化开源实现平台等技术,提取出有价值的信息,将信息转化为知识并发现规律,最终用知识促成正确的决策和行动。
阿姆斯特丹大学的Yuri Demchenko等人根据以上特点提出了大数据5V特征,大数据5V特征如图1-2所示。它在上述4V的基础上增加了真实性(veracity)特征,真实性包括可信性、真伪性、来源和信誉、有效性和可审计性等子特征。

图1-2 大数据5V特征
2.健康医疗大数据特征
健康医疗大数据涉及健康医疗领域的方方面面及各个环节,主要应用于临床医疗、药品研发、管理决策、健康管理等方面,除了具备大数据的4V特点外,还具有隐私性、不完整性、异质性、时变性和追踪性等特点。
(1)隐私性:
相比其他领域的大数据,健康医疗大数据的隐私程度更高,从患者的个人基本信息(姓名、性别、联系方式、地址等)到检查检验结果、病理结果、诊断结果、治疗信息以及手术信息等,任何信息泄漏均会给患者造成不利影响。
(2)不完整性:
数据搜集和处理过程中经常相互脱节,导致医疗数据库不可能对任何疾病信息都得以全面反映;除此之外还涉及人工记录导致的偏差和残缺,以及语义等导致的数据表达和记录本身的不确定性。
(3)异质性:
由于个体差异,在不同患者身上即使同一种疾病表现也会有不同的症状、体征以及检查检验结果,因此健康医疗大数据具有明显的异质性。
(4)时变性:
疾病的症状、体征以及检查检验等信息会随病情的演进而发生变化,因此采集到的数据一般只能反映疾病某一特定阶段或某一静态时刻的特点,而不能代表疾病的全部特征。
(5)追踪性:
个体的健康医疗大数据包括一个人从出生、婴幼儿保健、疫苗注射、入学体检、工作体检、就诊、住院、饮食、运动、睡眠、死亡等一系列生命过程所产生的多点数据。许多临床数据也是时间序列,例如心电图数据是连续性时间的观察数据,很多慢性疾病也需要通过追踪数据来分析成因。