
第三节 健康医疗大数据平台功能
一、数据采集
健康医疗大数据平台针对多源异构、分布信息系统实现对目标数据源数据项的采集,支持多种标准的传输接口、多种格式的数据接入。该层采用Web Service、API接口、数据库直连、FTP拉取、Flume、Sqoop、Falcon、Kafka等技术,对离线数据批量采集、流式数据实时采集,将各种结构化、半结构化和非结构化的医疗健康大数据汇聚到上层存储空间中。
健康医疗大数据主要采集医疗卫生机构、相关医疗卫生机构和相关行业机构的数据,数据采集范围包含但不限于①HIS:患者(含门诊、住院)的基本信息、就诊情况、病历、诊断、医嘱、用药、耗材、手术、输血、检查、检验等信息;②EMR:门诊患者的门诊病历,住院患者的入院病历、病程、术前讨论、术后情况、出院小结、会诊记录等全部文书;③病案首页:包括临床首页和编目首页,以及临床随访和病案随访数据、经济数据、部分院外诊疗数据;④护理:护理首页、护理评估、护理记录、护理措施、危重记录、体征、PICC、置管等;⑤手术麻醉:麻醉记录单、手术记录单、监控仪器数据;⑥EHR:高血压患者健康管理、高血压随访、高血压用药、重性精神疾病患者管理、重性精神疾病患者随访等;⑦疾病预防控制:预防接种信息、结核病患者病案记录信息、流行性脑脊髓膜炎个案调查表信息、包虫病患者信息登记表信息、疟疾病例流行病学个案调查表信息、全国血吸虫病监测点基本情况调查表信息等;⑧基因测序数据;⑨网络数据:在线问诊复诊网络数据、健康监测设备运营商存储的自我量化大数据、互联网搜索数据等;⑩公安、气象、经信等其他行业数据。
二、数据分析
数据分析主要包括3个阶段:计算、分析和可视化。数据计算利用批量计算、内存计算及流计算等技术,结合各类业务逻辑和算法,实现海量数据的离线、在线分析与处理。数据分析包括统计分析、数据挖掘、人工智能等,形成健康医疗大数据应用的分析模型库。数据可视化是将数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理,用户将经过分析后的数据结果应用于业务活动中。
Mahout是Apache旗下一款开源分布式机器学习框架,建立在MapReduce框架之上,因此适合大规模数据的分析任务。Mahout提供了许多常用算法接口,使开发者在不用了解算法底层实现的情况下完成算法的实际应用开发,提升工作效率,Mahout常用算法如表2-2所示。
表2-2 Mahout常用算法

三、数据应用
健康医疗大数据真正发挥作用在于与业务场景相结合,利用统计分析、数据挖掘等方法生产出有价值的数据结果,辅助发现规律、优化流程、创造新的业务价值。例如基于电子健康档案、移动设备监测、个人体征数据等为居民提供个性化的健康管理服务;通过疾病早期筛查、并发症分析、病理切片智能诊断、医学影像智能诊断等大数据应用完成疾病从早期预测到结束诊疗的全过程辅助;通过中医证候与症状分析、中医辨证论治等大数据应用,可辅助中医疾病诊疗。
四、平台维护
1.数据管理
健康医疗大数据平台应具有数据管理功能,包括对元数据、主数据、资源目录、数据质量、数据备份与恢复等的管理。
(1)元数据管理:
健康医疗大数据平台应能进行元数据管理。元数据是描述数据的数据。平台不仅需要对国家、卫生行业标准中的元数据进行管理,还需要对平台中重要的元数据进行管理,例如数据的表结构、数据的存储空间、读写记录、权限归属等。
(2)主数据管理:
健康医疗大数据平台应能进行主数据管理。主数据管理是对平台中共享的数据进行标准化管理,例如科室信息、标准疾病诊断名称等。
(3)数据质量管理:
数据质量管理对数据资源中心采集的各类数据资源进行数据质量检测、数据质量问题发现、跟踪以及修正,确保健康医疗大数据对各部门及分析应用提供可用、高质量的数据资源,保障资源中心中数据资源的完整性、唯一性、合法性、一致性、及时性等。通过数据清洗和数据质量评估等方式完成数据质量检查。
(4)资源目录管理:
面对共享资源库种类繁多的数据资源,需要以元数据为核心,以资源目录的形式管理起来,按照病种、来源部门、主题等分类对共享资源库的资源进行梳理、分类。资源目录管理包括数据资源的分类管理、数据资源注册、目录内容发布、目录检索等功能。
(5)数据备份与恢复:
健康医疗大数据平台中的许多数据,例如患者基本信息、电子病历等,处于非常重要的位置,确保数据的安全是系统必备的功能。根据设定的数据备份策略定期备份指定范围的数据,可以在需要的时候将备份的数据恢复。并且能够通过设定,利用系统提供的自动通知功能提醒系统管理人员备份数据。
2.安全管理
(1)用户管理:
通过用户管理可以规范用户对健康医疗大数据平台的使用行为,可以根据用户的组织机构设置相应的用户组和对应的用户。用户管理应该能够对用户进行全面的管理,包括用户组的增加、修改和删除;用户的增加、修改和删除;用户与用户组之间的对应;安全可靠的密码管理功能。
(2)权限管理:
在健康医疗大数据平台中权限管理至关重要,不同的用户应具有不同的权限,使用不同的信息路由路径,这样保证了平台的安全性、可靠性和稳定性。平台应从不同的角度进行相应的权限管理,功能权限指对接入平台的各个应用以及功能服务的访问权限;数据集权限即数据项权限,是指用户对传输中的信息各数据项的访问权限;管理范围及记录权限是作为共享数据信息内容的访问权限。当用户所具有的信息符合通过管理范围设定出的特殊匹配条件时,允许用户访问相应管理范围所规定信息内容,权限方案允许用户导出和导入。
(3)审计追踪:
健康医疗大数据平台应提供记录所有信息访问或信息更新操作日志,并提供数据的审计及操作追踪服务。审计追踪的内容包括:①记录每个业务用户的关键操作,例如用户登录、用户退出、增加/修改用户权限、用户访问行为和重要系统命令使用、内部数据访问行为等操作;②审计记录的内容应至少包括事件的日期、时间、类型、主体标识、客体标识和结果等;③支持授权用户通过审计查阅工具进行审计数据的查询,审计数据应易于理解;④具备审计日志数据的完整性保护,审计日志无法删除、修改或覆盖;⑤能够对业务系统的访问内容、访问行为和访问结果进行审计追踪,发现和捕获各种用户访问应用操作行为、违规行为,全面记录业务系统中的各种用户访问会话和事件,实现对业务系统访问信息进行关联分析;⑥能够对用户访问平台系统的认证、访问控制、数据签名、数据加密等业务操作进行综合监控。
3.日志管理
健康医疗大数据平台应可提供完善的日志管理功能,运行过程中自动生成日志文件,登记系统的日常运行信息、传输的数据包和文件信息、系统出错提示等。日志记录日常用户使用的情况,跟踪每一笔数据交换过程后进行的所有操作,例如操作流水号、系统名称、发送时间、接收时间、模块名称等,用以提高系统的安全性,跟踪非法操作与越权操作,统计接口的执行频度。日志级别可以配置,级别越高记录的数据越详细,可以产生多种日志,例如系统日志、数据包日志等。日志可用于对系统的运行状态进行监控,也可用于对系统的运行情况进行审计、故障处理、系统开发调试跟踪。健康医疗大数据平台一般需要提供如下日志管理功能:①提供调试开关的功能,使用户能够根据需要及时调节系统的核心,提高效率和可靠性;②提供日志定时清理和磁盘空间管理功能;③提供日志的查询和管理功能;④动态修改日志的等级,便于用户排错。
4.运行监控
健康医疗大数据平台应提供统一监控和管理工具,对平台的运行状况进行监控。通过监控画面,系统管理员可以及时地发现网络故障及平台运行的异常情况,通过平台提供的相关工具进行处理。监控管理工具能够灵活地部署在用户选择的计算机系统上。监控管理实现的功能包括:①动态地修改系统配置及相关运行参数;②对所监控的对象进行启动、停止或删除等管理操作;③提供性能监视器功能,提供交互服务运行基本参数指标监控,包括执行成功数、失败数、异常数、响应最大时间、响应最小时间、响应平均时间及分段监控等内容,也能对设定的关键指标、自定义指标进行监控;④提供异常告警功能,当平台运行异常时,可以第一时间监控到异常信息,并且能够将告警信息以系统提示的方式报警给系统管理员。
5.配置管理
由于健康医疗大数据平台是一个复杂、庞大的平台,软件系统需要不断地维护和更新,如果每修改一次都需要到用户终端进行一次程序更新,平台维护的工作量是无法想象的,为解决这一矛盾,平台应对各组件应能实行智能维护,提供功能服务组件版本自动更新功能、平台参数设置功能和个性化服务功能等。一站式大数据平台提供集群自动化部署服务,用户只需要安装Manager管理平台软件,就可以在图形化界面上安装、部署、配置所需要的服务。整个安装过程不需要用户使用任何终端命令或者代码。