
第一篇 概论篇
第一章 综合评价概论
第一节 基本概念
一、评价与综合评价
随着决策科学的发展,评价科学也在不断发展。所谓评价(evaluation),是基于特定目标,通过对照某些标准来判断观测结果,并赋予这种结果以一定的意义和价值的系统过程。一般而言,观测结果仅能反映现状,只有通过评价之后,才能对现状的意义加以判断。例如,身高140cm,体重35kg,仅就这两个数字而言,并没有什么实际意义,而当与某一年龄的生长发育标准进行对比时,就能看出其意义与价值了。
评价应用于人类的生产生活实践已有数千年的历史,但关于评价的第一篇正式记载是1792年William Farish使用定量分数来评估学生的表现。经过200多年的发展,评估已经发展成为一个成熟的研究领域。
单一因素的评价易于实现,只要按一定的准则分别依据该因素给研究对象一个评价等级或分数,依等级或分数高低,便可排出优劣顺序;但是在医疗卫生实际工作中,对于复杂的状况,因同时受到多种因素的影响,必须综合考察多个有关因素,依据多个有关指标对评价对象进行评价,并排出优劣顺序。综合评价(synthetical evaluation)指基于特定的决策目标,从两个或多个方面收集相关信息,按照一定的评价标准,采用适当的方法和技术,对各备选方案的价值或优劣进行系统的评估,从而为决策提供有效证据。例如,某儿童的营养状况评价,就是综合分析所摄入的食物种类、数量、配比、吸收、疾病情况,以及身体发育、形态、功能、智力、遗传等有关因素,而得到的总的印象或总体评价。
综合评价不同于多个指标分析的简单相加,而是在掌握有关历史资料的基础上,将各种有关因素的信息集中,依据其内在联系进行适当加工提炼,并密切结合医疗卫生工作实践,用数理统计方法构建恰当的评价模型,以谋求对评价对象的类别及其优劣等级进行较为客观的判断,为医疗卫生工作决策提供依据。
作为当代的医疗卫生工作者,在总结经验、考核效果和进行科学研究过程中,经常会遇到综合评价问题。医疗保健决策基于不同人群的视角通常会有不同的回答,即使是同一人群,往往也需兼顾决策的多个方面,这类决策往往错综复杂。无论是宏观决策,例如:政府预算分配,医改方案的选择;还是微观决策,例如:患者最佳治疗方案的选择,某地中学生心理健康教育模式的选择等,影响这些决策的因素是多方面的,也往往存在多个备选方案。在实践中,依据相关信息评估备选方案以做出明智的决策,尚需付出巨大努力。对这类涉及多个目标的决策,采用综合评价的系列方法,对各个可能的备选方案进行优劣评价和排序,通过结构化、清晰的方法辅助决策,可增强决策的一致性、透明度和有效性,提高决策质量,更好地指导医学实践。
医疗卫生工作的理论和实践是一个广泛的领域,因而有关的综合评价必然涉及各个方面,有着十分丰富的内容。
根据评价手段,可分为定量评价(quantitative evaluation)与定性评价(qualitative evaluation)。定量评价较为客观、全面,易为人们所接受。对于一些缺乏客观、定量评估指标的情形,定性评价是很好的补充。
在医学研究中,根据评价的领域,可分为临床评价(clinical evaluation)、卫生评价(health evaluation)和管理评价(administrative evaluation)等。
临床评价包括诊断性试验和方法评价,用以评估某种诊断手段的应用价值,通常结合考察其敏感性、特异性与准确性进行综合评定,例如心电图运动试验对诊断冠状动脉狭窄的应用价值评估;包括疗效评价,用以评估各种临床治疗药物或疗法对某种或某类疾病的治疗效果,往往根据选定的多个疗效指标,对其有效性及安全性进行综合评价,例如内科疗法与外科疗法对颈总动脉病变所致一过性脑缺血的疗效评价;包括预后及转归评价,用以评估某些临床措施或病程中呈现的某些征象对疾病预后和转归的影响等。
卫生评价包括环境评价,用以对生活环境或生产环境的优劣进行评估,例如,大气质量、水质、土质污染程度的评价;包括营养评价,用以评估群体或个体营养状况以及某些食品或营养素的营养价值等,例如,婴幼儿营养状况的评价、老年人群蛋白质消化吸收状况评价等;包括生长发育评价,用以对不同发育阶段的儿童及青少年体格发育、行为智力发育与心理状况进行评价;还包括疾病防控效果评价、生活质量评价等。
管理评价包括事前需求评价(needs assessment),用以评估新方案在实施之前的需求程度和方案的可行思路,例如通过收集人群的意愿数据和利益相关者(stakeholder)的意见等评估肥胖预防措施的需求和相关政策的可行性;包括过程或实施评价(process or implementation evaluation),用以评估方案是否按计划实施,例如评估肥胖预防措施实施后干预对象是否被动员,以及相关意识是否有提升;包括结果评价(outcome evaluation),通过评估方案完成后的结果或结果的进展来衡量方案在目标人群中的效果,例如评估肥胖预防措施所引起的目标人群态度、行为、健康结局,甚至相关政策的改变;包括影响评价(impact evaluation),通常用以评估方案对于人群水平或远期的影响,例如评估肥胖预防措施对目标人群远期健康结局的影响。
按评价阶段,可分为预评价(pre-event evaluation)、中期评价(interim evaluation)和终结评价(afterevent evaluation)。
预评价,是在制订某项医疗措施计划时进行评价,这时还未开展大量的试验研究工作,还缺乏来源于实践的数据,主要是参考有关资料,汇集各方面意见,通盘考虑方案中的各种问题,制订切实可行的方案,这种评价具有预测性,属探索性评价。
中期评价,是在大量进行试验研究工作之后进行的,着重验证设计或方案的正确性与可行性,研究暴露出来的问题,并采取必要的措施或对策,以决定在原计划或方案中应保留的部分、应改进的部分及应摒弃的部分。
终结评价,是在试验研究工作全部完成以后进行的,属于推广应用前的评价,着重全面审查研究成果,并与同类成果或技术在科学性、先进性、实用性、经济性等各方面进行综合比较,以决定优劣取舍。
对某一具体事件的评价,可能既涉及前一种分类的内容,又涉及后一种分类的内容;既包括对整个系统的评价,也包含对可靠性、可行性方面的评价;而且对于同一事件,依不同目的往往有不同的评价标准,这就使得评价工作复杂化和评价结果多样化。
二、综合评价的数据准备
(一)高质量的内容丰富的数据信息是综合评价的基本前提
信息的缺乏,将无法认识事物间的相互联系,也无法探求事物的规律。这些信息,有反映现状的,有反映历史的,有定量的,也有定性的……从某种意义上讲,综合评价就是信息管理的全过程,即信息的收集、处理和分析的过程,只有在充分掌握有关评价对象相关因素信息的基础上,才有可能作出科学可靠的评价。
1.数据的收集
是一项至关重要的基础工作,有的信息来自第一手数据,有的来自第二手数据。
第一手数据,包括以各种形式直接收集到的数据,主要来源于三个方面:各种统计报表,各种医疗卫生工作记录和报告卡,以及专题调查或实验(包括各种形式的抽样调查,普查和典型调查),获取第一手资料往往需时较长,费用较高,但较为可靠。
第二手数据,多为已经公布或发表的有关资料。随着信息技术的高速发展,医疗卫生工作者有越来越多的机会获取公共数据,用于综合评价。这类数据易于获取,可以节省大量的人力、物力和财力。其缺点亦显而易见:一方面不是为某项研究量身定制,未必能够获取所需的全部数据信息;另一方面,二手数据质量良莠不齐,需进行仔细的数据核查与筛查。
收集的数据,应符合以下要求:
(1)完整:内容全面,无遗漏,范围齐全,时间连续。
(2)准确:这是最重要也是最基本的要求。资料应准确反映实际情况,各项目之间无矛盾,各数字无不合理现象。
(3)及时:有良好的时效性,从某种意义上说,信息的价值取决于提供信息的时间。
(4)适用:信息能反映本质问题,包括那些实际上能产生潜在影响的信息,有利于提高工作效率。
(5)经济:以较低的投入获取所需的信息,保证评估的经济可行。
2.数据的预处理
信息的准确和可靠性直接影响到评价的客观性,由于多方面的原因,我们收集到的资料不可避免地会受到某些干扰。同时,考虑到资料使用的方便,有必要对数据进行预处理。
数据预处理,即用各种方法对原始资料进行核查与筛查,确保其准确、完整,并使之条理化、系统化的过程。包含数据的准确性核查,通过人工核验或统计量、统计图表来检验数据的准确性;包含识别与处理可疑的离群值(outlier),从而改善资料分析条件的过程;包含缺失数据(missing data)性质与数量的评价,并按照科学原则进行相应处理,从而保证资料完整性的过程;也包含定性资料或等级资料与定量资料间的相互转换,尤其是定性或等级资料定量化,从而适于进一步分析的过程;也包含由已知信息来推算有关的未知信息,从而获得新的信息的过程。
(1)数据准确性核查与整理:可通过双人核对或录入数据统计描述的方法核验数据中的错误或遗漏,对各项目之间存在的矛盾与不合理现象,应根据实际情况予以纠正、补充,或删除;在此基础上,根据研究设计中整理分析计划的要求进行合理的分组汇总。
(2)离群值的查找与处理:在一组观测值中单变量极端取值(单变量离群值)或两个或多个变量的极端组合(多变量离群值),即为可疑的离群值,这样的离群值会使综合评价结果失真。
通常情形下,对单变量计量资料离群值的查找,当定量资料服从正态分布时,可使用拉依达准则、格鲁布斯法进行单变量离群值的识别;当资料不服从正态分布时,可采用Q检验法查找单变量离群值。此外,也可借助于直方图、箱式图、P-P图和Q-Q图等发现潜在的离群值;对多变量离群值的查找,可计算马氏距离(Mahalanobis distance)、杠杆值(leverage value)与影响值(influence value)等,读者可以参考有关专著。
导致离群值的原因可能是数据录入错误(予以纠正)、缺失值的录入代码没有专门定义(标记)、观察单位不属于目标人群(删除)、测量值为非正态分布中的一些极端值(变量转换),应根据情况予以相应处理。
(3)缺失数据处理:数据缺失是评估中常见的问题之一,可由各种原因引起,如:动物死亡、设备故障、调查对象的退出、失访或人为的失误等。
在完全随机缺失或随机缺失的情形下,如果缺失值数量不大(不足5%),对缺失数据可予删除或进行缺失值估计。常用的缺失值估计方法有经验法、均值替代法、回归法、期望最大法(expectation maximization algorithm,EM法)等,读者可以参考有关书籍。
(4)各种类型资料间的数量转换:在进行综合评价时,必然涉及多个评价指标,有些是定量的,有些是定性的或等级的。为了满足某些评价方法的要求,在某些情况下,需要把一种类型的资料转换成另一种类型的资料。
计量资料转换成计数资料或等级资料的过程较易实现,只要依据有关专业知识,合理制订不同类别(或等级)间的数量界限,并对各观察单位进行清点计数,便可将一组计量资料转变成计数资料或等级资料。例如,脉搏次数(次/min)本为定量指标,如果规定脉搏数少于60次/min为缓脉,60~100次/min为正常,多于100次/min为速脉,则该定量指标就转换成了有3个等级的等级资料,可按缓脉、正常、速脉3个级别来清点观察单位数。
计数资料与等级资料转换成计量资料的过程较为复杂。一方面,某些定性指标本身难以量化;另一方面,对那些半定量的等级资料,如何对各等级进行恰当的赋值,使得这种定量能较为准确地反映各等级间的差别,也是一个值得探索的问题。医学现象本身是一个极其复杂的过程,目前很多医疗卫生评价指标都缺乏进行客观度量的有效手段,例如,头痛或腹痛程度,就只能凭患者的主诉与医生的判断加以度量。与医学有关的社会、政治、文化等诸方面评价指标的客观度量就更为困难了。因此,医学现象的数量化过程,是计量医学发展中的一个问题,也是评价科学发展中的一个问题。
对于按性质分类的计数资料,如果研究的属性限于两类,则一般用0和1将其转换成(0,1)变量;如果研究的属性多于两类,一般说来,一个有m种属性分类的定性指标,可转换成(m-1)个(0,1)变量。如血型,有O型、A型、B型、AB型4个分类,则可以用X1、X2、X3和3个哑变量进行赋值,可规定O型为X1=1,其他型为X1=0,A型为X2=1,其他型为X2=0,B型为X3=1,其他型为X3=0,即O型用X1=1,X2=0,X3=0表示;A型用X1=0,X2=1,X3=0表示;B型用X1=0,X2=0,X3=1表示;AB型用X1=0,X2=0,X3=0表示。
对于等级资料,常按照各等级由低到高的排列顺序转换成取值由小到大排列的一个变量X,各等级间的数量差异应酌情而定,可取公差相等或不等的等差级数,甚至可取等比级数。例如:腹痛分成不痛、轻度痛、中度痛和重度痛4个等级,则可规定不痛为X=0,轻度痛为X=1,中度痛为X=2,重度痛为X=3等。
(5)常用的信息推算法:依据已掌握的信息及其与客观事物间的联系,我们可以间接推算出由于各种原因不能直接测定的所需信息。
1)平衡法:利用平衡关系式推算某些短缺资料。例如,在“某年人口数=上年人口数+同年出生数-同年死亡数+同年迁入人口数-同年迁出人口数”的平衡关系式中,如果缺少迁出人口数,其他数据均为已知,则可由以上关系式推出:同年迁出人口数=上年人口数+同年出生数-同年死亡数+同年迁入人数-某年人口数。
2)几何增长速度法:在已知历史数据按等比级数增长的条件下,可用此法推算两个历史数据之间所短缺的某些历史资料。设已知某事物的平均发展速度其中an为资料中最后一年的某指标量,a0为第一年的某指标量,n为年份差数,则可据此推算a0至an年间任意一个年份的某指标量,设为ak,则ak为:

式中y为推算年份与a0之差值。
3)因素推算法:利用现象内部各构成因素之间的变化关系进行资料推算。例如,由某年龄组人口数=总人口数×该年龄组人口构成比,便可在已知某地总人口数及人口构成的历史资料的基础上,推算某地各年龄组人数。
(二)提倡现成历史资料的综合利用
不少医疗卫生单位长期以来在利用各种现成的历史资料方面存在着调查研究多,资料分析少;登记材料与表格多,科学结论少;单指标分析多,多指标综合评价少等现象。这使得现有的信息得不到充分利用,因此,提倡对现有历史资料的综合利用,甚至着手实现信息的区域性合作与国际合作,充分利用现有的计算机软件,提倡专业工作者与卫生统计工作者进行广泛深入的协作,将使得通过各种途径而获取的多方面信息发挥最大的作用,也将使得各种形式的综合评价模型更加稳定可靠。