第2章 数据的分布及其总体参数的估计
1何谓二项分布?其平均数与标准差的意义有哪些?
答:(1)二项分布的定义
二项分布是指试验仅有两种不同性质结果的概率分布,即两个对立事件的概率分布。二项分布的具体定义是:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(等于1-p),则对于某事件出现X次(0,1,2,…,n)的概率分布为:
二项分布用符号b(x.n.p),表示在n次试验中有X次成功,成功的概率为p。式中x=0,1,2,3,…,n为正整数,二项分布概率函数中有n与p两个参数,当二者的值已知时,便可计算出分布中各概率的值。
(2)二项分布平均数与标准差的意义
如果二项分布满足p<q,np≥5(或p>q,nq≥5)时,二项分布接近正态分布。这时,二项分布的X变量(即成功的次数)具有如下性质:μ=np,
即X变量为平均数为np,标准差为的正态分布。公式中n为独立试验的次数,p为成功事件的概率,q=1-p。由于n很大时二项分布逼近正态分布,其平均数、标准差是根据理论推导而来,故用μ和σ而不用X(_)和S表示。二项分布平均数与标准差的含义是指在二项试验中,成功次数的平均数μ=np,成功次数的离散程度
2二项分布的应用意义有哪些?
答:二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。机遇问题指在实验或调查中,实验结果可能是由于猜测而造成的问题。比如,选择题目的回答,选对选错,可能完全由猜测造成。凡此类问题,欲区分由猜测而造成的结果与真实的结果之间的界限,就要应用二项分布来解决。用二项分布的公式计算可以判断是否存在猜测问题。例如,有10道正误题,问答题者答对几题,才能认为不是出于猜测因素?已知猜对与猜错的概率p=q=0.5,np=5,此二项分布接近正态分布:
μ=np=10×0.5=5
根据正态分布概率,当Z=1.645时,该点以下包含了全体的95%。如果用原分数表示,则为μ+1.645Z=5+1.645×1.58=7.6=8。它的意义是完全凭猜测猜对8道题以上的概率只有5%,因此答对8题以上者不是出于猜测因素。
3何谓样本分布?
答:样本分布指样本统计量的分布,它是统计推论的重要依据。在科学研究中,一般是通过对一个样本进行分析,知道了样本统计量的分布规律,才能依据样本对总体进行推论,从而才能确定推论正确或错误的概率是多少。常用的样本分布有平均数及方差的分布。在涉及样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布。为了保证这一点,应该使用随机抽样的方法进行取样。
4正态分布的意义与应用有哪些?
答:(1)正态分布的意义
①正态分布在统计学中是个非常重要的概念。这个分布可以从某种合理的假设出发而推导出来,所以被认为是理论依据比较充分的概率分布。很多理论工作在正态分布的假设上形成。日常生活中许多经验数据的分布都接近正态分布,例如,人的身高、体重等。这些数据分布服从正态分布规律,因此可以用之来配合这些现象的样本分布,从而发现这些现象总体的理论分布。在适当的条件下,正态分布也可以作为离散性变量的近似分布,这样就能够用正态分布来计算概率和进行假设检验。另外,虽然有些总体不服从正态分布,但从总体中随机抽取出的样本统计数的分布,如样本平均数分布,在样本容量适当大时仍然趋向于正态分布,因此,可以用正态分布来研究这些统计量的抽样分布。所以正态分布无论在理论还是在实践上均具有非常重要的意义。
②正态分布又称常态分布或常态分配,是连续随机变量概率分布的一种,它是在数理统计的理论与实际应用中占有最重要地位的一种理论分布,其曲线函数又称密度函数,描述正态分布曲线的一般方程为:
正态分布的形式是对称的(但对称的不一定是正态的),它的对称轴是经过平均数点的垂线。正态分布的中央点,即平均数点最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即各为0.50。正态分布是一族分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。正态分布中各差异量数值相互间有固定比率。在正态分布曲线下,标准差与概率(面积)有一定的数量关系。
(2)正态分布的应用
①按能力分组时确定人数。假定能力是正态分布,将能力分组时可以依据正态分布理论确定各组或各等级的人数。
②化等级评定为测量数据。将等级评定转化为测量数据,首先要考虑被评定的心理量是否为正态分布,若为正态分布,可以转化为测量数据,即标准分数Z。若不是正态分布,则不能转化为Z分数。
③测验分数的正态化。当原始分数不服从正态分布时,先将原始分数的频数转化为相对累积频数,即百分等级,将它视为正态分布的概率,然后通过查正态分布表中概率值相对应的Z值,将其转换成Z分数,达到正态化的目的。
④确定测验题目的难易度。测验题目的难易度是百分数不是等距尺度,将难易百分数根据正态分布概率转换成难度分数才能比较不同难易度题目之间的难度距离。
5怎样理解t分布的意义与统计表的应用?
答:(1)t分布的意义
①t分布是一种与方差无关而与自由度有关的分布,很类似正态分布,可以将正态分布看作t分布时自由度为正无穷时的特例。它是对两个样本均值差异进行显著性检验的t检验的基础。它就是用t分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。当对呈正态分布的总体均值进行估计而样本很小(小于30)的情况下,当总体的标准差是未知的但却又需要估计时,都可以运用t分布。
②t分布是统计分析中应用较多的一种随机变量函数的分布,是统计学者高赛特1908年在以笔名“student”发表的一篇论文中推导的一种分布。因此,这种分布有时也叫学生氏分布,这种分布是一种左右对称、峰态比较高狭,分布形状随样本容量n-1变化而变化的一族分布。公式为:
③t分布是以平均值0左右对称的分布,左侧t为负值,右侧t为正值。变量取值在-∞~+∞之间。样本容量趋于∞时,t分布为正态分布,方差为1;当n-1>30以上时,t分布接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;当n-1<30时,t分布与正态分布相差较大,随n-1减少,方差越大,分布图的中间变低但尾部变高。
(2)统计表的应用
①t分布表由三方面的数值构成,即t值、自由度和显著性水平。表的左列为自由度,表的最上一行是不同自由度下t分布两尾端的概率,即p值。它是指某-t值时,t分布两尾部概率之和,即双侧界限。表的最下一行单侧界限,即从t值以下t分布一侧尾部的概率值。双侧概率通常写作tα/2,单侧概率写作tα。表内的数值是与不同的p值和df值相对应的t值,是根据t分布函数计算得到的,它随df及概率不同而变化。
②观察t分布表在自由度确定的情况下,t值越大,p值就越小。通常使用这个表有两种情况:一种是已知自由度和概率值查t值,另一种是已知自由度和t值查相应的概率值。有时所查t值,不一定恰恰与某概率的t值相等,这时可取近似的概率值,或用直线内插法计算其精确值。
③从t值表可查得自由度df=30的情况下,在0.05概率时,t=2.042,而正态表相同概率时Z=1.96,二者相差甚微,当df→∞时,t值表所列不同概率下的t值与正态表相应概率下的Z值完全相同。故可知当n→∞时,t分布的极限为正态分布。
6何谓置信区间?
答:置信区间是指在某一置信度时总体参数可能落入的区间。置信水平一般用a表示(0<a<1),当a=0.05时,区间包含总体参数的概率为95%,而出现错误的概率为5%。置信区间的上下二端点值称为置信界限。如,当专家称某校学绩测验的平均分数介于84.5~98.6之间的可能性有95%时,84.5~98.6这一分数段就是95%的置信区间,84.5和98.6分别是该置信区间的上、下置信限。置信区间的宽度与样本容量和置信度有关,置信度越大,置信区间也越宽。
7各统计量的区间估计方法有哪些?
答:各统计量的区间估计方法有:
(1)总体平均数的估计
①总体正态,方差已知,样本的平均数分布为正态分布,标准误的公式:
根据正态分布与标准误的关系,包含所有平均数的68.26%;包含所有平均数的95%;包含所有平均数的99%。可以推论,任何一个包含μ的可能为68.26%;任何一个包含μ的可能为95%;任何一个包含μ的可能为99%。
②总体正态,方差未知,样本平均数的分布为t分布,t分布与正态分布近似,左右对称,分布的形状受自由度(样本容量)的影响,标准误的计算
显著性水平一般为0.05或0.01。因为这一概率是小概率事件,在一次抽样中不易出现,查表确定临界值。方差已知:μ落在之间(查正态表);方差未知:μ落在间(查t表)。
作此结论正确的可能为1-α,出错的可能为α。
(2)总体方差的区间估计
区间估计公式:
查c2表:确定与的临界值。根据公式所计算的结果为总体方差置信区间,估计正确的概率为1-α,估计错误的概率为α。
(3)方差差异的区间估计
区间估计公式:
查阅F表,选择Fα/2的临界值。根据公式所计算的结果为方差差异的置信区间,估计正确的概率为1-α,估计错误的概率为α。