
第二节 文体特征的平均值、中位数、众数
我们进行文体研究时,为了区别、比较几个作家的用词习惯或者句子长度,最直观也是经常被人们自觉或者不自觉地运用的一个数值就是平均值。如果两个作家对某一个词汇的平均使用次数,或者他们的平均句子长度差别很大,我们就可以认为这两位作家在用词和句子长度上是具有各自的特点的。
平均值在统计学上叫数学期望,代表一种现象的平均取值水平。平均值通常用来进行团体之间水平差异的比较。比如我们如果想知道两个班学生学习成绩的好坏,通常会将两个班学生的平均成绩放在一起进行比较。这是最便捷、也是最直接的一种比较方法。平均值在统计学上还有更重要的作用。这在以后还将进行介绍。
平均值的求法通常是将统计到的所有的观察值加在一起,再除以观察值的个数即可。我们以鲁迅先生的《拿来主义》为例,统计鲁迅先生标点符号之间的间隔距离(以汉字为单位,标点符号算作一个汉字),以及每一种距离出现的次数。下表为统计结果:
表2.3《拿来主义》标点间隔距离分布情况


为了叙述方便,我们设《拿来主义》中鲁迅标点符号之间的间隔距离为随机变量X,平均间隔距离为E(X),那么,
E(X)=(1*14+2*4+3*33+4*23+5*30+6*13+7*17+8*21+9*8+10*13+11*13+12*5+13*4+15*1+16*2+17*2+22*1)/(14+4+33+23+30+1 3+17+21+8+13+13+5+4+1+2+2+1)
≈6.3137
或者,所有的间隔距离与其出现的频率的积的和,即,
E(X)=1*0.09+2*0.02+3*0.2+4*0.141+5*0.184+6*0.08+7*0.104+8*0.13+9*0.05+10*0.08+11*0.08+12*0.03+13*0.025+15*0.006+16*0.012+17*0.012+22*0.006≈6.3137.
实际上统计学上的数学期望的定义和上述平均值的第二种求法是一致的。即,如果随机变量X=xi时的概率为pi,则

中位数
平均值常常用来比较两组数据差异,但是有时候两组数据的差异并不能够在平均值上反映出来。平均值常常不能够反映一组数据的真实情况。在统计一个地区的家庭收入时,如果这个地区贫富分化非常大,少数富豪掌握了绝大多数财富,而绝大多数普通家庭收入只占整个地区收入的一小部分,这时有可能整个地区收入的平均值很高,但是整个地区绝大多数人的家庭收入却很低,所以这时就不能够因为家庭收入平均值很高就可以认为这个地区的家庭就很富裕。
在文体风格的描述上也存在类似情况。比如一个作家的断句没有太大的规律性,有时很长,有时很短;而另一个作家在标点符号的使用上却很有规律,标点符号的间隔距离比较平均。假如这两个作家标点符号使用的平均间隔距离恰好相等,由于上述情况的存在,我们是不能因为其平均值相等就认为他们在断句的习惯上是一致的。这一点我们可以用下面学生成绩的例子来进行说明。
比如下面是两个组学生的数学成绩:
第一组 43 56 58 60 68 71 71 98 100 100
第二组 64 65 70 70 72 73 75 75 81 85
根据平均值的计算方法,我们可以计算得到第一组数据的平均值为72.5;第二组数据的平均值为73。从这两组数据的平均值来看,两组学生的成绩差距不大。但是我们仔细观察两组成绩的具体情况时发现,第一组成绩的平均值虽然有72.5,然而里面60分以下的有三名,两极分化比较严重,大部分成绩不如第二组。而第二组虽然没有第一组那样的高分,但是成绩比较均衡,整体上要明显好于第一组。由此可以看出,像这样的情况仅仅依靠平均并不能够准确判断两组数据的差距。为了克服平均值的这种局限性,统计学上常用中位数来解决。所谓中位数(median),就是将数字按照大小顺序进行排列,取其处于中间位置的那个数字作为一组数据的代表值。
中位数的计算方法分两种情况,第一种情况是当一组数据有奇数个时,取其处于中间位置的那个数字。如:6、7、8、9、10这组数据,处于中间位置的数字为第三个8,那么8就是这组数据的中位数。第二种情况是当一组数据有偶数个时,取其中间两个数据的平均值。如上述学生成绩的第一组数据的中位数为(68+71)/2=69.5;而第二组数据的中位数为(73+72)/2=72.5。就这两组数据看,中位数比平均值更能够反映两组数据的实际情况。
统计学上除了常用均值、中位数来作为一组数据的代表值外,还用到众数等概念。
下面介绍利用均值和中位数进行作家文体分析的方法。在我国现代作家中,鲁迅和瞿秋白的写作风格比较接近,有人甚至认为瞿秋白和鲁迅的杂文可以以假乱真(彭蕴辉,1992)。这里以鲁迅的《拿来主义》和瞿秋白的《关于女人》为例,考察鲁迅和瞿秋白标点符号间隔距离的平均值和中位数的差距。
拿来主义
鲁迅
六月四日。
关于女人
瞿秋白
一九三三年四月十一日
首先,我们分别统计《拿来主义》和《关于女人》两篇杂文中标点符号的间隔距离。结果如下表:
表2.4《拿来主义》和《关于女人》中标点距离出现情况


根据以上统计结果,鲁迅《拿来主义》标点符号的平均间隔距离为,

从上述标点符号间隔距离的平均值来看,鲁迅的《拿来主义》和瞿秋白的《关于女人》还是有比较大的差别的。至于这两篇杂文的标点符号间隔距离的平均值是否就能够代表鲁迅和瞿秋白所有作品标点间隔的特点,这两个平均值的差距是否能够说明反映在标点间隔距离上的鲁迅和瞿秋白写作风格的差别,还需要用统计学上的更深的理论和方法进行分析。这些理论和方法将在本书的后面的章节里面进行详细阐述。
下面介绍这两篇杂文标点符号间隔距离的中位数的算法。根据中位数的定义,计算中位数时需要对所有数据按照大小进行排序,然后取中间位置的一个值(总数为奇数时),或者中间位置的两个值的平均值(总数为偶数时)。在我们将每一个数值及其频度都已经统计出来的情况下,再进行所有数据的排序比较复杂,而且是不必要的。由于我们已经得出了每一个间隔长度所出现的频度,并且已经将其按照间隔长度的大小进行了排序,这时的中位数计算方法可以用累计频度为总标点数1/2位置上的标点间隔长度作为标点间隔距离的中位数。上例中,瞿秋白的《关于女人》标点总数为94,其1/2为47,标点间隔长度的累计频度为47位置上的标点间隔长度为9,因此,《关于女人》的标点符号间隔长度的中位数为9;同样道理,鲁迅的《拿来主义》的标点符号间隔长度的中位数为5。具体情况参见下表。
表2.5 两部作品标点距离的累计频度


众数
顾名思义,众数就是在获得的一组数据中出现次数最高的那个数据。在根据上述统计结果,瞿秋白的《关于女人》中的标点符号间隔距离为9的情况出现了11次,是所有的数据中出现次数最多的;而鲁迅的《拿来主义》中间隔距离为3的情况出现次数最多为33次。根据众数我们可以得到一个基本的印象,就是瞿秋白《关于女人》中句子的长度要比鲁迅的《拿来主义》要长,这也是瞿秋白和鲁迅写作风格的体现。