从真实走向虚拟
——平均数、中位数、众数三个集中量的历史演变
陈金飞
统计是一门数据科学。它的任务是从数据中提取信息,探索数据内在的规律性,以达到推断所测对象的本质,甚至预测对象的未来的目的。为了定量地把握总体的规律,通过归纳、列表、制图等初步整理工作,用样本的数据对总体的数据特征进行研究,包括集中量、差异量、相关量等。常见的集中量有算术平均数、中位数、众数等。在对学生的调查中发现,当需要表示一组数据的总体水平时,学生不知道选用哪个统计量比较合适。学生往往把平均数理解为平均分,甚至有学生把平均数作为整数、分数、小数外的第四种数。怎样帮助学生建构平均数、中位数、众数的概念,理解三个集中量的统计意义?从概念的历史产生过程中,或许能获得解决问题的方案。
一、算术平均数从真实数据走向虚拟数据。
算术平均数是统计学中的重要概念。陈希孺指出,如果我们从理论的角度走一点极端,则可以说,一部数理统计学的历史,就是从纵横两个方向对算术平均数进行不断深入研究的历史。纵的方向指平均数本身的发展,如伯努利及其大数律、狄莫弗—拉普拉斯中心极限定理、高斯的正态误差理论,这些研究成果,如今成了支撑数理统计学这座大厦的支柱。横的方向,指平均数思想的发展。从利用平均数估计大数,到重复测量取平均数减少误差,发展为平均数作为总体的代表值,实现了代数概念到统计概念的飞跃。
1.利用平均数估计总数
在历史上,平均数最早是用来估计总数的。公元4世纪,在古印度有一个故事:古印度王图潘纳(Rtuparna)发现一棵枝叶茂盛的大树长有几个大的树枝,他想估计这几个树枝上树叶和果实的数目。他首先估计了根部的一条粗细中等的树枝上树叶和果实的数目,然后数出这棵树上树枝的数目,用一个树枝上树叶和果实的数目乘树枝的数目,推断出这棵树上树叶和果实的总数目。在这个例子中,图潘纳选用粗细中等的树枝作为整棵树枝上树叶和果实数目的代表值,这可能是算术平均数的直觉使用,因为所选的树枝代表了其余所有树枝,其数量处于“中间”位置。
后来人们估计大数时,引入“中点值”,即取两个极端值的算术平均数。如取人数最多和最少的两条船上人数的平均数,再乘以船只的数量,就估计出全部船只上的人数。可见,中点值计算是求平均数的原始方法。用现代的观点来看,中点值不是一个很有用的平均数,因为它对极端值太敏感。
2.利用平均数减少误差
到了公元16世纪,人类对平均数的认识有了新的发展。人们发现“中点值”作为代表值,误差较大。如果把所有数据求和再均分,获得的结果比中点值更可靠,可以减少误差。在1582年至1588年期间,丹麦大天文学家第谷对某一天文量进行重复观测,他得到一组观察值。由于观测时间、气候的不同,得到的观测数据各不相同,究竟哪一个最精确呢?第谷取所有数据的平均值作为假想的真实值,从而用算术平均数来消除误差。在天文学界,第谷的这一做法一开始并没有为多数人所接受,他们认为,当有多个观测值时,应选择其中那个“谨慎地观测”所得的值,认为这比平均值可靠。因为不同天文学的设备、观测条件及人员素质难免有差异,所以得到的观测结果的可靠性也有差异,取平均数将会使结果受到“坏”的观测值的干扰,而不如其中的优秀者。不过人们又不得不承认:要想在一组数据中“择优”,在现实状态下并非总是可能的。面对众多的观测值,往往并无足够的根据去鉴定其优劣,只好一视同仁地对待。可见,撇开未知的真实值,取算术平均值反而比某个真实值更可靠。
辛普森为了消除当时天文学家对取平均数代表真实值的疑虑,印证第谷用平均数以减少误差的想法是正确的,专门撰写了《在应用天文学中取若干个观察值的平均的好处》一书,他用数学的视角来证明,取平均数这个做法具有更大的可靠性。同样,高斯在其数学和天体力学的名著《天体运动理论》中也指出:如果在相同的条件下并具有同样的认真程度,任何一个对象通过几次直接的观测而确定,那么观测值的算术平均数提供了最可能的取值,即使不是太严格,但至少十分接近,使得它总是一个最安全的取值。现在,人们已经习惯于把高斯的这个观点当作一个公理。在学生理解平均数的过程中,重复测量可能是一个有用的活动。
从用平均值来估计总数,到取平均数作为测量的真实值,是统计史上人类认识的一次飞跃。历史启示我们,在科学发展史上,人类观念上的革新和突破是如何的不容易,直到第谷点破,我们才感到用求和均分后获得的平均值作为观察值,相对于“择优法”更可靠,但在没有发现之前,许多学者努力了几十年也无功而返。
3.平均数作为总体代表值
到了19世纪,人们对平均数的认识实现了新的飞跃,把算术平均数作为一种数据处理方法,即作为一组数据的总体代表值,从真实数据走向虚拟数据。这首先得益于比利时数理统计学家阿道夫·奎特莱特提出的“平均人”的思想。这是奎特莱特运用概率论,在探索人类自身规律的过程中所提出的独特概念。他把社会上的人,抽象出来作为生理意义上的人来研究。从1831年开始,奎特莱特搜集了大量关于人体生理测量数据,如体重、身高与胸围等,经分析研究后,认为这些生理特征都围绕着一个平均值而上下波动、呈现出很正规的分布。由于奎特莱特具备包括统计学在内的广泛知识,以及擅长与国际统计界的交流,所以,他能融会贯通各家各派的统计思想,从而在博采群言的基础上,迅速把统计学推向新的高度。从统计学原理的角度来说,奎特莱特把平均数理解为现实生活中的“总体”特征的反映,他第一个把算术平均数当做总体某方面的代表值。从真实值到统计意义上的代表值的转变是观念上很重要的变化。马克思曾给奎特莱特以很高的评价:“他过去有很大的功绩。他指出:即使是社会生活的表面上的偶然性,由于它们周期性的反复和周期性的平均数,仍然具有内在的必然性。”
把平均数从真实值推向虚拟值,成为一个抽象的统计量,主要的标志是“2.5人”的出现。过去,人们只是从一组数据中寻找一个可靠的值作为代表值,这个值具有现实意义。而“2.5人”的出现,彻底改变了人们对平均数的认识。当平均数作为统计意义下的一个代表值时,它可能没有实际意义,比如说平均每个家庭有2.5人,这里的“平均”是一种测量手段,“平均”有“代表性、典型性”的含义。至此,人们对平均数的认识达到了新的高度。当平均数作为统计意义下的代表值时,不管是通过移多补少还是求和均分,获得的平均值总是一个虚拟的数据。
当平均数作为一组数据的代表值时,成为人们对公平公正的利益诉求。罗马法律规定:当遭遇暴风雨时,人们为了避险,往往选择一些较重的物品抛入大海,以避免船翻或保全其余的货物。这种背景下产生的损失理当由全体商人和船主共同平等地分担。同时,统计概念下的平均数,往往太受极端数据的影响,又不能体现人们的利益诉求。例如公司招聘中的“平均工资”,成为骗人的小把戏。10个工人,平均每人每月3000元,听起来工资水平蛮高,但事实是,其中一个工人每月拿12000元,其余工人是每人每月2000元 ,显然用平均数作为这组数据的代表值有失平均数的公平公正性。那么该选择哪个统计量体现平均工资水平,使之不受超高工资的影响?实际上,描述一组数据的平均水平,除了应用较为广泛的平均数外,还有中位数和众数。中位数顾名思义是处于一组数据最中间的数,位置固定,不受极端数据的影响,正好代表平均工资水平。
二、中位数凸显数据代表值的稳健性
在历史上中位数几乎是作为平均数的代替品而出现的。大约在1755年,博斯科维奇(Boscovich)在有关测量的误差工作中用到了中位数。从历史现象学的角度看,中位数的出现可能是为了取代平均数。在19世纪,科学家们有不同的理由用中位数代替平均数。1874年,费歇尔试图用天文学中行之有效的方法描述心理学和社会现象,他使用了中位数,其重要原因是它在计算上的简化和直觉上的清晰性。埃其渥斯同样倾向于中位数,因为平均数对极端数据太敏感,而中位数往往比平均数更“稳健”(即对极端数据不敏感)。1882年,高尔顿第一次提出使用“中位数”这个术语。与数学历史经常发生的情况一样,高尔顿在使用这个术语之前就已经知道这个概念,但他起初使用其他术语,如“最中间的值”,“中等的”等。1847年,他在一次演讲中给出了下列描述:“一个占据中间位置的物体具有这样的性质,比它多的物体的数目等于比它少的物体的数目。”
在实际应用中,学生对中位数的理解比平均数更困难。在数据呈现偏态分布的情形下,即出现极端数据的情况下,适合选择中位数作为一组数据的代表值。
三、众数表示重复计数中的准确值。
相对来说,众数容易理解,它的历史也比较简单。第一个使用众数的例子,可能出现在雅典和斯巴达战斗中。在公元前428年冬天,普拉铁阿人和一些雅典人被伯罗奔尼撒人和皮奥夏人包围。不久,普拉铁阿人开始出现粮食短缺,处于绝望之中,由于从雅典人那里获得援助已经没有希望了,也看不到其他安全突围的方法,普拉铁阿人便和雅典人商议弃城而去,并打算做梯子翻过敌人的城墙。由于梯子的高度要与敌人城墙的高度一样,为此,只有通过数敌人城墙上砖块的层数来计算城墙的高度。在同一时间,发动许多士兵一起数城墙上砖块的层数,有些可能数错了,但离城墙不太远的士兵,可能得到一个真实值,因此把出现次数最多的层数作为代表值。
了解这三个概念的历史起源,无疑为我们的教学开启了一扇新的窗口。对于统计概念的学习而言,重要的不是统计量的计算,而是对意义的理解。统计关注的是一组数据能告诉我们什么信息,我们又能从数据中提取怎样的信息。通过画图表、计算了解数据的特征,用样本的频率分布估计总体的分布,都是为了定量地把握总体的规律。因而在教学中,教师要避免把统计教成制作图表,计算,不然就偏离了统计的实质。
参考文献:
[1]陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2002.
[2] 吴俊,黄青云.基于数学史的平均数、中位数和众数的理解[J].数学通报,2013,52(11):16-21.
﹡本文系江苏省教育科学“十二五”规划重点资助课题“数学史视野下的小学数学教学的案例研究”(批准号:B-a/2013/02/002)的研究成果之一。
【原文出处】《小学教学》(数学版),2015.9.47~49
作者简介:陈金飞,1974年生,男,江苏启东人,江苏省启东实验小学副校长,中学高级教师,主要从事小学数学教学研究。
【作者单位】江苏省启东实验小学,联系地址:江苏省启东市人民中路720号(226200),联系电话:15962731800,E-mail:cjxxcjf@163.com。
——平均数、中位数、众数三个集中量的历史演变
陈金飞
统计是一门数据科学。它的任务是从数据中提取信息,探索数据内在的规律性,以达到推断所测对象的本质,甚至预测对象的未来的目的。为了定量地把握总体的规律,通过归纳、列表、制图等初步整理工作,用样本的数据对总体的数据特征进行研究,包括集中量、差异量、相关量等。常见的集中量有算术平均数、中位数、众数等。在对学生的调查中发现,当需要表示一组数据的总体水平时,学生不知道选用哪个统计量比较合适。学生往往把平均数理解为平均分,甚至有学生把平均数作为整数、分数、小数外的第四种数。怎样帮助学生建构平均数、中位数、众数的概念,理解三个集中量的统计意义?从概念的历史产生过程中,或许能获得解决问题的方案。
一、算术平均数从真实数据走向虚拟数据。
算术平均数是统计学中的重要概念。陈希孺指出,如果我们从理论的角度走一点极端,则可以说,一部数理统计学的历史,就是从纵横两个方向对算术平均数进行不断深入研究的历史。纵的方向指平均数本身的发展,如伯努利及其大数律、狄莫弗—拉普拉斯中心极限定理、高斯的正态误差理论,这些研究成果,如今成了支撑数理统计学这座大厦的支柱。横的方向,指平均数思想的发展。从利用平均数估计大数,到重复测量取平均数减少误差,发展为平均数作为总体的代表值,实现了代数概念到统计概念的飞跃。
1.利用平均数估计总数
在历史上,平均数最早是用来估计总数的。公元4世纪,在古印度有一个故事:古印度王图潘纳(Rtuparna)发现一棵枝叶茂盛的大树长有几个大的树枝,他想估计这几个树枝上树叶和果实的数目。他首先估计了根部的一条粗细中等的树枝上树叶和果实的数目,然后数出这棵树上树枝的数目,用一个树枝上树叶和果实的数目乘树枝的数目,推断出这棵树上树叶和果实的总数目。在这个例子中,图潘纳选用粗细中等的树枝作为整棵树枝上树叶和果实数目的代表值,这可能是算术平均数的直觉使用,因为所选的树枝代表了其余所有树枝,其数量处于“中间”位置。
后来人们估计大数时,引入“中点值”,即取两个极端值的算术平均数。如取人数最多和最少的两条船上人数的平均数,再乘以船只的数量,就估计出全部船只上的人数。可见,中点值计算是求平均数的原始方法。用现代的观点来看,中点值不是一个很有用的平均数,因为它对极端值太敏感。
2.利用平均数减少误差
到了公元16世纪,人类对平均数的认识有了新的发展。人们发现“中点值”作为代表值,误差较大。如果把所有数据求和再均分,获得的结果比中点值更可靠,可以减少误差。在1582年至1588年期间,丹麦大天文学家第谷对某一天文量进行重复观测,他得到一组观察值。由于观测时间、气候的不同,得到的观测数据各不相同,究竟哪一个最精确呢?第谷取所有数据的平均值作为假想的真实值,从而用算术平均数来消除误差。在天文学界,第谷的这一做法一开始并没有为多数人所接受,他们认为,当有多个观测值时,应选择其中那个“谨慎地观测”所得的值,认为这比平均值可靠。因为不同天文学的设备、观测条件及人员素质难免有差异,所以得到的观测结果的可靠性也有差异,取平均数将会使结果受到“坏”的观测值的干扰,而不如其中的优秀者。不过人们又不得不承认:要想在一组数据中“择优”,在现实状态下并非总是可能的。面对众多的观测值,往往并无足够的根据去鉴定其优劣,只好一视同仁地对待。可见,撇开未知的真实值,取算术平均值反而比某个真实值更可靠。
辛普森为了消除当时天文学家对取平均数代表真实值的疑虑,印证第谷用平均数以减少误差的想法是正确的,专门撰写了《在应用天文学中取若干个观察值的平均的好处》一书,他用数学的视角来证明,取平均数这个做法具有更大的可靠性。同样,高斯在其数学和天体力学的名著《天体运动理论》中也指出:如果在相同的条件下并具有同样的认真程度,任何一个对象通过几次直接的观测而确定,那么观测值的算术平均数提供了最可能的取值,即使不是太严格,但至少十分接近,使得它总是一个最安全的取值。现在,人们已经习惯于把高斯的这个观点当作一个公理。在学生理解平均数的过程中,重复测量可能是一个有用的活动。
从用平均值来估计总数,到取平均数作为测量的真实值,是统计史上人类认识的一次飞跃。历史启示我们,在科学发展史上,人类观念上的革新和突破是如何的不容易,直到第谷点破,我们才感到用求和均分后获得的平均值作为观察值,相对于“择优法”更可靠,但在没有发现之前,许多学者努力了几十年也无功而返。
3.平均数作为总体代表值
到了19世纪,人们对平均数的认识实现了新的飞跃,把算术平均数作为一种数据处理方法,即作为一组数据的总体代表值,从真实数据走向虚拟数据。这首先得益于比利时数理统计学家阿道夫·奎特莱特提出的“平均人”的思想。这是奎特莱特运用概率论,在探索人类自身规律的过程中所提出的独特概念。他把社会上的人,抽象出来作为生理意义上的人来研究。从1831年开始,奎特莱特搜集了大量关于人体生理测量数据,如体重、身高与胸围等,经分析研究后,认为这些生理特征都围绕着一个平均值而上下波动、呈现出很正规的分布。由于奎特莱特具备包括统计学在内的广泛知识,以及擅长与国际统计界的交流,所以,他能融会贯通各家各派的统计思想,从而在博采群言的基础上,迅速把统计学推向新的高度。从统计学原理的角度来说,奎特莱特把平均数理解为现实生活中的“总体”特征的反映,他第一个把算术平均数当做总体某方面的代表值。从真实值到统计意义上的代表值的转变是观念上很重要的变化。马克思曾给奎特莱特以很高的评价:“他过去有很大的功绩。他指出:即使是社会生活的表面上的偶然性,由于它们周期性的反复和周期性的平均数,仍然具有内在的必然性。”
把平均数从真实值推向虚拟值,成为一个抽象的统计量,主要的标志是“2.5人”的出现。过去,人们只是从一组数据中寻找一个可靠的值作为代表值,这个值具有现实意义。而“2.5人”的出现,彻底改变了人们对平均数的认识。当平均数作为统计意义下的一个代表值时,它可能没有实际意义,比如说平均每个家庭有2.5人,这里的“平均”是一种测量手段,“平均”有“代表性、典型性”的含义。至此,人们对平均数的认识达到了新的高度。当平均数作为统计意义下的代表值时,不管是通过移多补少还是求和均分,获得的平均值总是一个虚拟的数据。
当平均数作为一组数据的代表值时,成为人们对公平公正的利益诉求。罗马法律规定:当遭遇暴风雨时,人们为了避险,往往选择一些较重的物品抛入大海,以避免船翻或保全其余的货物。这种背景下产生的损失理当由全体商人和船主共同平等地分担。同时,统计概念下的平均数,往往太受极端数据的影响,又不能体现人们的利益诉求。例如公司招聘中的“平均工资”,成为骗人的小把戏。10个工人,平均每人每月3000元,听起来工资水平蛮高,但事实是,其中一个工人每月拿12000元,其余工人是每人每月2000元 ,显然用平均数作为这组数据的代表值有失平均数的公平公正性。那么该选择哪个统计量体现平均工资水平,使之不受超高工资的影响?实际上,描述一组数据的平均水平,除了应用较为广泛的平均数外,还有中位数和众数。中位数顾名思义是处于一组数据最中间的数,位置固定,不受极端数据的影响,正好代表平均工资水平。
二、中位数凸显数据代表值的稳健性
在历史上中位数几乎是作为平均数的代替品而出现的。大约在1755年,博斯科维奇(Boscovich)在有关测量的误差工作中用到了中位数。从历史现象学的角度看,中位数的出现可能是为了取代平均数。在19世纪,科学家们有不同的理由用中位数代替平均数。1874年,费歇尔试图用天文学中行之有效的方法描述心理学和社会现象,他使用了中位数,其重要原因是它在计算上的简化和直觉上的清晰性。埃其渥斯同样倾向于中位数,因为平均数对极端数据太敏感,而中位数往往比平均数更“稳健”(即对极端数据不敏感)。1882年,高尔顿第一次提出使用“中位数”这个术语。与数学历史经常发生的情况一样,高尔顿在使用这个术语之前就已经知道这个概念,但他起初使用其他术语,如“最中间的值”,“中等的”等。1847年,他在一次演讲中给出了下列描述:“一个占据中间位置的物体具有这样的性质,比它多的物体的数目等于比它少的物体的数目。”
在实际应用中,学生对中位数的理解比平均数更困难。在数据呈现偏态分布的情形下,即出现极端数据的情况下,适合选择中位数作为一组数据的代表值。
三、众数表示重复计数中的准确值。
相对来说,众数容易理解,它的历史也比较简单。第一个使用众数的例子,可能出现在雅典和斯巴达战斗中。在公元前428年冬天,普拉铁阿人和一些雅典人被伯罗奔尼撒人和皮奥夏人包围。不久,普拉铁阿人开始出现粮食短缺,处于绝望之中,由于从雅典人那里获得援助已经没有希望了,也看不到其他安全突围的方法,普拉铁阿人便和雅典人商议弃城而去,并打算做梯子翻过敌人的城墙。由于梯子的高度要与敌人城墙的高度一样,为此,只有通过数敌人城墙上砖块的层数来计算城墙的高度。在同一时间,发动许多士兵一起数城墙上砖块的层数,有些可能数错了,但离城墙不太远的士兵,可能得到一个真实值,因此把出现次数最多的层数作为代表值。
了解这三个概念的历史起源,无疑为我们的教学开启了一扇新的窗口。对于统计概念的学习而言,重要的不是统计量的计算,而是对意义的理解。统计关注的是一组数据能告诉我们什么信息,我们又能从数据中提取怎样的信息。通过画图表、计算了解数据的特征,用样本的频率分布估计总体的分布,都是为了定量地把握总体的规律。因而在教学中,教师要避免把统计教成制作图表,计算,不然就偏离了统计的实质。
参考文献:
[1]陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2002.
[2] 吴俊,黄青云.基于数学史的平均数、中位数和众数的理解[J].数学通报,2013,52(11):16-21.
﹡本文系江苏省教育科学“十二五”规划重点资助课题“数学史视野下的小学数学教学的案例研究”(批准号:B-a/2013/02/002)的研究成果之一。
【原文出处】《小学教学》(数学版),2015.9.47~49
作者简介:陈金飞,1974年生,男,江苏启东人,江苏省启东实验小学副校长,中学高级教师,主要从事小学数学教学研究。
【作者单位】江苏省启东实验小学,联系地址:江苏省启东市人民中路720号(226200),联系电话:15962731800,E-mail:cjxxcjf@163.com。
从真实走向虚拟
——平均数、中位数、众数三个集中量的历史演变
陈金飞
统计是一门数据科学。它的任务是从数据中提取信息,探索数据内在的规律性,以达到推断所测对象的本质,甚至预测对象的未来的目的。为了定量地把握总体的规律,通过归纳、列表、制图等初步整理工作,用样本的数据对总体的数据特征进行研究,包括集中量、差异量、相关量等。常见的集中量有算术平均数、中位数、众数等。在对学生的调查中发现,当需要表示一组数据的总体水平时,学生不知道选用哪个统计量比较合适。学生往往把平均数理解为平均分,甚至有学生把平均数作为整数、分数、小数外的第四种数。怎样帮助学生建构平均数、中位数、众数的概念,理解三个集中量的统计意义?从概念的历史产生过程中,或许能获得解决问题的方案。
一、算术平均数从真实数据走向虚拟数据。
算术平均数是统计学中的重要概念。陈希孺指出,如果我们从理论的角度走一点极端,则可以说,一部数理统计学的历史,就是从纵横两个方向对算术平均数进行不断深入研究的历史。纵的方向指平均数本身的发展,如伯努利及其大数律、狄莫弗—拉普拉斯中心极限定理、高斯的正态误差理论,这些研究成果,如今成了支撑数理统计学这座大厦的支柱。横的方向,指平均数思想的发展。从利用平均数估计大数,到重复测量取平均数减少误差,发展为平均数作为总体的代表值,实现了代数概念到统计概念的飞跃。
1.利用平均数估计总数
在历史上,平均数最早是用来估计总数的。公元4世纪,在古印度有一个故事:古印度王图潘纳(Rtuparna)发现一棵枝叶茂盛的大树长有几个大的树枝,他想估计这几个树枝上树叶和果实的数目。他首先估计了根部的一条粗细中等的树枝上树叶和果实的数目,然后数出这棵树上树枝的数目,用一个树枝上树叶和果实的数目乘树枝的数目,推断出这棵树上树叶和果实的总数目。在这个例子中,图潘纳选用粗细中等的树枝作为整棵树枝上树叶和果实数目的代表值,这可能是算术平均数的直觉使用,因为所选的树枝代表了其余所有树枝,其数量处于“中间”位置。
后来人们估计大数时,引入“中点值”,即取两个极端值的算术平均数。如取人数最多和最少的两条船上人数的平均数,再乘以船只的数量,就估计出全部船只上的人数。可见,中点值计算是求平均数的原始方法。用现代的观点来看,中点值不是一个很有用的平均数,因为它对极端值太敏感。
2.利用平均数减少误差
到了公元16世纪,人类对平均数的认识有了新的发展。人们发现“中点值”作为代表值,误差较大。如果把所有数据求和再均分,获得的结果比中点值更可靠,可以减少误差。在1582年至1588年期间,丹麦大天文学家第谷对某一天文量进行重复观测,他得到一组观察值。由于观测时间、气候的不同,得到的观测数据各不相同,究竟哪一个最精确呢?第谷取所有数据的平均值作为假想的真实值,从而用算术平均数来消除误差。在天文学界,第谷的这一做法一开始并没有为多数人所接受,他们认为,当有多个观测值时,应选择其中那个“谨慎地观测”所得的值,认为这比平均值可靠。因为不同天文学的设备、观测条件及人员素质难免有差异,所以得到的观测结果的可靠性也有差异,取平均数将会使结果受到“坏”的观测值的干扰,而不如其中的优秀者。不过人们又不得不承认:要想在一组数据中“择优”,在现实状态下并非总是可能的。面对众多的观测值,往往并无足够的根据去鉴定其优劣,只好一视同仁地对待。可见,撇开未知的真实值,取算术平均值反而比某个真实值更可靠。
辛普森为了消除当时天文学家对取平均数代表真实值的疑虑,印证第谷用平均数以减少误差的想法是正确的,专门撰写了《在应用天文学中取若干个观察值的平均的好处》一书,他用数学的视角来证明,取平均数这个做法具有更大的可靠性。同样,高斯在其数学和天体力学的名著《天体运动理论》中也指出:如果在相同的条件下并具有同样的认真程度,任何一个对象通过几次直接的观测而确定,那么观测值的算术平均数提供了最可能的取值,即使不是太严格,但至少十分接近,使得它总是一个最安全的取值。现在,人们已经习惯于把高斯的这个观点当作一个公理。在学生理解平均数的过程中,重复测量可能是一个有用的活动。
从用平均值来估计总数,到取平均数作为测量的真实值,是统计史上人类认识的一次飞跃。历史启示我们,在科学发展史上,人类观念上的革新和突破是如何的不容易,直到第谷点破,我们才感到用求和均分后获得的平均值作为观察值,相对于“择优法”更可靠,但在没有发现之前,许多学者努力了几十年也无功而返。
3.平均数作为总体代表值
到了19世纪,人们对平均数的认识实现了新的飞跃,把算术平均数作为一种数据处理方法,即作为一组数据的总体代表值,从真实数据走向虚拟数据。这首先得益于比利时数理统计学家阿道夫·奎特莱特提出的“平均人”的思想。这是奎特莱特运用概率论,在探索人类自身规律的过程中所提出的独特概念。他把社会上的人,抽象出来作为生理意义上的人来研究。从1831年开始,奎特莱特搜集了大量关于人体生理测量数据,如体重、身高与胸围等,经分析研究后,认为这些生理特征都围绕着一个平均值而上下波动、呈现出很正规的分布。由于奎特莱特具备包括统计学在内的广泛知识,以及擅长与国际统计界的交流,所以,他能融会贯通各家各派的统计思想,从而在博采群言的基础上,迅速把统计学推向新的高度。从统计学原理的角度来说,奎特莱特把平均数理解为现实生活中的“总体”特征的反映,他第一个把算术平均数当做总体某方面的代表值。从真实值到统计意义上的代表值的转变是观念上很重要的变化。马克思曾给奎特莱特以很高的评价:“他过去有很大的功绩。他指出:即使是社会生活的表面上的偶然性,由于它们周期性的反复和周期性的平均数,仍然具有内在的必然性。”
把平均数从真实值推向虚拟值,成为一个抽象的统计量,主要的标志是“2.5人”的出现。过去,人们只是从一组数据中寻找一个可靠的值作为代表值,这个值具有现实意义。而“2.5人”的出现,彻底改变了人们对平均数的认识。当平均数作为统计意义下的一个代表值时,它可能没有实际意义,比如说平均每个家庭有2.5人,这里的“平均”是一种测量手段,“平均”有“代表性、典型性”的含义。至此,人们对平均数的认识达到了新的高度。当平均数作为统计意义下的代表值时,不管是通过移多补少还是求和均分,获得的平均值总是一个虚拟的数据。
当平均数作为一组数据的代表值时,成为人们对公平公正的利益诉求。罗马法律规定:当遭遇暴风雨时,人们为了避险,往往选择一些较重的物品抛入大海,以避免船翻或保全其余的货物。这种背景下产生的损失理当由全体商人和船主共同平等地分担。同时,统计概念下的平均数,往往太受极端数据的影响,又不能体现人们的利益诉求。例如公司招聘中的“平均工资”,成为骗人的小把戏。10个工人,平均每人每月3000元,听起来工资水平蛮高,但事实是,其中一个工人每月拿12000元,其余工人是每人每月2000元 ,显然用平均数作为这组数据的代表值有失平均数的公平公正性。那么该选择哪个统计量体现平均工资水平,使之不受超高工资的影响?实际上,描述一组数据的平均水平,除了应用较为广泛的平均数外,还有中位数和众数。中位数顾名思义是处于一组数据最中间的数,位置固定,不受极端数据的影响,正好代表平均工资水平。
二、中位数凸显数据代表值的稳健性
在历史上中位数几乎是作为平均数的代替品而出现的。大约在1755年,博斯科维奇(Boscovich)在有关测量的误差工作中用到了中位数。从历史现象学的角度看,中位数的出现可能是为了取代平均数。在19世纪,科学家们有不同的理由用中位数代替平均数。1874年,费歇尔试图用天文学中行之有效的方法描述心理学和社会现象,他使用了中位数,其重要原因是它在计算上的简化和直觉上的清晰性。埃其渥斯同样倾向于中位数,因为平均数对极端数据太敏感,而中位数往往比平均数更“稳健”(即对极端数据不敏感)。1882年,高尔顿第一次提出使用“中位数”这个术语。与数学历史经常发生的情况一样,高尔顿在使用这个术语之前就已经知道这个概念,但他起初使用其他术语,如“最中间的值”,“中等的”等。1847年,他在一次演讲中给出了下列描述:“一个占据中间位置的物体具有这样的性质,比它多的物体的数目等于比它少的物体的数目。”
在实际应用中,学生对中位数的理解比平均数更困难。在数据呈现偏态分布的情形下,即出现极端数据的情况下,适合选择中位数作为一组数据的代表值。
三、众数表示重复计数中的准确值。
相对来说,众数容易理解,它的历史也比较简单。第一个使用众数的例子,可能出现在雅典和斯巴达战斗中。在公元前428年冬天,普拉铁阿人和一些雅典人被伯罗奔尼撒人和皮奥夏人包围。不久,普拉铁阿人开始出现粮食短缺,处于绝望之中,由于从雅典人那里获得援助已经没有希望了,也看不到其他安全突围的方法,普拉铁阿人便和雅典人商议弃城而去,并打算做梯子翻过敌人的城墙。由于梯子的高度要与敌人城墙的高度一样,为此,只有通过数敌人城墙上砖块的层数来计算城墙的高度。在同一时间,发动许多士兵一起数城墙上砖块的层数,有些可能数错了,但离城墙不太远的士兵,可能得到一个真实值,因此把出现次数最多的层数作为代表值。
了解这三个概念的历史起源,无疑为我们的教学开启了一扇新的窗口。对于统计概念的学习而言,重要的不是统计量的计算,而是对意义的理解。统计关注的是一组数据能告诉我们什么信息,我们又能从数据中提取怎样的信息。通过画图表、计算了解数据的特征,用样本的频率分布估计总体的分布,都是为了定量地把握总体的规律。因而在教学中,教师要避免把统计教成制作图表,计算,不然就偏离了统计的实质。
参考文献:
[1]陈希孺.数理统计学简史[M].长沙:湖南教育出版社,2002.
[2] 吴俊,黄青云.基于数学史的平均数、中位数和众数的理解[J].数学通报,2013,52(11):16-21.
﹡本文系江苏省教育科学“十二五”规划重点资助课题“数学史视野下的小学数学教学的案例研究”(批准号:B-a/2013/02/002)的研究成果之一。
【原文出处】《小学教学》(数学版),2015.9.47~49
作者简介:陈金飞,1974年生,男,江苏启东人,江苏省启东实验小学副校长,中学高级教师,主要从事小学数学教学研究。
【作者单位】江苏省启东实验小学,联系地址:江苏省启东市人民中路720号(226200),联系电话:15962731800,E-mail:cjxxcjf@163.com。