数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 111|回复: 1

方差的前世今生(极差、离差、平均差、方差)

[复制链接]
发表于 2024-6-14 12:43 | 显示全部楼层 |阅读模式
方差的前世今生(极差、离差、平均差、方差)

原创 童话学愿 童话学愿 2024-05-14 16:00 北京

    前面两期文章《平均数(初中)》《众数、中位数(初中)》分别讲了对数据集中趋势分析时常用的统计量:平均数、中位数和众数。本期文章我们开始讲对数据离散程度的分析,方差是分析数据波动(离散)程度的最重要的指标,本文就来说说方差是怎么来的:

一、数据波动的图形表示

    在往期文章《数据的分析(初中)》中我们对什么是数据的离散程度进行了解释,并借助直线两边的三点图对其进行形象化,我们今天还是借助直线和直线两边的点来一步一步地引出方差。

    如下图所示,每个点代表一个数据,点纵坐标值 = 数据的值,将点沿 x 轴方向等距排开,蓝色水平直线 y =  代表平均数,可看出数据在直线附近上下波动:



二、方差的前世

1)当图上只有两个点时,如何评价两图形中点的波动情况:



    可用两点离直线的距离之和(d1+d2)来比较两组数据的波动情况,如下图所示,d1+d2 实际就是两点纵坐标之差,d1+d2 = | x1 - x2 | = max(x1,x1) - min(x1,x2) 。



    备注:

    ① max(a,b,c,……):表示 a、b、c、…… 中最大的数;

    ② min(a,b,c,……):表示 a、b、c、…… 中最小的数。

2)当直线两边有多个点时呢?

    如下两图所示,如何定量的分析图中 6 个点的波动程度哪个更大?



    从图中可以看出来,右图波动的范围更大,波动范围可用(1)中的公式 max(x1,x2,……) - min(x1,x2,……) 表示,我们将其称为极差,表示数据最大波动范围



    那你能肯定的说右图的数据的离散度更高吗?右图中也有两个离平均线很近的点。所以我们将每个点离直线的距离累加起来,比较距离和的大小,我们将每个数据与参照值(如平均数)的差称为离差,距离为离差的绝对值,公式如下:



    备注:这里距离和并不是离差和,而是离差的绝对值之和,任何一组统计数据的离差和 = 0 ,计算如下:



3)当两图中点的数目不一致时,怎么办?

    如下图所示,右图比左图多两个点,其它点位置相同,如果直接比较两图中各点到直线的距离和的大小来说明离散程度就不公平了,会让原本离散程度不大的数据,因数据量大而得到离散度高的结论。



    所以为了让比试更加公平,我们将每组数据的距离和都除以其数据个数 n ,我们将其称为平均差,计算公式如下:



三、方差的诞生

1、诞生

    平均差公式的计算,首先要去绝对值符号,这给计算带来了麻烦,是否有什么办法,不用绝对值,同样能比较两图点到直线距离的和的差异?

    距离具有非负性,用绝对值表示,实数的平方也具有非负性,而且两个数绝对值的大小关系,与其平方的大小关系一致,即:

    ∵ a^2 ≥ 0 恒成立,且:若 |a|>|b| ,则 a^2>b^2 。

    ∴ 可以用离差平方和代替距离和。

    ∴ 方差 (s^2) 代替了平均差。


    公式如下:



2、方差优于平均差的另一个原因

    方差不仅解决了去绝对值符号的麻烦,而且在数据波动的程度上的表现更优于平均差。

1)实例体会

    例 1、比如下列两组数据,哪组数据波动更大?



    分析:

    1)图形比较:两组数据,平均数都是 0 ,将两组数据用图形表示如下:



    上图可以看出,橙色线波动幅度大于绿色折线的波动幅度

    2)我们再分别计算两组数距地平均差、方差,进行定量比较,结果如下:

    平方差比较:

        第一组数据平均差 = 4 + 6 + 6 + 4 = 20

        第二组数据平均差 = 1 + 9 + 9 + 1 = 20

    方差比较:

        第一组数据方差 = 4^2 + 6^2 + 6^2 + 4^2 = 104

        第二组数据方差 = 1^2 + 9^2 + 9^2 + 1^2 = 164

    两组数据的平均差相同,但是方差不同,第二组数据方差大于第一组,与我们从图上直观感知一致,所以从这个例子可以看出方差对波动程度的体现比平均差更好。可以也可以从函数的角度理解方差对数距离散程度的体现比平均差好。

2)理论解释

    我们将数据看做是未知数 x ,方差中的每一项都是如下二次函数的 xi 对应的函数值:



    该二次函数的对称轴为 x = ,开口向上,如下所示,函数值 y 随 x 的增长速度是随 x 远离对称轴而越来越快,离平均数  距离越远的相同的 △x 对应更大的 △y ,我们说 y 随 x 呈指数增长。



    而平均差对应的由两个一次函数组成的分段函数,如上图橙色直线所示,同样关于 x = 对称,y 值是随 x 远离对称均匀增长的。

    所以方差对波动情况的反应是区分数据离参照值的远近,离得远的,对方差贡献度更大,所以方差对数据波动情况的反应比平均差更好。



童话学愿

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
发表于 2024-6-14 20:21 | 显示全部楼层
本帖最后由 Ysu2008 于 2024-6-14 20:38 编辑

这个也可以(自创的):
对于样本 \(x_1{,}x_2{,}\cdots\cdots{,}x_n\)
有 \(R_C=\frac{1}{C\left( n{,}2\right)}\sum_{i=1}^{n-1}\sum_{j=i+1}^n\left| x_i-x_j\right|\)
这个 \(R_C\) 就叫个“遍历平均差”吧。

\(R_C\left( 4{,}-6{,}6{,}4\right)=6.0\)
\(R_C\left( 1{,}-9{,}9{,}1\right)=9.0\)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2024-6-21 13:52 , Processed in 0.078125 second(s), 17 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表