4、回归统计各项统计量的意义 为便于理解回归统计各项统计量的意义,可以与均值和标准差相比。 (1)均值和标准差 在x轴上一组n个xi,用均值表示这些xi的集中趋势和平均水平,以均值-1.96s和均值+1.96s表示所有xi对于均值的95%离散程度。如图5所示。 注意:所有xi数据点均在x轴上,因此是“一条线”上的点,以点表示这组数据的集中趋势,有95%的可能性组成该均值的所有各个xi,分布于x轴上和的范围。也可以理解为,有95%的可能性,这组xi中最小的x1为均值-1.96s,最大的xn为值+1.96s。 图6左上为:在x和y坐标轴形成的一个面上,分布着n对xi,yi原始数据,依据这些数据分布的特点,它们互相间具有一个直线线性的趋势。这是进行直线回归统计重要前提,实际使用中一定要先作图,看趋势,有直线趋势的再进行直线回归统计。图示说明有直线趋势,可以进行直线回归统计。 图6右上为:对n对xi,yi原始数据进行直线回归统计,以回归直线表示所有点的集中趋势。 图6左下为:既然有集中趋势的回归线,那么回归线的标准误差Sy/x是什么?在回归线上的任意处取一点,过该点绘制垂直于x轴的垂线,从回归线上这点开始,向上和向下各取1.96Sy/x处的两点,过这两点绘制平行于回归线的平行线(图中以虚线表示)。在统计上,约有95%的数据点在这两条平行线之内。因此,Sy/x是所有数据点对于回归线的离散程度指标。Sy/x越小则数据点对于回归线越密集,回归线对于数据点的代表性越强;反之,Sy/x越大则数据点对于回归线越松散,回归线对于数据点的代表性越差。 在估计检测系统分析范围中,Sy/x将起着非常重要的作用。 将上述的讨论可以归纳为表1。 三、曲线回归和其他 1、数据点分布决定采用直线或曲线回归的统计 上述的均为直线趋势的直线回归统计,不要以为回归统计只是直线回归。我在前面提到了:进行直线回归统计重要前提,必须先作图,看趋势,有直线趋势的再进行直线回归统计。统计只是一个计算工具,完全由使用者决定去使用。你可以使用上述的直线回归统计去统计任何表现的数据点,都会给你统计结果。但是,这样的统计结果不仅没有价值,甚至会误导我们!EP-6A没有限制数据点的趋势是直线的还是曲线的,文件要求你进行二元一次的直线回归统计、二元二次的曲线回归统计、和二元三次的曲线回归统计,三者并行。然后,观察哪个回归统计引入的统计误差最小,是你选择某个回归统计的前提;你知道了原始数据呈直线的、还是曲线的表现。回归统计是让你根据数据点的分布配合一个统计曲线或直线,便于你的分析和应用。所以,一定要注意:遵循数据点分布的特点,选择合适的回归统计。 2、任何回归统计结论都没有原始数据更好 千万不要迷信统计!在原始数据点分布非常明确的情况下,你尽可能用简单的方法处理数据。只有在数据点有趋势、但尚难以作出结论时,你才去选择合适的统计。只有扎实的实验室各方面的理论和实践基础,对解释和使用统计结论是最有用的。单凭统计下结论,自己根本不懂其含义,还感到写的文章因为做了统计很高兴,大多是错误的。 3、我将在后一篇检测系统分析范围的文章中,介绍如何使用直线回归统计判断有无线性。并以具体示例告诉大家统计结论中的错误导向。 四、相关系数 1、回归统计后两个变量间关系的变化 将两个变量间具有线性趋势的系列数据对,以直线回归统计得到这两组数据间的线性关系。如前述,一个变量为x、另一个变量为y。以: 表示它们的关系时,本来x与y两个变量间没有互相依赖关系的,因直线回归统计的限制,使y变量成为x变量的因变量,即y应x的变化而变化。 但是,若我们现在需要关注x变量如何随y变量而变化,则回归式变成 按照二元一次代数式中,若将y=bx+a改成x=b'y+a',这两个代数式内的斜率b和b'的数值呈互为倒数的关系,即,或。可是,不要忘记,二元一次代数式的前提是:组成这个代数式的所有数据点一定都在该式的线上,不在该式线上的所有数据一定不是这个代数式的数据点!请注意,在代数中,x和y互相转换为对方的自变量和应变量时,不存在任何困难,因为代数式的点均在线上,所以,它们只要将斜率转换为原斜率的倒数,新的代数式就出现了。 |