一.实验目的:
1、学习和掌握用SPSS做变量间的相关系数矩阵; 2、掌握运用SPSS做多元线性回归的估计; 3、用残差分析检验是否存在异常值和强影响值 4、看懂SPSS估计的多元线性回归方程结果; 5、掌握逐步回归操作;
6、掌握如何估计标准化回归方程
7、根据输出结果书写方程、进行模型检验、解释系数意义和预测;
二.实验步骤:
1、根据所研究的问题提出因变量和自变量,搜集数据。
2、绘制散点图和样本相关阵,观察自变量和因变量间的大致 关系。 3、如果为线性关系,则建立多元线性回归方程并估计方程。 4、运用残差分析检验是否存在异常值点和强影响值点。 5、通过t检验进行逐步回归。
6、根据spss输出结果写出方程,对方程进行检验(拟合优度检验、F检验和t检验)。 7、输出标准化回归结果,写出标准化回归方程。 8、如果通过检验,解释方程并应用(预测)。
三.实验要求:
研究货运总量y与工业总产值x1,农业总产值x2,居民非商品支出x3,之间的关系。详细数据见表:
(1)计算出y,x1,x2,x3的相关系数矩阵。 (2)求y关于x1,x2,x3的三元线性回归方程 (3)做残差分析看是否存在异常值。 (4)对所求方程拟合优度检验。 (5)对回归方程进行显着性检验。 (6)对每一个回归系数做显着性检验。
(7)如果有的回归系数没有通过显着性检验,将其剔除,重新建立回归方程,在做方程的显着性检验和回归系数的显着性检验。 (8)求标准化回归方程。
(9)求当x1=75,x2=42,x3=3.1时y。并给出置性水平为99%的近似预测区间。 (10)结合回归方程对问题进行一些基本分析。
四.绘制散点图或样本相关阵
相关性 货运总量 Pearson 相关性 货运总量 工业总产值 农业总产值 居民非商品支出 1 .556 .731 *.724 *显着性(双侧) N
Pearson 相关性
工业总产值
显着性(双侧) N
Pearson 相关性
农业总产值
显着性(双侧) N
Pearson 相关性
居民非商品支出 显着性(双侧)
N
10 .556 .095 10 .731 .016 10 .724 .018 10 **
.095 10 1 .016 10 .155 .650 .018 10 .444 .171 11 .562 .072 11 .155 .650 11 .444 .171 11 11 1 11 .562 .072 11 11 1 11 *. 在 0.05 水平(双侧)上显着相关。
五.建立并估计多元线性回归模型: 六.残差分析找异常值
由上表分析得,残差分析找异常值后其Cook距离不能大于1,Student化已删除的残差的绝对值不能大于3,综上所述删除第六组观测值继续进行如上操作,再未发现异常值。
七. 删除异常值继续回归:
模型汇总
模型
R
R 方 调整 标准 估
R 方 计的误
差
1
.975
a
.950 .920 12.9418
8 a. 预测变量: (常量), 居民非商品支出, 工业总产值, 农业总产值。
Anova
模型
平方和
回1
归 残差
15968.094 837.4
62 3 5322.698 167.
31.779 .001 b
a
df 均方 F Sig.
5 492
总计
16805.556 8
a. 因变量: 货运总量
b. 预测变量: (常量), 居民非商品支出, 工业总产值, 农业总产值。
系数
模型
非标准化系
数 B
标准系数
t
Sig. B 的 95.0%
置信区间 下限 上限
a
标准 试用误差
版
(常量) 工业总产1
农业总产值 居民非商品支出 值
-659.510 4.070 16.043 -14.359 126.
833 1.071 2.824 9.109 .412 1.057 -.306 -5.200 3.802 5.681 -1.576 .003 -985-333
.546 .474 1.318 8.784 -37.776 6.822 23.301 9.057 .013 .002 .176
则回归方程为:Y659.5104.070X116.043X214.359X3
由上述分析知居民的非商品支出的参数估计量3所对应P值为0.176大于=0.05,所以货运总量与居民非商品支出无显着性差异,即剔除变量:居民的非商品支出,继续做回归。
此时的回归方程为:
八.统计检验:
(1)拟合优度检验:
由估计结果图表可知,可决系数R2 =0.962,修正的可决系数R2=0.925。 计算结果表明,估计的样本回归方程较好的拟合了样本观测值。 (2)F检验
提出检验的原假设为H0:i=0
对立假设为H1:i至少有一个 不等于零(i=0,1,2)
对于给定的显着性水平=0.05,P=0.000<=0.05,所以否定原假设,总体回归方程是显着的。 (3)t检验
提出的原假设为H0:i=0 i=0,1,2 由表得,t统计量为0所对应的P值为0.002
1所对应的P值为0.021
2所对应的P值为0.000
对于给定的显着性水平a=0.05,
因为01 2所对应的P值均小于=0.05,所以货运总量与工业总产值和农业总
产值之间有显着性关系,
(4)预测
假设X1=75,X2=42试预测货运总量并构造其99%的置信区间 将X1=75,X2=42代入估计的回归方程
经计算得Y的置信区间为(237.71840,312.28406.) (5)相关分析
当维持农业总产值不变的情况下,每增加一单位的工业总产值,货运总量相应的增加3,534亿吨;当维持工业总产值不变的情况下,每增加一单位的农业总产值,货运总量相应的增加12.333亿吨;综上得出农业总产值引起货运总量的变化相比于工业总产值较大。
因篇幅问题不能全部显示,请点此查看更多更全内容