第四章数据分析(梅长林)习题答案

2024-04-14 来源：爱问旅游网

第四章习题

一、习题

解：（1）通过SAS的proc princomp 过程对相关系数矩阵R做主成分分析，得到个主成分的贡献率以及累计贡献率如表1所

表 1

Eigenvalues of the Correlation Matrix 从表中可以得到特征值向量为：

[2.8567 0.8091 0.5396 0.4515 0.2429]

第一主成分贡献率为： % 第二主成分贡献率为： % 第三主成分贡献率为： % 第四主成分贡献率为： %

、

第五主成分贡献率为： %

进一步得到各主成分分析结果如表2所示：

表 2

Eigenvectors …Prin1 Prin2 Prin3 Prin4 Prin5 x1 x2 \" x3 x4 《 x5 .

（2）由（1）中得到的结果可知前两个主成分的累积贡献率为%，得到第一主成分、第二主成分为：

Y10.4636x10.4571x20.4702x30.4215x40.4212x5

Y20.2404x10.5093x20.2604x30.5257x40.5820x5

由于Y1是五个标准化指标的加权和，由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果，Y1越大表示各股票的综合周反弹率越大。Y2中关于三种化工股票的周反弹率系数为负，而关于两种石油的系数为正，它放映了两种石油周反弹率和三种化工股票周反弹率的对比，表明两种石油周反弹率Y2的绝对值越大，和三种化工股票周反弹率的差距越大。二、习题

解：（1）利用SAS的proc corr过程求得相关系数矩阵如表3：

表 3

Correlation Matrix ( x2 / x1 x1 x3 x4 x5 x6 x7 x8 x2 [ x3 ~ x4 ' x5 ! x6 、 x7 - x8 ^

（2）从相关系数矩阵出发，通过proc princomp过程对其进行主成分分析，表4给出了各主成分的贡献率以及累积贡献率：

表 4

Eigenvalues of the Correlation Matrix 1 Eigenvalue Difference Proportion Cumulative < 0. 2 3 2. 0. 1. ？ 0. 4 5 0. 0. 0. < 0. 6 7 0. 0. / 8 第一主成分贡献率为： % 第二主成分贡献率为： % 第三主成分贡献率为： % 第四主成分贡献率为： %

【

第五主成分贡献率为： % 第六主成分贡献率为：其中前两个主成分的累计贡献率为%

（3）通过上面的计算得到各主成分，见表5：

表 5

Eigenvectors - Prin5 ' x1 Prin1 Prin2 Prin3 Prin4 Prin6 Prin7 Prin8 x2 . x3 ！ x4 ; x5 ) x6 x7 — x8 # Y10.2496x10.5192x20.0185x30.2541x40.02169x50.6927x60.3171x70.5093x8

Y2-0.2413x1-0.0376x2+0.4754x3+0.5381x4+0.5754x5+0.1347x6-0.2607x7-0.0871x8

由于是Y1八个标准化标值的加权值，因此它反映了平均消费数据的综合指标。对于Y1，它反映了各省人均消费水平，除烟茶酒外，其他支出越高，其人均总体消费水平越高，而烟茶酒对其消费水平评价成反方向。在Y2中人均粮食，人均副食品，人均燃料，人均非商品的系数为负；人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正，说明Y2的绝对值越大，各省人均消费的在生活必需品与高档

品差异越大。

根据第一主成分的得分对各个省份进行排序，见表6：

表 6

Obs location 1 广东

Prin1

Obs location Prin1

16 宁夏

2 上海

、

17 湖南 18 陕西

北京

4 浙江

19 ,

云南

5 海南 6 福建

！

20 新疆 21 青海

7 广西

—

22 安徽 23 甘肃

天津

9 江苏

24 \\

内蒙古

10 辽宁 11 西藏

25 贵州 26 吉林

12 四川

27 黑龙江 28 河南

山东

14 湖北

29 ]

山西

15 河北 30 江西

三、习题

解：（1）通过SAS的proc princomp过程计算得到样本协方差矩阵见表7：

表 7

Covariance Matrix x1 x1 ； x2 x3 y1 y2 y3 x2 … x3 [ y1 y2 （ y3 ' 求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8：

表 8

Eigenvalues of the Covariance Matrix 1 Eigenvalue Difference Proportion Cumulative * 2 3 ; 4 5 、 6 从以上结果可看出前三个主成分贡献率已占%，大于剩下三个成分的总和，已包含原始数据的大量信息，所以保留前三个主成分即可。

（2）通过SAS的proc princomp过程对其相关系数矩阵进行主成分分析，首先得到相关系数矩阵见表9：

表 9

Correlation Matrix %x1 x2 x3 y1 y2 y3 x1 x2 | x3 。 y1 y2 | y3 【求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10：

表 10

Eigenvalues of the Correlation Matrix ·Eigenvalue Difference Proportion Cumulative 2. 1 2 ~ 0. 0. 3 4 ^0. 0. 0. 0. 5 6 ！

从以结果可看出前四个主成分贡献率已占%且第四个主成分的

贡献率都占到总信息量的的%，与剩下两个成分的总和差不多，所以保留前四个主成分即可。

我认为基于协方差矩阵S的分析结果更合理。因为由协方差矩阵S输出结果可以看出前三个主成分的贡献率就可达到%大于相关系数矩阵R分析得到前四个主成分贡献率总和%，且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据，所以基于协方差矩阵S的分析结果更为合理。四、习题

（1）通过proc cancorr过程求得以下结果：

表 11

~ Adjusted Approximate ]Squared Canonical Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq) Canonical Canonical Standard Correlation Correlation Error Correlation Eigenvalue Difference Proportion Cumulative 1 2 （ . 11R11R12R22R21两个特征值分别为

10.157698 20.0053

22】

计算得到各典型变量系数见表下表：

Standardized Canonical Coefficients for the VAR Variables x1 x2 Standardized Canonical Coefficients for the WITH Variables W1 ： V1 V2 \\ W2 y1 y2 所以有

第一对典型变量为：

V11.2478X11.0330X2W11.1019Y10.4564Y2

ˆ10.397；第一对典型相关系数第二对典型变量为：

V20.3180X10.7687X2W20.0071Y11.0030Y2ˆ20.07289 第二对典型相关系数|

（2）对典型变量进行显著性检验，结果见表12，其中P1=<，P2=<，故两对变量都显著相关。

表 12

Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Approximate F Value ^Ratio 0. Num DF 4 Den DF 19992 Pr > F <.0001 1 2 0. 1 ~ <.0001 9997 五、习题

（1）首先计算得到协方差系数矩阵：

协方差矩阵，自由度 = 24 （x1 x2 y1 y2 x1 x2 | y1 y2 @

进而从协方差系数矩阵计算得到典型变量系数：

Raw Canonical Coefficients for the VAR Variables x1 x2 Raw Canonical Coefficients for the WITH Variables y1 y2 V1 V2 - W1 W2 所以有

第一对典型变量为：

V10.05657X10.07074X2W10.5024Y10.80222Y2

ˆ10.37716；第一对典型相关系数第二对典型变量为：

V20.13997X10.18695X2W20.17615Y10.26208Y2ˆ20.99711 第二对典型相关系数

（2）计算得到样本相关系数矩阵：

1.00000.7346R0.71080.69320.73460.71080.70401.00000.69320.7086 0.70401.00000.73460.70860.73461.0000从相关系数矩阵出发，进行典型相关变量分析：

Standardized Canonical Coefficients for the VAR Variables x1 x2 V1 V2 Standardized Canonical Coefficients for the WITH Variables y1 y2 W1 W2 所以有

第一对典型变量为：

V10.5522X10.5215X2W10.5044Y10.5383Y2

ˆ10.37716 第一对典型相关系数为：第二对典型变量为：

V21.3664X11.3784X2W21.7686Yˆ20.99711 第二对典型相关系数为：11.7586Y2

因为样本中测量的数据的量纲都是相同的，所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析，得到的结果是一样的。对典型变量进行显著性检验，结果见表13：

表 13

Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Approximate F Value 1 2 Ratio 0. 0. Num DF 4 1 Den DF 42 22 Pr > F 取显著水平为,其中第一对典型变量的检验p值为，小于，所以第一对典型变量显著相关，而第二对典型变量的检验p值为，大于，所以

第二对典型变量不是显著相关。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

第四章 数据分析(梅长林)习题答案

第四章数据分析(梅长林)习题答案