一元线性回归模型与多元线性回归模型对比
2021-06-22
来源:爱问旅游网
一元线性回归模型 多元线性回归模型 E (Y| 酱,X?…Xk) = 0。+ 0】若 + 0? X? + …仇 X, 总体回归函数 E(Y|X) = 0o+AX 即 E(Y\\X) = Xp 总体回归模型 (总体回归函数的 Y=E(Y|X) + // 随机表达形式) =+0i X+\" 样本回归模型 (样本回归函数的 丫二九+Ax + e 随机表达形式) 样本回归函数 Y=E(Y|X1,X2...Xk)+/z 即『二邓 +卩 ―Po + 伤X] + “2X? + ・..0kXk + “ A Y=30+31X1+43X24-...3kXk+e 即『=xp +e 八 即卩=XR Y=^0+AX A Y=3o+31X1+^X2+..AXk (xlpx12,...xlk,x), 给定一组容量为n的样本 (召,苦),(兀耳),…(肖,丫),…(£,乂) 则,上述式子可以写成: 则上述式子可以写成: (X21,X22,...X2Jc,%), 给定一组容量为n的样本 艾丫、, Id],入⑴…f (xnl,xn2„..xnk,x) 总体回归函数 E(X |石,独…忍)=0。+ A百+ 02斗2 +…仇兀 X = E(X|X1) + //1 =00 + Q Xi + 仏 X = E(X|X11,X13...Xlk) + //x 二几+血珞+化心+…仇兀+“ 总体回归模型 样本回归模型 样本回归函数 样本回归函数的离 差形式 解释变量的个数 (包括常数项) X = AJ+A\\+ei X=A+AXi A X=A+AXil+AXi2+..AX4k+ei X = ^O+A\\1+A\\2+- 2 个:C, X k+1个:C,為必,…兀 基本假定 假设1: 回归模型是正确设定 的。 确定性假设。解释变量 X是确定性变童,不是 随机变量,在重复抽样 模型设定正确假设。 假设2: 确定性假设。解释变量是非随机或固定的,且 中取固定值・: 各Xj之间不存在严格线性相关(无完全多重共线性)。 ① 样本变异性假 设•对解释变量 ① 样本变异性假设. 各解释变量Xj在所抽取的样本中具有变异性。 X抽取的样本 假设3: 观察值并不完 全相同・ ② 样本方差趋于 常数假设。 假设4: ② 样本方差趋于常数假设。 随着样本容盘的无限增加,各解释变量的样本方差区域 一个非零的有限常数。 随机误差项P零均值、 同方差、不序列相关假 随机误差项卩零均值、同方差、不序列相关假设。 设。 随机课差项与解释变 童随机误差项与解释变量不相关, 不相关。 正态性假设。随机项服 正态性假设.随机项服从正态分布」 从正态分布。 假设5 假设:6: 参数估计 一元线性回归模型 多元线性回归模型 残差平方和达到最小, 得到正规方程组,求得 参数的普通绘小二乘估 残差平方和达到般小,得到正规方程组,求得参数的普通故 计值: 丿1工打(普通 小二乘估计值B = a X)* x ‘Y — A — 普通最小二乘估计 [/?=Y-AX 0U=Y-31X1-...3kXk (OLS) 最小二乘估计的离差形 式) (普通最小二乘估计的离差形式) 随机干扰项的方差的佔 随机干扰项的方差d•'-工® - \" n - k -1 n - k -1 计量 A n-2 ■估计值估计结果与 OLS方法一致,但随机 干参数估计值估计结果与OLS方法一致,但随机干扰项的方差 最大似然估计 扰项的方差的估计量 与 OLS 不同 y e 2 1的估计量-乙 矩估计(MM) 11 11 参数估计量的性质 线性性、无偏性、有效 性 ■ A~N(A,齐) 线性性、无偏性、有效性 参数估计量的概率 分布 — 样本容屋n必须不少于模型屮解释变量的个数(包括常数 项),BPn>k +1才能得到参数估计值,n-k>8时t分布才 比较稳定,样本容量问题 能够进行变量的显著性检脸,一般认为n>30活 着至少n>3(k+l)时才能满足模型估计要求。如果样本屋过 小,则只依靠样本信息是无法完成估计的,需要用其他方法 去估计。 统计检验 一元线性回归模型 多元线性回归模型 总离差平方和的分解 TSS=ESS+RSS r ESS RSS R「= --- = 1 --------- •(即总平方和中冋归平方和的比例) TSS TSS R2 e [0,1]对于同一个模型,R,越接近于1,拟合优度越高。 R2 “-加彳⑴ * 1)(调整的思路圧歿差平方和RSS和总平方和TSS TBS/(n-l) 总离差平方和的分解 TSS=ESS+RSS “2 ESS R = -------- 9 TSS R2 e [0,1]越接近于1, 拟合优度越高。 拟合优度检验 各自除以它f]的自由度) 为什么要对R:进行调整?解斤变秋个数越冬・它幻对Y所能解释的祁分越 大(即回归平方和部分越大人残差平方和部分越小• R?越高.由堆加解释变童引 起的R?的增大纭拟介好坏无关.因此在多 目的:对模型屮被解释变量与解释变量Z间的线性关系在总体上是否成立做出判断。 原假设Ho: Pl = o, p2 = 0, ・・・pk = O 备择假设:%: pj(j=12.・.k)不全为零 方程总体显著性检 验 统计量的构造:F = RSS黑:7~F(kn_k-l) 判断步骤:①计算F统计量的值 ②给定显著性水平e査F分布的临界值表获得 Fa (k» n — k — 1) ③比较F与Fa的值, 变星的显著性检验迪 ,
参数的置信区间
若F> Fg拒绝原假设,认为原方程总体线性关系在 1-a的置信水平下显著。
若FSF\"接受原假设,不能认为原方程总体线性关 I 系在的置信水平下显著。 目的:对模型中被解释变量对每一个解释变量之间的线性关系是否成立作出判断,或 者说考察所选择的解释变屋对被解释变量是否令显著的线性影响。针对某解释变量Xj, 原假设H():卩j=0,备择假设:H±: P)=# 0 最常用的检验方法t检验 构造统计量:t = !L±-t(n-k-l)
判断步骤:①计算t统计量的值
② 给定显著性水平e資t分布的临界值表获得
ta(n 一 k 一 1)
2
③ 比较t值与“的值,
2
若t > t«,拒绝原假设,认为变量Xj在1 - a的置信水平下通过显著性检验(或者 说,在ci的显著性水平下通过检验),认为解释变量旳对被解释变量Y有显著线 性影响。
若t目的:考察一次抽样中样本参数的估价值齊与总体参数的克实值Bj的接近程度。 思路:构造一个以样本参数的估计值§为屮心的区间,考察它以多人的概率观含总体 参数的真实值。
方法;①预先选择一个概率a <0 +- a
②计算其中的8 (S = t-xSs ),从而求出l—a置信度下仿的置信区间:
2 Pi
n
< Pj — ta X Sp. » Pj + ta X S島)
掌握概念:置信区间 置信度 显著性水平
实际应用中,我们希望置信度越高越好,置信区间越小越好(说明估计精度越高)。 如何缩小置信区间?
(1) 增大样本容量n (以蔽小也.并法小参数估计侑的样本方冋J (2) 提高模型的拟合优度 (以诚小残差平方和.从而减小S內〉
(3) 提离样本观测值的分散度(样本值越分愼勺越小.s%越小〉