简单线性回归详解

[toc]

简单线性回归(Simple Linear Regression)是用于研究单个解释变量与一个响应变量之间关系的统计方法,假定变量间存在线性相关关系。

一、模型定义与基本假设

模型定义

假设响应变量 (Y) 与解释变量 (X) 存在线性关系,简单线性回归模型可表示为:

$$
Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i
$$

其中:

  • (Y_i) 为第 (i) 个观测值的因变量。
  • (X_i) 为第 (i) 个观测值的自变量。
  • (\beta_0) 为截距参数。
  • (\beta_1) 为斜率参数,表示 (X) 每变化一个单位时 (Y) 的平均变化量。
  • (\varepsilon_i) 为随机误差项,满足假设 (E(\varepsilon_i)=0)。

基本假设

线性回归模型的误差项 (\varepsilon) 通常假设满足以下条件:

  1. (E(\varepsilon_i)=0),误差项的期望为零。
  2. (Var(\varepsilon_i)=\sigma^2),误差项具有常数方差(同方差性)。
  3. (Cov(\varepsilon_i, \varepsilon_j)=0, i \neq j),误差项之间相互独立。
  4. (\varepsilon_i \sim N(0, \sigma^2)),在经典假设中进一步要求误差项服从正态分布。

二、模型参数估计

最小二乘法(OLS)推导

简单线性回归中常用的方法为普通最小二乘法(OLS),通过最小化残差平方和(RSS)估计模型参数。

残差平方和为:

$$
RSS = \sum_{i=1}^{n}(Y_i - \hat{Y}i)^2 = \sum{i=1}^{n}(Y_i - \beta_0 - \beta_1 X_i)^2
$$

对参数 (\beta_0) 和 (\beta_1) 分别求偏导数并令其为0,得到方程组:

$$
\frac{\partial RSS}{\partial \beta_0} = -2 \sum_{i=1}^{n}(Y_i - \beta_0 - \beta_1 X_i) = 0
$$

$$
\frac{\partial RSS}{\partial \beta_1} = -2 \sum_{i=1}^{n}(Y_i - \beta_0 - \beta_1 X_i) X_i = 0
$$

解上述方程组后,可得最小二乘估计量:

$$
\hat{\beta}1 = \frac{\sum{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}
$$

$$
\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}
$$

其中 (\bar{X}) 和 (\bar{Y}) 分别为 (X) 和 (Y) 的样本均值。

矩阵形式的OLS估计

将上述模型用矩阵形式表示为:

$$
Y = X\beta + \varepsilon
$$

其中,

$$
Y=\begin{bmatrix} Y_1 \ Y_2 \ \vdots \ Y_n \end{bmatrix}, \quad X=\begin{bmatrix} 1 & X_1 \ 1 & X_2 \ \vdots & \vdots \ 1 & X_n \end{bmatrix}, \quad \beta=\begin{bmatrix} \beta_0 \ \beta_1 \end{bmatrix}, \quad \varepsilon=\begin{bmatrix} \varepsilon_1 \ \varepsilon_2 \ \vdots \ \varepsilon_n \end{bmatrix}
$$

矩阵形式下的OLS估计量为:

$$
\hat{\beta} = (X’X)^{-1}X’Y
$$

三、高斯-马尔科夫定理完整描述

高斯-马尔科夫(Gauss-Markov)定理指出:在经典线性回归模型假设下,即 (E(\varepsilon)=0)、(Var(\varepsilon)=\sigma^2I)、(Cov(\varepsilon_i,\varepsilon_j)=0),OLS估计量 (\hat{\beta}) 是所有线性无偏估计量中方差最小的。

正式表述为:

若 (\hat{\beta}=AY) 是线性估计量,且 (E(\hat{\beta})=\beta),则对于任何其他满足上述条件的估计量 (\tilde{\beta}),都有 (Var(\hat{\beta}) \leq Var(\tilde{\beta}))。

四、图形解释

回归分析通常通过散点图和拟合直线图形化展现,X与Y的关系及拟合直线的优劣直观可见。

(此处建议添加散点图及回归直线的图例解释)

五、实际案例

例如,研究广告费用(X)对产品销售量(Y)的影响,收集一组数据进行回归分析,得出如下模型:

$$
销售量 = 5 + 0.8 \times 广告费用
$$

模型说明,每增加1单位广告费用,销售量平均增加0.8单位。这一模型可用于预测和决策支持。

六、总结

简单线性回归是一种基础但重要的统计分析方法,通过OLS法估计参数,并在满足高斯-马尔科夫假设下确保了估计的有效性和可靠性,为更复杂的回归分析提供了理论基础。简单线性回归分析的理解和应用对于数据分析师和研究人员来说是一个宝贵的技能,它有助于解释和预测涉及一个自变量和一个因变量的关系。