视频字幕
OLS,即普通最小二乘法,是统计学中最重要的回归分析方法之一。它的核心思想是找到一条最佳拟合直线,使得所有数据点到这条直线的距离平方和达到最小。图中蓝色点代表观测数据,红色直线是拟合线,灰色虚线表示残差。当我们调整直线的斜率和截距时,残差平方和会发生变化,OLS的目标就是找到使这个值最小的参数组合。
OLS的数学推导从建立线性回归模型开始。我们假设y等于β₀加β₁乘以x再加上误差项ε。目标函数是残差平方和,即所有观测值与预测值差的平方和。为了找到最优参数,我们对β₀和β₁分别求偏导数,并令其等于零。通过解这个方程组,我们得到β₁的估计公式,它等于x和y的协方差除以x的方差。β₀的估计公式则是y的均值减去β₁乘以x的均值。右图显示了目标函数的等高线,红点表示使残差平方和最小的最优参数组合。
从几何角度理解OLS,我们可以将残差平方和函数想象成一个三维抛物面。横轴和纵轴分别代表回归系数β₁和β₀,竖轴代表残差平方和的大小。这个抛物面有一个唯一的最低点,对应着使残差平方和最小的参数组合。黄色点表示当前的参数位置,红色点是最优解。通过梯度下降等优化方法,我们可以从任意起点出发,沿着抛物面向下移动,最终找到这个最低点。这就是OLS求解的几何本质:在参数空间中寻找使目标函数最小的点。
让我们通过一个具体例子来演示OLS的计算过程。假设我们要分析房屋面积与价格的关系,有4个数据点。首先计算x和y的均值,分别是65和195。然后计算协方差和x的方差,得到β₁等于3,β₀等于0。这意味着每增加1平方米面积,房价增加3万元。右图显示了数据点和拟合直线,可以看到所有点都完美地落在直线上,这是因为我们使用了理想化的数据。灰色虚线表示残差,在这个例子中残差都为零,说明拟合效果很好。
OLS估计量具有三个重要的统计性质。首先是无偏性,即估计量的期望值等于真实参数值。其次是一致性,当样本量增大时,估计量会收敛到真实值。第三是有效性,在所有线性无偏估计量中,OLS具有最小方差。但是,这些优良性质需要满足四个基本假设:线性关系、观测独立、误差同方差和误差正态分布。右图对比了理想情况和异方差情况。上图显示误差方差恒定的理想情况,下图显示误差方差随x增大的异方差情况。违反假设会导致估计不准确、标准误计算错误等问题,因此在实际应用中需要检验这些假设。