线性回归是统计学中最基础也是最重要的分析方法之一。它的核心思想是通过一条直线来描述两个变量之间的线性关系。比如我们想研究房屋面积与房价的关系,或者广告投入与销售额的关系。在右侧的图中,我们可以看到一些散点数据,线性回归的目标就是在这些数据点中找到一条最佳的拟合直线,使得这条直线能够最好地代表数据的整体趋势。
一元线性回归方程的标准形式是 y 等于 β₀ 加 β₁ 乘以 x 再加 ε。其中 β₀ 是截距,表示当 x 等于 0 时 y 的值,也就是直线与 y 轴的交点。β₁ 是斜率,表示 x 每增加一个单位时 y 的平均变化量。ε 是随机误差项,反映了实际观测值与理论直线的偏差。现在让我们通过动态图形来观察不同参数值对直线形状和位置的影响。
最小二乘法是确定线性回归参数的核心方法。它的基本思想是寻找一条直线,使得所有数据点到这条直线的垂直距离的平方和最小。这些垂直距离称为残差,表示实际观测值与预测值之间的差异。右侧图中的绿色线段就是残差,黄色方块代表残差的平方。我们的目标是通过调整直线的斜率和截距,使得残差平方和达到最小值。
通过对残差平方和分别对β₀和β₁求偏导数,并令其等于零,我们可以得到最小二乘估计的解析解。β₁的估计公式是协方差除以x的方差,其中协方差衡量x和y的线性相关程度。β₀的估计公式表明回归直线必须通过样本均值点。右侧图形展示了样本均值点以及各数据点相对于均值的偏差,这些偏差的乘积构成了协方差的计算基础。
线性回归是统计学中最基础的预测建模方法,用来建立自变量与因变量之间的线性关系。基本的线性回归方程为 y 等于 β₀ 加 β₁ 乘以 x 再加上误差项 ε。其中 y 是因变量,x 是自变量,β₀ 是截距参数,β₁ 是斜率参数,ε 是随机误差项。
参数估计使用最小二乘法,目标是最小化残差平方和。通过求导可以得到解析解:β₁帽等于x和y的协方差除以x的方差,β₀帽等于y的均值减去β₁帽乘以x的均值。右图显示了数据点、回归直线和残差,最小二乘法就是要使这些绿色残差线的平方和最小。
模型评价使用多个指标。决定系数R²衡量模型解释方差的比例,取值在0到1之间,越接近1说明拟合越好。均方误差MSE是残差平方的平均值,均方根误差RMSE是MSE的平方根,与因变量同量纲。右图展示了完美拟合的情况,此时R²等于1。
线性回归有五个基本假设:线性关系、观测独立、同方差性、误差正态性,以及无多重共线性。模型诊断包括残差图检查线性和同方差假设,Q-Q图检验正态性,影响点分析检测异常值。右图展示了理想的残差图,残差随机分布在零线周围,没有明显的模式。
当我们需要考虑多个自变量时,一元线性回归就扩展为多元线性回归。在矩阵形式中,Y是因变量向量,X是设计矩阵包含所有自变量,β是参数向量。参数估计公式变为β帽等于X转置X的逆乘以X转置Y。在几何上,多元回归不再是拟合一条直线,而是拟合一个超平面。右侧展示的是简化的二维情况,实际的多元回归是在高维空间中拟合超平面。