视频字幕
变量间的相关关系是数据分析中的重要概念。与函数关系不同,相关关系表示两个变量之间存在某种依存关系,但不是严格的一一对应。比如身高与体重之间就存在正相关关系,身高越高的人体重往往也越重,但这种关系不是绝对的。相关关系分为正相关、负相关和无相关三种基本类型。
散点图是分析变量相关关系的重要工具。在散点图中,每个点代表一对观测值。通过观察散点的分布模式,我们可以直观地判断两个变量之间的相关关系。如果散点大致沿着一条上升的直线分布,说明存在正相关关系;如果沿着下降的直线分布,则为负相关关系。散点分布越集中在一条直线附近,相关关系就越强;分布越分散,相关关系就越弱。
最小二乘法是确定回归直线的重要数学方法。当我们有一组数据点时,可能有无数条直线穿过这些点的附近,但哪一条直线最能代表数据的趋势呢?最小二乘法给出了答案。它的基本思想是找到一条直线,使得所有数据点到这条直线的垂直距离的平方和最小。这些垂直距离称为残差,通过最小化残差平方和,我们可以得到最优的回归直线。
线性回归方程是描述两个变量线性关系的数学模型。其一般形式为ŷ等于bx加a,其中b是回归系数,表示x每增加一个单位时y的平均变化量;a是截距,表示当x等于零时y的预测值。通过最小二乘法,我们可以计算出这两个参数。首先计算样本均值,然后利用公式求出回归系数b,最后计算截距a。这样就得到了完整的线性回归方程,可以用来进行预测和分析。
相关系数r是定量描述两个变量线性相关关系强弱的重要指标。它的计算公式涉及每个数据点与均值的偏差。分子是x偏差与y偏差乘积的和,分母是x偏差平方和与y偏差平方和乘积的平方根。相关系数的取值范围是负一到正一之间。当r大于零时表示正相关,小于零时表示负相关,等于零时表示无线性相关。r的绝对值越接近一,表示线性相关关系越强;越接近零,表示线性相关关系越弱。