视频字幕
支持向量机是机器学习中的重要算法,主要用于解决分类问题。它的核心思想是在数据空间中寻找一个最优的分离超平面,将不同类别的数据点分开。如图所示,蓝色点代表一类数据,红色点代表另一类数据,绿色直线就是我们要找的分离超平面。
最大间隔原理是支持向量机的核心思想。间隔是指分离超平面到最近数据点的距离。如图所示,绿色实线是最优分离超平面,橙色虚线表示间隔边界,紫色箭头显示间隔的大小。黄色圆圈标出的是支持向量,它们决定了分离超平面的位置。SVM通过最大化这个间隔来获得最好的分类效果。
支持向量是支持向量机中最关键的概念。它们是距离分离超平面最近的数据点,位于间隔边界上。如图中黄色圆圈所示,只有这些支持向量决定了分离超平面的位置。其他数据点,即使移动位置,也不会影响分类边界。这就是为什么叫做支持向量机,因为只有支持向量在起作用。
当面对线性不可分的数据时,核函数提供了强大的解决方案。如图左侧所示,在二维空间中,红色点被蓝色点包围,无法用直线分离。通过核函数映射,我们可以将数据变换到高维空间。在右侧的三维空间中,同样的数据变成了线性可分的,可以用一个平面将两类数据分开。
在实际应用中,数据往往包含噪声和异常值,严格的硬间隔可能无法处理这些情况。软间隔SVM引入了松弛变量,允许一些数据点违反间隔约束。如图对比所示,上方是硬间隔的情况,下方是软间隔的处理方式。参数C控制着对错误分类的惩罚程度,需要在分类准确性和模型泛化能力之间找到平衡。