视频字幕
K近邻算法是机器学习中最简单直观的算法之一。它的核心思想是物以类聚,人以群分。当我们要预测一个新样本的类别时,我们会寻找与它最相似的K个已知样本,然后根据这些邻居的类别来决定新样本的类别。
KNN算法的执行步骤非常清晰。首先选择K值,决定要考虑多少个邻居。然后计算新样本与所有训练样本的距离,常用欧氏距离。接着找出距离最近的K个邻居,最后根据这些邻居的类别进行投票预测。
距离计算是KNN算法的核心步骤。最常用的是欧氏距离,它基于勾股定理计算两点间的直线距离。例如,点(2,6)和点(5,4)之间的距离,先计算x方向差值3和y方向差值2,然后用勾股定理得到距离约为3.6。
现在演示分类预测过程。当K等于3时,我们找到距离新样本最近的3个邻居。其中2个是红色类别,1个是蓝色类别。根据多数投票原则,红色类别获得2票,蓝色类别获得1票,因此预测新样本属于红色类别。