视频字幕
TF-IDF是文本挖掘中的重要算法。它通过计算词频和逆文档频率的乘积,来衡量一个词语对于文档的重要程度。TF表示词语在当前文档中的频率,IDF表示词语在整个文档集合中的稀有程度。TF-IDF值越高,说明该词语越能代表当前文档的特色。
现在我们来计算TF值。在给定的示例文档中,总词数为60。我们选择的5个词语:孩子们、快乐、都是、他们、大山,每个都出现了2次。因此,每个词的TF值都等于2除以60,结果都是0.033。TF值反映了词语在当前文档中的重要程度,出现次数越多,TF值越高。
接下来计算IDF值。IDF反映词语在整个文档集合中的稀有程度。计算公式是文档总数除以包含该词的文档数,再取对数。大山只在20篇文档中出现,所以IDF最高为1.979。快乐在30篇文档中出现,IDF为1.810。而都是在250篇文档中出现,说明很常见,IDF只有0.901。词语越稀有,IDF值越高,越能体现文档特色。
现在计算最终的TF-IDF值。将每个词的TF值乘以对应的IDF值。大山的TF-IDF值最高,为0.0653,因为它既在文档中出现,又很稀有。快乐排第二,为0.0597。孩子们排第三,为0.0500。根据TF-IDF值排序,选取前三个词:大山、快乐、孩子们作为该文档的关键词。这些词最能代表文档的主题特征。
总结TF-IDF算法的核心思想:它通过结合词频和逆文档频率,找出既在当前文档中频繁出现,又在整个语料库中相对稀有的词语。这样的词语最能代表文档的特色主题。算法流程包括四个步骤:计算TF、计算IDF、计算TF-IDF值、最后提取关键词。TF-IDF广泛应用于搜索引擎、文档分类、关键词提取等领域,是文本挖掘的基础算法。