背景
当我们处理文本任务时,经常会遇到一个核心问题:计算机如何理解一段文字?机器并不懂语言,它只能理解数字。所以无论是做文本分类、搜索引擎、文本相似度、关键词抽取还是推荐系统,都绕不开一个关键步骤:把文本转成可用于计算的数字特征(向量)。
而在传统 NLP 中,最经典、最稳定、最常用的特征工程方法之一,就是 TF-IDF。它不用深度学习,也不需要训练模型,却能用统计方式给每个词赋予一个重要性评分,从而帮助我们提取关键词、计算相似度、构建检索系统,是理解 NLP 的一个经典起点。
核心定义
TF-IDF 是一种衡量某个词对某篇文章有多重要的方法。

