TF-IDF及相关知识（余弦相似性）

发布时间：2022-08-17 13:26

自然语言的处理是一个神奇的领域，它涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，由于复习相关知识，所以这里对该方向的部分知识做一个简单的介绍和记录。

该文主要记录的是一个很简单却很经典有效的算法——TF-IDF。从它的概念到运算可能花不了10分钟就能了解，并且用到的运算知识都不涉及高等数学，但往往能返回我们一个满意的答案。

当我们输入一段检索信息时，可以利用TF-IDF算法，给我们返回一篇与我们搜索比较符合的文章，下面对它做详细介绍：

TF（词频）：

TF-IDF的第一个知识点，TF（Term Frequency，缩写为TF）表示词频，简单点说就是某个单词出现的频率，这是很容易理解的，如果我们要知道某个词是否是重要关键字，那么很容易想到的就是计算该词出现的数量。借由阮老师使用的例子来说明：《中国蜜蜂养殖》一文中，出现最多的一些词语可能是中国、蜜蜂、养殖，那么统计这些单词的个数（或者再做一些处理）就是该词的频率。

停用词：

停用词一个很简单的常识概念。我们知道绝大多数文章中（的、了、是、在）等词是最为常见的字词，由此若我们直接统计关键词的数量，那么获得的答案可能是无意义的，对于这些相当普通的词语我们称之为停用词，在我们处理文章时极有可能需要先将这些词语排除掉，预处理后再对文章做一个运算。停用词表有很多，很多公司企业研究机构都制作有停用词表，可以选择使用。

IDF（逆文档频率）：

第二个知识点IDF，IDF（Inverse Document Frequency，缩写为IDF）表示逆文档频率。接着上面的例子来说，如果一文中中国、蜜蜂、养殖出现的次数一样多，那是不是它们同等重要呢？很有可能不是，仔细想想，一篇文章出现（中国）的概率和出现（蜜蜂）的概率哪个大，可能很多文章中都会出现中国一词，所以如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。于此我们需要一个数值（权重）来表示这些词语的一个重要性，最常见的（的、了、是、在）等词将给予最小的权重，较常见的（中国）等给予较小的权重，而（蜜蜂、养殖）这样的词语给予较大的权重，这个权重就叫做逆文档频率，值大小与常见程度成反比。

有了上面的概念，下面说说具体的运算：

一、TF（词频）的几种运算方式：

1：