TF-IDF算法

2020年4月25日20:23:11 评论 1042字阅读3分28秒

TF-IDF算法

TF-IDF算法的全称叫 Term Frequency-Inverse Document Frequency 词频-逆文档频率算法。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

TF-IDF主要用来文章关键词抽取

当需要抽取一篇文章的关键词时候，往往我们最先想到的是计算文章的所有词的词频，文章越是和主题相关，出现主题相关的词越是多，词频也就越大，按照词频来排序,找出关键词top N。但是问题来了，像‘的’，‘我们’，‘地’等这些没什么实在意义的词在所有文章中出现的词频应该都是很高的，我们称这样的词称为停词。在计算top N的关键词频之前，我们需要过滤掉这些停词，那么根据前几个排名的关键词我们也就能得出一篇文章的大概主题在说什么。

TF-IDF算法