TF-IDF算法

安全经验
21年11月28日
编辑

aqzt

释放双眼，带上耳机，听听看~！

计算机提取一篇文章关键词涉及文字处理、信息检索、数据挖掘等很多计算机领域。从词频角度统计出现次数最多的“的”、“是”、“在”这一类最常用的词称为停用词(表示对找到结果毫无帮助，必须过滤掉的词)

衡量一个词是不是常用词，如果某个词比较少见，但是在文章中多次出现，那么这个词很可能反映文章特性，故需要在词频统计基础上引入重要性调整系数(逆文档概率IDF，大小与一个词的常见程度成反比)。有了词频和逆文档频率后，两个值相乘得到一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大

词频=某个词在文章中的出现次数

考虑到文章有长短之分，为了便于不同文章的比较，词频标准化

词频=某个词在文章中的出现次数/文章总词数

词频=某个词在文章中的出现次数/该文章出现次数最多的词的出现次数

计算逆文档概率需要一个语料库

逆文档概率=log(语料库文档总数/(包含该词的文档数+1))

一个词越常见分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。假定该文长度为1000个词，"中国"、"蜜蜂"、"养殖"各出现20次，则这三个词的词频都为0.02。搜索Google发现，包含"的"字网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张

TF-IDF算法还可以用于许多别的地方。比如信息检索时，对每个文档都可分别计算一组搜索词****("中国"、"蜜蜂"、"养殖")的TF-IDF并相加得到整个文档的TF-IDF，这个值最高的文档就是与搜索词最相关的文档。TF-IDF算法优点是简单快速，结果比较符合实际情况。缺点是单纯以"词频"衡量一个词重要性不够全面，有时重要的词可能出现次数并不多。而且这种算法无法体现词位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的(一种解决方法是对全文的第一段和每一段的第一句话，给予较大的权重)****

TF-IDF算法

{{userData.name}}已认证

TF-IDF算法

Jenkins高级篇之Pipeline语法篇-1-Pipeline基本介绍

安全咨询服务

{{userData.name}}已认证

Related posts:

Jenkins高级篇之Pipeline语法篇-1-Pipeline基本介绍

安全咨询服务

Google Adsense 技巧提示100条

3天学会Jenkins_1_Jenkin与CI(Continuous Integration,持续集成)？

Jenkins+Maven+SVN搭建自动部署，自动测试环境

网站排名流量下降的原因有哪些？