TF-IDF算法

释放双眼,带上耳机,听听看~!

计算机提取一篇文章关键词涉及文字处理、信息检索、数据挖掘等很多计算机领域。从词频角度统计出现次数最多的“的”、“是”、“在”这一类最常用的词称为停用词(表示对找到结果毫无帮助,必须过滤掉的词)

衡量一个词是不是常用词,如果某个词比较少见,但是在文章中多次出现,那么这个词很可能反映文章特性,故需要在词频统计基础上引入重要性调整系数(逆文档概率IDF,大小与一个词的常见程度成反比)。有了词频和逆文档频率后,两个值相乘得到一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大

词频=某个词在文章中的出现次数

考虑到文章有长短之分,为了便于不同文章的比较,词频标准化

词频=某个词在文章中的出现次数/文章总词数

词频=某个词在文章中的出现次数/该文章出现次数最多的词的出现次数

计算逆文档概率需要一个语料库

逆文档概率=log(语料库文档总数/(包含该词的文档数+1))

一个词越常见分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。假定该文长度为1000个词,"中国"、"蜜蜂"、"养殖"各出现20次,则这三个词的词频都为0.02。搜索Google发现,包含"的"字网页共有250亿张,假定这就是中文网页总数。包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张

TF-IDF算法还可以用于许多别的地方。比如信息检索时,对每个文档都可分别计算一组搜索词****("中国"、"蜜蜂"、"养殖")的TF-IDF相加得到整个文档的TF-IDF这个值最高的文档就是与搜索词最相关的文档。TF-IDF算法优点是简单快速,结果比较符合实际情况。缺点是单纯以"词频"衡量一个词重要性不够全面,有时重要的词可能出现次数并不多。而且这种算法无法体现词位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的(一种解决方法是对全文的第一段和每一段的第一句话,给予较大的权重)****

TF-IDF算法

给TA打赏
共{{data.count}}人
人已打赏
安全经验

图解教程:Google Adsense和百度联…

2021-10-11 16:36:11

安全经验

安全咨询服务

2022-1-12 14:11:49

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索