首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于正态分布的词频分析法高频词阈值研究
引用本文:安兴茹.基于正态分布的词频分析法高频词阈值研究[J].情报杂志,2014(10).
作者姓名:安兴茹
作者单位:内蒙古科技大学图书馆 包头 014010
摘    要:词频分析法高频关键词或主题词的界定是开展信息分析的重要基础。首先,在文献统计分析的基础上,总结了目前词频分析法高频词确定的四种方法:TOPN方法、WF>=M方法、%WF=P方法以及T计算方法,这些方法存在着经验性、随意性、理论基础和适用性上的问题。接着,通过实证方法,验证了关键词和主题词在文献库中的分布符合正态分布,并根据正态分布的特性,提出了词频分析法高频词阈值的F计算方法。最后,在多个数据样本基础上,将F方法与T方法进行了对比分析,认为基于正态分布的高频词阈值F计算方法在理论基础和适用性上都能达到较好的效果。

关 键 词:词频分析法  正态分布  高频词  齐普夫定律

The Research on the Threshold of High-Frequency Words Based on the Normal Distribution in Word Frequency Analysis
An Xingru.The Research on the Threshold of High-Frequency Words Based on the Normal Distribution in Word Frequency Analysis[J].Journal of Information,2014(10).
Authors:An Xingru
Abstract:
Keywords:word frequency analysis  normal distribution  High-frequency Words  Zipf's Law
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号