一种基于泊松估计的可控特征选择算法 |
| |
引用本文: | 高影繁,王惠临.一种基于泊松估计的可控特征选择算法[J].情报学报,2010,29(3). |
| |
作者姓名: | 高影繁 王惠临 |
| |
作者单位: | 中国科学技术信息研究所,北京,100038 |
| |
基金项目: | "十一五"国家科技支撑计划重点项目,国家社科基金项目 |
| |
摘 要: | 特征选择是文本分类的关键技术之一.本文提出一种基于泊松估计的可控特征选择算法,该算法以基于泊松假设估算的文档频率作为衡量特征语义信息的依据,以通信领域中的信息率失真理论作为可控特征选择的思想来源.在Reuters-21578新闻语料上进行的实验结果表明,基于泊松估计的特征选择算法性能优于基于语义的WN算法和同样基于统计的IG、Chi2等算法;在以特征漏选率作为信息率失真函数的前提下,设定分类算法分类指标下限值,则可以通过改变特征漏选率得到任意的分类精度值.实验表明本文算法在与相关算法的对比中存在优势.算法思想来源于通信领域中的信息率失真理论,也是一种在领域融合方面的崭新尝试.
|
关 键 词: | 泊松估计 语义特征 率失真理论 可控特征选择 |
A Controllable Feature Selection Algorithm Based on Poisson Estimates |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|