首页
|
本学科首页
官方微博
|
高级检索
全部专业
教育
科学、科学研究
世界各国文化与文化事业
体育
文化理论
信息与知识传播
学报及综合类
按
中文标题
英文标题
中文关键词
英文关键词
中文摘要
英文摘要
作者中文名
作者英文名
单位中文名
单位英文名
基金中文名
基金英文名
杂志中文名
杂志英文名
栏目英文名
栏目英文名
DOI
责任编辑
分类号
杂志ISSN号
检索
基于多特征提取的中文二元分类
摘 要:
通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇。研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征。利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取。实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组,抽取中文词汇。实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%。
本文献已被
CNKI
等数据库收录!
设为首页
|
免责声明
|
关于勤云
|
加入收藏
Copyright
©
北京勤云科技发展有限公司
京ICP备09084417号