共查询到20条相似文献,搜索用时 31 毫秒
1.
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环
境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:①基于文本网
络和改进PageRank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;②增加特征值IDF值
的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的
不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分
类效果,验证了该方法能够有效提高文本特征词提取的准确度。 相似文献
2.
本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。 相似文献
3.
为解决社区问答系统中的问题短文本特征词少、描述信息弱的问题,本文利用维基百科进行特征扩展以辅助中文问题短文本分类。首先通过维基百科概念及链接等信息进行词语相关概念集合抽取,并综合利用链接结构和类别体系信息进行概念间相关度计算。然后以相关概念集合为基础进行特征扩展以补充文本特征语义信息。实验结果表明,本文提出的基于特征扩展的短文本分类算法能有效提高问题短文本分类效果。 相似文献
4.
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用MaxEnt、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。 相似文献
5.
渔业文本分类是充分利用渔业信息资源的有效途径。针对中文文献资料的结构特点,提出一种结合特征词权值和支持向量机(Support Vector Machine,SVM)的渔业文本分类方法,利用向量空间模型(Vector Space Model,VSM)构建文本向量空间,并结合特征词权值计算文本特征向量中的各特征项,将构建的文本向量送入SVM进行渔业文本分类。采用中国知网下载的标准文档进行了实验测试,并考察了准确率和召回率两个指标,实验结果表明,文章提出的渔业文本分类方法具有较好的分类效果。 相似文献
6.
7.
8.
9.
10.
11.
12.
13.
针对含附件文本利用率低的缺陷,为了提升附件文本分类的查全率和查准率,从两个不同角度分别提出了基于密度的BP神经网络附件文本分类算法,对组织中带有附件的文本分类进行改进.实验表明,算法在一定程度上提高了含附件文本的利用率. 相似文献
14.
15.
16.
SOM聚类算法在文本分类上的应用 总被引:2,自引:0,他引:2
随着网络信息指数级的增长,如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理,提出一种改进自组织映射(SOM)神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算,SOM网络的训练过程以及多次聚类来细化各文本类别,最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能,便于文本检索。 相似文献
17.
基于VSM的文本分类挖掘算法综述 总被引:2,自引:0,他引:2
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。 相似文献
18.
19.