共查询到17条相似文献,搜索用时 62 毫秒
1.
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法. 相似文献
2.
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。 相似文献
3.
4.
5.
6.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。 相似文献
7.
8.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
9.
This article introduces a Chinese text automatic classification method, including its principle and classification process. The article focuses on some key theoretical problems, such as word classification, keyword collection and keyword matching. 相似文献
10.
11.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高. 相似文献
12.
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。 相似文献
13.
基于词频的中文文本分类研究 总被引:3,自引:0,他引:3
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。 相似文献
14.
WEB文本分类技术在企业竞争情报分析中的应用 总被引:6,自引:1,他引:6
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成,效率低下;针对这一问题,本文提出了把Web文本分类技术应用到企业竞争情报搜集和分析中去,以提高竞争情报工作的效率。 相似文献
15.
16.
Web文本特征提取方法的研究与发展 总被引:4,自引:0,他引:4
本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测。 相似文献
17.
基于改进KNN的文本分类方法 总被引:9,自引:0,他引:9
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。 相似文献