首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
洪亮 《科技广场》2009,(7):35-37
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法.  相似文献   

2.
胡涛  刘怀亮 《现代情报》2011,31(11):46-50
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。  相似文献   

3.
本文分析了基于特征选取模式下几种常用的文本分类模型,总结了各种方法的特点及其存在的主要问题,并对5种重要方法分类效果进行了评价,对各种方法需要进一步深入研究的问题进行了展望.  相似文献   

4.
针对科研论文往往具有统一的结构,将词项的位置信息考虑在内,给出一种新的词项特征加权方法.利用AdaBoosting分类算法进行实验,结果表明该方法在准确率、查全率和F-Measure方面都具有更好的文本分类性能.  相似文献   

5.
提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。  相似文献   

6.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

7.
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。  相似文献   

8.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

9.
尹桂秀 《情报理论与实践》2002,25(2):115-116,122
This article introduces a Chinese text automatic classification method, including its principle and classification process. The article focuses on some key theoretical problems, such as word classification, keyword collection and keyword matching.  相似文献   

10.
针对自然语言处理中普遍存在的特征缺失问题,提出了基于特征缺失补偿最大熵模型的文本分类方法.为避免数据稀疏时出现训练过适应,采用高斯先验平滑进行特征补偿,并提出基于条件最大熵计算增益和基于特征频数的混合特征选择方法.通过实验将本方法与中心法、最近邻、贝叶斯、SVM和平滑前的最大熵文本分类器进行了比较,实验结果表明基于特征缺失补偿最大熵模型分类器的综合性能超过以上算法.  相似文献   

11.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

12.
高晓琴 《科技通报》2012,28(4):70-71
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。  相似文献   

13.
基于词频的中文文本分类研究   总被引:3,自引:0,他引:3  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

14.
WEB文本分类技术在企业竞争情报分析中的应用   总被引:6,自引:1,他引:6  
薛燕波 《情报科学》2004,22(3):378-380,384
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成,效率低下;针对这一问题,本文提出了把Web文本分类技术应用到企业竞争情报搜集和分析中去,以提高竞争情报工作的效率。  相似文献   

15.
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法。该方法通过建立同义词词典、确定扩展规则和调整“特征保持因子冶等几个步骤,实现了少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿。实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著。与此同时,分类器的总体分类性能也得到了一定程度的提升。  相似文献   

16.
Web文本特征提取方法的研究与发展   总被引:4,自引:0,他引:4  
庞景安 《情报理论与实践》2006,29(3):338-340,367
本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测。  相似文献   

17.
基于改进KNN的文本分类方法   总被引:9,自引:0,他引:9  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号