首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

2.
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。  相似文献   

3.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

4.
结合蚁群算法在解决分类问题方面的优势,以及中文网页内容特征值的离散性特点,提出一种改进的基于蚁群算法的网页分类方法。该算法通过携带类别信息的种群蚂蚁的爬行,在迭代过程中寻找一条最佳路径与之匹配,实现了Web页面的分类。最佳路径通过计算测试文档与每一类别的覆盖集合,进而比较最优覆盖集合得到。其中类别权重计算中引入了文字链接比和标签权值,进一步提高了分类精度。实验证明,引入类别覆盖集的蚁群分类算法能够取得更好的分类效果。  相似文献   

5.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

6.
SVM算法只使用已归类的数据训练分类器,而EM算法用少量已归类数据,结合大量的未归类数据来训练分类器,在减少已归类数据的同时保证了分类器的精度。本文基于EM算法的思想,根据SVM文本分类模型,提出一种新的迭代SVM文本分类算法。实验结果表明,迭代SVM算法分类精度高于传统的SVM文本分类算法,具有较好的性能。  相似文献   

7.
文本分类在自然语言分类中起着重要作用,将决策树ID3算法应用与文本分类,对数字图书馆的部分文本信息分类,提出一个基于ID3决策树的文本分类算法,取得了良好的实验结果。  相似文献   

8.
基于K-均值算法的模糊分类器具有很好的分类效果,用它可以很准确的对训练样本进行分类,此方法是将K-均值算法应用于训练数据的聚类,对每个聚类的半径和聚类的中心都是可计算的,而模糊系统设计方法就是用模糊度来描述聚类,对训练数据进行高效且准确的分类,这种方法有下面几个特点:(a)不要预定义参数;(b)训练时间短;(c)简单;最后用一个例子对这种模糊分类器进行分析验证。  相似文献   

9.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

10.
在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。  相似文献   

11.
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。  相似文献   

12.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

13.
14.
《宜宾学院学报》2019,(6):47-51
基于云计算技术的神经网络方法研究为大规模数据的分析处理提供了廉价的、高效的解决方案,交叉覆盖算法可以较好地解决多层前向网络分类器的设计问题,弥补BP神经网络的不足.结合MP神经元的几何概念,基于交叉覆盖算法设计神经网络,以Iris数据集为例,基于云计算环境实现了数据分类,为多层前向神经网络在云环境下进行数据分析提供了一种有意义的研究和实践.  相似文献   

15.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

16.
把粗糙集与神经网络结合,应用于文本分类,可以充分发挥两种方法的优势,取长补短,粗糙集理论可以有效地对样本集进行约简,从而简化了神经网络的结构,减少了网络的训练次数,学习速度和分类精度明显提高,并用仿真实验验证了此方法的有效性.  相似文献   

17.
介绍BP神经网络的结构及相关算法,并通过实验比较不同情况下对BP神经网络的收敛速度与分类精度的影响。实验表明,合适的参数设置能提高BP神经网络算法的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号