首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

2.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

3.
总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法进行了研究。  相似文献   

4.
数据挖掘是由数据库发展起来的一门新兴技术,就是指在一群无规则、隐藏有价值的信息中高效迅速找出其中有价值的信息,在现代社会各行各业中都有广泛运用.而正确的取样方法则可以显著缩小数据挖掘的规模,使更多数据挖掘算法运用到大规模数据集和数据流数据上.笔者首先分析了数据挖掘的取样方法的分类,然后再具体分析了几种常用的数据挖掘取样思想,最后对数据挖掘取样方法选择的影响因素及其未来的发展进行了简要分析论述.  相似文献   

5.
数据挖掘技术正以其强大的功能在许多研究和应用领域得到广泛的发展,分类预测算法更是有着广泛的应用前景,决策树算法是一种重要的分类方法,是数据挖掘领域研究热点之一。在学生管理工作中,运用决策树算法对海量的学生信息进行处理,在实际操作中,有着很高的参考价值。  相似文献   

6.
数据挖掘在各行业发挥着越来越重要的作用,随着数据挖掘中数据量的高速增长以及大规模计算在数据挖掘中的应用。挖掘算法处理海量数据的能力问题日益突出.通过对常见的数据挖掘分类并行算法进行研究探讨,分析了C4.5算法,SLIQ算法,SPRINT算法的优缺点,最后指出研究并行算法是解决处理海量数据能力的有效途径.  相似文献   

7.
对数据挖掘技术在研究生信息库中的应用进行了初步分析探讨,目的是从海量的学生数据库中提取人们感兴趣的数据信息,并创建数据挖掘模型。运用朴素贝叶斯分类的方法,对所给数据进行分类和预测,并指出了其技术难点及构建算法,最后,通过一个实例给出了该算法对于预测数据进行分类的详细过程。  相似文献   

8.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

9.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

10.
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB-分类器的分类效果好.选用本文提出的改进特征选择方法和NB-三支分类器,在处理非平衡度高且文本长短不一的数据集时,分类效果有一定提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号