首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
朴素贝叶斯分类算法应用于毕业生就业预测分析,关键是建立有效的分类模型.文章提出了一种有效分类模型的发现算法,并研究了该算法实施中的零值属性计数、缺失数据问题及解决方法,能有效解决毕业生就业预测的可靠性问题.  相似文献   

2.
针对传统无人机遥感图像信息提取与分类算法准确率低、稳定性差、无法有效应对大规模复杂遥感图像数据集等问题,提出一种基于RF-SVM的遥感图像处理算法。RF-SVM算法将RF数据集分类性能较强的优势与经典SVM算法数据降维能力相融合,引入随机变量和示性函数扩大样本集的边界,提升对复杂大规模数据集的处理能力,有效控制泛化误差。在对无人机遥感图像的预处理过程中,借助Brovey变换完成对光谱和高分辨率遥感图像的像素级融合,引入核函数并根据获取到的遥感图像特征和后验概率值,实现对遥感图像内部标的物的准确分类。实验结果显示,在RF-SVM算法下,无人机遥感图像信息提取准确率分类平均准确率达到99.81%,且在RF-SVM算法下的样本点感受性曲线稳定性更好。  相似文献   

3.
为了改善传统ID3算法在分类属性选择上存在多值偏向性的不足,提出基于PCA的决策树优化算法。在普通基于PCA 的决策树改进算法中,存在数据经降维处理后代表性不强的问题,导致算法需经过多次数据运行后,准确率才能小幅提升。在ID3算法基础上,在分类前两次提取属性特征值,并计算了需要分类的数据量,也即对原始数据进行最重要的属性选择。在子树建立之后,再进行数据的降维合并选择。采用UCI数据库中的3个数据集对改进算法进行验证,结果表明改进算法的平均准确率达到94.6%,相比传统ID3算法与普通PCA决策树优化算法分别提升了1.6%和0.6%。因此,基于PCA的决策树算法能在一定程度上提升结果准确率,具备一定的应用价值。  相似文献   

4.
大数据时代,数据量呈现爆炸式增长,且在内容与形式上日益复杂化,造成数据质量下降、数据丢失等,即产生不完备数据。提出一种改进的C4.5算法,使其能更好地处理不完备数据。每次特征选择前对本次特征选择的数据子集使用子集匹配方法进行处理,通过比较数据清洗方法与子集匹配方法的结果,显示即便是在相同清洗规则下,子集匹配方法在算法分类准确率上也更有优势。实验结果证明,在利用C4.5算法进行特征选择时,在该数据子集上对不完备数据进行处理,可以得到较高的分类准确率,同时得到比数据清洗高的时间复杂度。  相似文献   

5.
垃圾邮件处理作为一种典型的文本分类应用问题,受到高维数据的困扰。为提高垃圾邮件检测的效率和准确率,提出一种基于PLS特征提取和SVM的入侵检测算法,首先对原始垃圾邮件数据利用偏最小二乘算法降低维度,再采用遗传算法寻优转换特征子集,并通过支持向量机SVM进行分类。 Matlab仿真实验表明,本算法能有效降低数据维数,提高检测的准确率。  相似文献   

6.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

7.
农业文本分类旨在对主流的农业信息网抽取的文本数据集进行分类.在样本充足的情形下,经典的支持向量机方法能取得较好的效果,然而在样本较少或者样本矩阵很稀疏的情形下效果较差.提出了一种基于特征族群语义扩散核(它是语义扩散核的一种)和支持向量机的半监督农业文本分类方法.该方法在经典的支持向量机方法基础上结合特征族群语义扩散核,使得农业文本分类准确率得到一个显著的提升,在训练集样本数量只有原来一半的数量情况下预测原来的测试样本,预测准确率几乎与原来的相同.  相似文献   

8.
决策树是数据挖掘中简单常用的分类算法,它是一种以实例为基础的归纳学习算法,来发现数据模式和规则[1,2]。根据ID3算法,对股指期货自然人投资者数据样本进行分析,获得不同属性上的信息增益,最后生成决策树,可将此树转换成一个if-then规则的集合,并找到数据建模的规律和模式,提取有价值的信息,为证券公司扩展业务,增加客户,规避风险做出科学的决策支持。  相似文献   

9.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

10.
为了应对信息社会数据急剧增长,获得用户感兴趣或有益的数据,必须对数据进行处理,数据挖掘技术就是应这种需要而发展的.数据挖掘要取得有用数据,必须对数据进行种分类、聚类和关联三种不同的任务处理.对于文本信息的分类是数据挖掘的一个主要应用,而决策树算法利用自身优势和分类效率,在文本处理中有巨大的应用前景,尤其是J48算法应用与文本信息的分类有广泛的应用价值.  相似文献   

11.
对海量数据的处理能力是数据挖掘最关注的问题。决策树作为一种分类器,是数据挖掘中用到的一种基本方法之一。基于C4.5的决策树改进算法,是在一些典型的决策树分类算法的基础上提出的,基本思想是在建树过程中,用属性依赖度替代信息增益率来确定划分条件属性的顺序。该算法借鉴MedGen算法的阈值设定方法,在简化决策树剪枝和优化过程的同时,可优化C4.5算法中使用信息熵率的时间复杂度,避免了使用信息熵带来的不当划分。简述了该改进算法的执行过程,证明了算法的正确性。  相似文献   

12.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题.为此提出AAM算法,定位关键点提取人脸表情几何特征.将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类.在CK+数据...  相似文献   

13.
协同过滤算法在电子商务网站推荐系统中的应用非常广泛,其通过分析大量用户的历史行为数据,挖掘用户的兴趣,向用户推荐合适的物品。然而,协同过滤算法存在数据稀疏性问题。针对该问题,提出一种基于用户特征和商品特征的组合协同过滤推荐算法。通过用户基本属性特征、物品分类属性特征以及用户的历史评分记录,计算用户的相似性和物品的相似性,获得近邻用户和相似物品;依据改进的基于物品协同过滤和基于用户协同过滤组合推荐算法,为项目进行评分。实验表明,该方法能降低预测结果的平均绝对误差,提高推荐精度。  相似文献   

14.
提出了一种结合卷积神经网络和仿生模式识别的改进判别算法,以仿生模式识别为基础,首先构建一个基于卷积神经网络的特征提取网络。将图像特征提取之后,利用仿生模式识别构建并训练一个分类网络用于图像的分类。为证明方法的有效性,进行了3组对比实验,第1组为算法在少量数据下的对比分析,其改进后算法平均准确率比传统算法高了10%;第2组为算法在稍多数据下的对比分析,本算法平均准确率达到92%,高于传统算法;第3组为算法在较多数据下的对比分析,其平均准确率达到88%,高出传统算法10%。  相似文献   

15.
为了提高C4.5决策树算法的有效性,提出一种改进的C4.5决策树算法。结合粗糙集理论的属性约简算法和Fayyad边界点判定定理,对C4.5算法进行了改进,利用UCI数据集进行了实验。结果表明,改进的C4.5算法不仅提高了准确率,而且缩小了决策树规模,减少了分类时间。  相似文献   

16.
提出了一种分类规则的蚁群挖掘算法.算法首先对所有的连续属性值离散化,得到相应的离散属性,然后让各只蚂蚁按照某种策略选择相关属性,对所选属性再选择理想的属性值,循环地构造单个规则,接着更新训练集,最终形成各类规则集.最后用新规则约简算法进行约简操作.对两个公用数据的实验及其与Ant-Miner和C4.5的对比表明,算法能够发现更好的分类规则.实验同时表明该算法是有效的.  相似文献   

17.
提出一种监督型的连续属性离散化算法,利用云模型实现对属性区域的划分,以此引入边界的模糊性;再利用属性对类别的决定作用,判断是否对云模型进行归并操作,从而选择出合适的云模型集合,以实现离散化的目的.实验结果表明,该算法具有较少的离散化区间数以及较高的分类精度.  相似文献   

18.
随机森林算法随机选择多个决策树构成森林,算法分类结果由这些决策树投票得到,在运算量没有显著增加的前提下提高了预测精度,是一种目前比较流行的组合分类器算法。随机森林算法不仅可以用来做分类,也可用来做回归预测,是机器学习、计算机视觉等领域内应用极为广泛的一个算法。该文将随机森林分类算法用于交通状态判别,利用实测数据进行模型训练和验证,并用袋外数据计算判别正确率,实验结果表明该方法具有可行性,为交通状态判别提供了一种新思路。  相似文献   

19.
针对现有乐器分类研究中存在的使用特征量过多、分类准确率有待提高等问题,提出了一种特征量少、准确度高的乐器分类方法。基于Relief算法的主成分特征提取方法,计算出各特征量的权重,设计3层的神经网络分类器。根据所提算法和分类器,使用8项音频特征与传统的24项MFCC特征,分别对中西方9种乐器进行了分类实验,并分别使用权重最高的4、5、6项特征进行分类实验。结果表明,所提出的音频特征相比于传统MFCC特征对乐器分类的平均准确率更高,达到94.84%,且特征量更少,说明基于Relief算法的主成分特征提取方法能有效减小低相关性特征对分类准确率的影响。  相似文献   

20.
为了实现教育领域的“个性化”,无论是自由组卷的个性化,还是试题推荐的个性化,都首先需要确定试题难易度。研究目标为寻找新的方法解决基于试题难易度的分类问题,提高分类准确率。以高中数学为例,采用2018年多套高考数学试题作为实验数据,对原始数据各个特征进行相关性分析,剔除影响较小的特征,再采用随机森林算法探索试题难易度分类问题,对参数进行改进优化,并与其它分类方法进行对比。实验结果证明,采用随机森林的高中数学试题分类准确率高达90%,而其它3种分类算法准确率分别为72%、74%、74%。因此得出结论,随机森林算法在高中数学试题难易度分类上有较好表现,能够大幅提高分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号