首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
将前期工作进行了改进并将训练集各簇中语义相似度大的文档进行合并,减少了训练集容量,实验表明该算法大大提高了KNN算法的效率。  相似文献   

2.
基于K-均值算法的模糊分类器具有很好的分类效果,用它可以很准确的对训练样本进行分类,此方法是将K-均值算法应用于训练数据的聚类,对每个聚类的半径和聚类的中心都是可计算的,而模糊系统设计方法就是用模糊度来描述聚类,对训练数据进行高效且准确的分类,这种方法有下面几个特点:(a)不要预定义参数;(b)训练时间短;(c)简单;最后用一个例子对这种模糊分类器进行分析验证。  相似文献   

3.
提出了一种基于多属性分类的KNN改进算法,可有效提高传统的欧几里德KNN算法和基于信息熵的KNN改进算法的分类准确度。首先,按照单个属性不同属性值的个数占整个属性包含样本的比例进行属性的分类,分为基于信息熵的KNN算法处理的离散属性和基于传统欧几里德KNN相似度处理的连续属性两类,然后分别对不同属性进行区别处理;其次,将两类不同处理后得到的结果按比例求和作为样本之间的距离;最后,选取与待测样本的距离最小的k个样本判断测试样本的决策属性类别。  相似文献   

4.
机载LIDA点云数据中的回光强度信息可对地物进行精细分类。KNN算法和BP神经网络算法是目前比较热门的分类算法,在数据分类方面应用广泛,对这两种算法进行了分类比较研究。将回光强度信息作为训练样本,利用两种不同的方法进行分类。实验结果表明,BP神经网络在地物的精细分类以及边界线提取方面要优于KNN算法。  相似文献   

5.
针对垃圾邮件大量存在的问题,提出基于MapReduce并行SVM的垃圾邮件分类算法,用支持向量机作为分类器,基于MapReduce将各子分类器进行合并,并通过重训练得到模型,利用该模型对测试集进行分类,得到结果。为解决算法精度损失、准确率低等问题,引入KNN,在原算法基础上进行循环迭代。  相似文献   

6.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

7.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

8.
应用K-最邻近方法数据挖掘技术,研究数据挖掘技术在就业预测中的应用。同时,针对传统的K-最邻近方法的几个不足之处提出了相应的改进办法,主要包括特征属性的加权处理及K值选择问题的解决。最后,通过实验结果对传统的KNN算法与改进的KNN算法进行比较,以验证改进的KNN算法的有效性。  相似文献   

9.
为了提升不平衡数据中少数类的分类精度,利用SMOTE采样方法对数据集进行平衡化预处理;为了减轻样本重新合成过程中产生的类重叠和噪声对分类精度的影响,选择模糊粗糙最近邻算法(FRNN)作为分类器。在14个不平衡数据集上进行的仿真实验表明,该方法具有较好的分类表现,F值和G值最高分别可达0.965、0.932,是一种适用于不平衡率偏高数据集的分类方法。  相似文献   

10.
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.本文简要介绍了文本分类的特征提取算法,并通过实验比较了各种提取算法在KNN中的性能.实验表明IG、MI、CE、χ2、WE五种特征提取方法在KNN分类器中性能接近,互信息(MI)特征提取方法随着特征数的提高分类性能提高地较快,当特征数目较小的时候分类性能极差.  相似文献   

11.
朴素贝叶斯分类是贝叶斯分类中较简单并且常见的一种分类方法,已经被广泛地应用于各领域。通过尝试利用朴素贝叶斯算法对鸢尾花数据集进行剖析,介绍了朴素贝叶斯算法的原理和基本过程。基于贝叶斯算法在依据特征独立的假设下,对鸢尾花数据集进行分类计算,准确度达到84.21%,实验结果表明朴素贝叶斯算法具有较好的分类速度和分类效果。  相似文献   

12.
光学字符识别中,特征提取与分类是最关键的步骤,文中采用Gabor变换来提取图像特征,结合最近邻分类器进行分类识别,实现了对中文字符的准确识别.实验表明,该方法具有较好的抗干扰性.  相似文献   

13.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

14.
当前互联网快速发展,网络社会与现实社会逐渐同步,网上网下事件的关联性提高,网络舆情也越来越能够及时反映现实社会中发生的事情。因此,网络舆情监测不仅能够了解民意,为相关决策部门制定方案提供参考,而且能够通过大数据分析,对突发事件进行及时预警。以互联网上微博、贴吧、论坛、新闻评论等信息作为对象,以实用性为原则,研究一种基于文本自动分类的网络舆情监测方法。该方法通过网络爬虫抓取互联网上的信息,并采用基于KNN算法的文本自动分类方式完成网络舆情自动分类,最后通过实验验证了该方法的实用性。  相似文献   

15.
文本分类在自然语言分类中起着重要作用,将决策树ID3算法应用与文本分类,对数字图书馆的部分文本信息分类,提出一个基于ID3决策树的文本分类算法,取得了良好的实验结果。  相似文献   

16.
针对程序设计中常出现的分类问题.介绍了六种常用的分类算法:冒泡分类、选择分类、合并分类、基数分类(桶分类)、堆分类、快速分类,以及每种分类法所需的时间复杂度。当对大量的数据进行分类时,应选择适当的算法,以提高程序的执行速度。  相似文献   

17.
18.
刘冲  杨磊  李娜 《教育技术导刊》2016,15(12):33-34
分类是数据挖掘的一个重要课题。分类的目的是建立一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个利用该模型形成分类规则并预测未来数据趋势。决策树归纳是经典的分类算法,构建决策树模型算法中最有影响力的方法是ID3算法。针对ID3算法缺点,使用预剪枝和后剪枝相结合的办法处理决策树中的过学习情况,可生成一个更简单、更精确的决策树。  相似文献   

19.
语音情感识别本质上是对语音情感的特征参数进行分类和模式识别,其核心问题在于寻找一个更为合适的语音情感识别算法.综述了语音情感识别算法的分类概况、常用的分类算法、研究中的困难与需要进一步研究的问题.最后展望了可能提高精度的先进识别模型.  相似文献   

20.
通过机器学习方法辅助分析生物信息学中的数据,使用微阵列测试技术所获得的基因表达数据能够将任何给定条件下的基因表达模式表现出来,有利于研究人员更加深入地对众多生物过程的本质进行了解和掌握。文章对基因功能分类方法和基因表达数据的肿瘤分类进行了分析。对于基因表达数据的基因功能分类,按照功能类的隶属关系,提出基于功能树的优势因子决策和基于功能树的置信度调整准则,按照这两种标准进行基因功能树的基因功能分类算法改进。对于基因表达数据的肿瘤分类,将传统SVM算法和kNN算法两者进行结合,形成一种新型的分类算法,主要适用于肿瘤的分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号