首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
为了提高KNN检索策略的检索效率和检索结果的质量,提出一种改进的KNN检索策略。在引入图书馆领域本体和概念语义相似度度量技术的前提下,利用句法结构筛选不合理的案例以降低计算规模,从而提高案例的检索质量和效率,利用改进的微粒群算法优化概念语义相似度度量技术中的组合参数以提高KNN检索的结果质量。实验数据采用福州晓锋科技信息咨询有限公司提供的图书馆参考咨询测试数据。实验结果表明,相比于传统KNN和基于传统PSO的改进KNN方案有效地提高了案例匹配结果的查全率和查准率。  相似文献   

2.
文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用KNN分类方法,将基于类别的方法与全局方法进行比较,实验结果表明,基于类别的方法能够提高分类器的总体性能。  相似文献   

3.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

4.
提出了一种基于多属性分类的KNN改进算法,可有效提高传统的欧几里德KNN算法和基于信息熵的KNN改进算法的分类准确度。首先,按照单个属性不同属性值的个数占整个属性包含样本的比例进行属性的分类,分为基于信息熵的KNN算法处理的离散属性和基于传统欧几里德KNN相似度处理的连续属性两类,然后分别对不同属性进行区别处理;其次,将两类不同处理后得到的结果按比例求和作为样本之间的距离;最后,选取与待测样本的距离最小的k个样本判断测试样本的决策属性类别。  相似文献   

5.
传统的K最近邻算法(KNN)是机器学习领域中思想简单、易于学习、对低维数据处理效率较高的分类方法之一,但是在高维数据的分类中效率不高、性能会降低。针对传统KNN算法在处理多维数据集上的不足,提出了一种新的KNN改进算法:将线性回归方法引入该算法中,利用属性间的决定系数选择合适的属性集合,降低高维数据集的维数,并采用卡方距离作为KNN算法的距离度量函数,克服欧式距离不能体现特征向量之间相对关系的不足。实验结果分析表明,在标准数据集的测试中,基于线性回归方法的改进KNN算法达到了较高的分类准确度,相对于传统KNN算法在属性识别度上有了一定的提高。  相似文献   

6.
为了提高网络教育资源库建设的质量和效率,文章采用文本自动分类方法实现资源的自动归类,而特征选择是文本自动分类系统的关键步骤。文章以基础教育资源为样本,重点研究了网络教育资源的特征选择方法,实验结果表明,改进型互信息(MIPW)方法要好于其他方法,并且单字词的去除使得分类效果提高,说明词特征更能够比较完整地表达语义信息。  相似文献   

7.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

8.
民航信息系统日志包含大量信息,但由于日志数据非结构化,不易被读取且数据量巨大,难以通过人工分析得出有价值信息。Hadoop分布式计算技术恰好可以很好地解决这个问题。设计了基于Hadoop的民航日志分析系统,系统结合数据挖掘领域经典的KNN分类算法,对算法进行了并行化改进,给出算法在Hadoop平台的MapReduce编程模型上的执行流程。对系统进行单机和集群测试,集群系统在处理较大规模数据时更高效。实验结果证明,系统具有较高的执行效率和可扩展性,对民航日志分析具有较高的实用价值。  相似文献   

9.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性--网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集采源于同一个样本集而忽视了测试集中可能包含无类别样本的可能.基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度.实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法.  相似文献   

10.
电类实验教学过程中人工评判学生所测数据工作烦琐,影响了教学质量和效率。该文提出了改进的K近邻(K-nearest neighbors,KNN)分类算法,即基于均值漂移、安全间隔和核主成分分析(KPCA)的M-KPCA-KNN(KNN based on margin and KPCA)算法,以判断学生测量数据正确与否和错误原因。首先利用KPCA对高维实验数据进行降维,然后利用均值漂移向量找到不同类别数据的最密集位置,并在不同类别数据的边界设置安全间隔,最后,将与待测样本距离最近的k个数据设置权重,计算每个类别的权重和,权重和最大的类别为待测样本的类别。与现有的KNN算法相比,M-KPCA-KNN算法不仅提高了分类正确率,而且降低了时间复杂度。  相似文献   

11.
为了能对金线莲品系进行方便准确地识别,提出基于PCA ̄KNN 的金线莲叶片识别方法。通过图像预处理,获得特征较为明显的叶片区域,再提取纹理和颜色特征,进行特征融合,然后采用PCA降低特征维度,提高识别精度,最后通过训练KNN 分类器完成分类。以3 个品系的金线莲为例进行鉴别试验,结果表明,提出的识别方法与其它方法相比,正确识别率更高,达到98.4%,能准确识别不同种类的金线莲。  相似文献   

12.
Teaching children in the primary grades the text structures and features used by authors of information text has been shown to improve comprehension of information texts and provide the scaffolding and support these children need in order to write their own information texts. As teachers implement the English Language Arts Common Core State Standards (CCSS), they will need support and training on how to meet these increased curricular demands. In this article, we describe how children’s information books can be used as exemplars of well-structured text models to teach young students how to write selected discourse patterns required in the CCSS. As children in the primary grades learn to recognize and use well-structured example information texts as models for their own writing, they will be better prepared to deal with less well-structured, more complex text examples in their reading and writing in the years to come.  相似文献   

13.
A motion information analysis system based on the acceleration data is proposed in this paper,consisting of filtering,feature extraction and classification.The Kalman filter is adopted to eliminate the noise.With the time-domain and frequency-domain analysis,acceleration features like the amplitude,the period and the acceleration region values are obtained.Furthermore,the accuracy of the motion classification is improved by using the k-nearest neighbor (KNN) algorithm.  相似文献   

14.
针对Android平台下恶意软件侵扰问题,提出一种基于权限—敏感API特征的加权朴素贝叶斯分类算法的检测方案。首先对Android应用程序中的配置文件进行解析,然后利用Apktool工具对APK文件进行反编译,提取出权限—敏感API特征集,并通过信息增益算法和卡方检验算法过滤冗余数据,最后利用加权朴素贝叶斯分类算法的恶意软件检测模型进行分类判断。实验结果证明,该系统能有效提高分类器的效率和恶意软件的检测率。  相似文献   

15.
网上购物系统具有强大的交互功能,它的主要特点就是改变了购物只有到现实商场的惯常做法,这种全新的交易方式采用Web技术,借助于Internet互联网广泛应用,达到资源共享,实现公司间文档与资金的无纸化交换,并使商家和用户方便地传递信息,完成电子贸易或EDI交易。  相似文献   

16.
曾果 《铜仁学院学报》2008,10(5):118-119
本文通过时K近邻算法进行研究,在其基础上提出了一种基于K近邻的邮件过滤模型.该模型通过利用已知垃圾邮件的分类结果,应用K近邻方法对未知邮件样本进行精确匹配,以排除合法邮件的误判结果,同时,结合用户对所接收邮件的处理,将系统不能正确划分的新垃圾邮件加入训练数据中,以提高类似于该邮件的后续垃圾邮件的处理效率。  相似文献   

17.
传统图像特征提取具有较高维度缺陷,造成算法分类效率低、复杂度高、分类速度慢、计算开销大等问题.为此提出AAM算法,定位关键点提取人脸表情几何特征.将朴素贝叶斯分类器结合特征属性重要度调节高斯核函数,使用K近邻算法实现分类决策,提出一种WNBC-KNN分类方法,从降低数据维度和分类算法两方面优化人脸表情分类.在CK+数据...  相似文献   

18.
针对特定领域的智能答疑系统中问句分类,利用加权LSA计算问句之间的语义相似度和KNN算法构造分类器进行问句分类,并对KNN分类算法及改进的KNN分类算法进行实验比较。结果表明加权的KNN分类器分类效果最好,达到了90.8%的精确率。  相似文献   

19.
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号