首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

2.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

3.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

4.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

5.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

6.
针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。  相似文献   

7.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

8.
将前期工作进行了改进并将训练集各簇中语义相似度大的文档进行合并,减少了训练集容量,实验表明该算法大大提高了KNN算法的效率。  相似文献   

9.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

10.
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。  相似文献   

11.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

12.
利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决"兼类"问题.  相似文献   

13.
中文专利文献自动分类   总被引:1,自引:0,他引:1  
采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。  相似文献   

14.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

15.
吴波 《鸡西大学学报》2009,9(5):151-152
介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。  相似文献   

16.
本文提出了一种新的用于配电网络重构的优化方法-进化策略退火(ESA)法,该方法将模拟进化策略法(ES)与模拟退火法(SA)进行了有机结合.首先用ES法选择SA法的初始温度,然后用改进SA法搜索重构的全局最优解.为加快寻优速度,本文提出了一种启发式规则用于降温策略,并采用了有效的潮流算法.仿真结果表明了ESA法的有效性  相似文献   

17.
针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。  相似文献   

18.
在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号