期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李家兵《滁州学院学报》2008,10(5)

中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。相似文献

2.

文本分类技术研究

台德艺谢飞胡学钢《合肥联合大学学报》2007,17(3):61-64

通过介绍文本分类的过程及其关键技术，讨论了文本表示、分类算法、分类器性能评价原理和方法；最后，指出了当前文本分类过程中存在的问题，并对今后的发展进行了展望．相似文献

3.

使用KNN算法的中文Web文本分类技术研究

曹勇吴顺祥《教育技术导刊》2007,(1)

对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。相似文献

4.

文本分类算法研究

赵岩周斌陈儒华《教育技术导刊》2013,12(10):54-56

文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。相似文献

5.

基于突发事件新闻网页的文本分类方法研究

王昌厚罗永莲《长治学院学报》2006,23(2):34-35

从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。相似文献

6.

基于Weka的文本分类算法性能分析

刘娅《铜仁学院学报》2014,(4):92-95

针对文本分类算法的选择问题,使用二十新闻组数据集在开源的数据挖掘软件Weka上进行了仿真实验。通过实验结果综合评价了朴素贝叶斯算法、IB1算法和ZeroR算法的性能。实验结果表明在三种算法中朴素贝叶斯算法的准确率最高,ZeroR算法的运算速度最快。研究表明文本分类的效率受所选算法的影响较大,合适的算法可以显著地提高文本分类的准确率。相似文献

7.

文本分类中特征项权重算法的改进

卢志翔蒙丽莉《柳州师专学报》2011,26(4):128-131

TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。相似文献

8.

基于聚类中心初始化的文本分类高效算法

刘金岭王朝谢少峰《教育技术导刊》2010,9(4):47-49

将前期工作进行了改进并将训练集各簇中语义相似度大的文档进行合并,减少了训练集容量,实验表明该算法大大提高了KNN算法的效率。相似文献

9.

基于模糊分类规则树的文本分类 总被引：2，自引：0，他引：2

郭玉琴袁方刘海博《东南大学学报》2008,24(3):339-342

针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树（FCR-tree）的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高. 相似文献

10.

基于神经网络算法的文本分类器研究

李淑鹏《教育技术导刊》2007,(23)

文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。相似文献

11.

改进偏二叉树多类SVM的文本分类

周靖《茂名学院学报》2011,21(4):56-58,66

在文本分类过程中,为解决传统支持向量机（SVM）多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。相似文献

12.

径向基函数在文本分类中的应用

胡锡衡《鞍山师范学院学报》2011,13(2):42-44

利用RBF网络进行文本自动分类,对训练集进行聚类,使得每个簇内部的相似性尽可能高,而簇之间的相似性尽可能低.为每一个簇的中心定义相应的径向基函数,再对由这些径向基函数构成的两层神经网络进行训练.因考虑到了不同簇之间的差异性,因此很好解决＂兼类＂问题. 相似文献

13.

中文专利文献自动分类 总被引：1，自引：0，他引：1

陈志雄曾辉《嘉应学院学报》2010,28(2):24-29

采用KNN算法实现了一种中文专利文献自动分类系统。针对专利文献数据规模过大,分类效率低下的问题,采用修剪样本技术删除冗余样本,提高了分类器的效率。为解决修剪样本导致干扰文献积累对KNN分类性能下降的影响,系统使用信息增益对专利文献进行特征词选择,削弱了干扰文献对KNN分类的作用。实验证明,采用修剪样本技术和基于信息增益的特征词选择能有效缩小训练集规模,提高KNN分类准确率。相似文献

14.

词分布均衡度评价特征词选取方法的文本分类

陈键胡学刚《安徽科技学院学报》2009,23(2)

对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性. 相似文献

15.

网络环境下文本自动分类方法研究综述

吴波《鸡西大学学报》2009,9(5):151-152

介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。相似文献

16.

Distribution Network Reconfiguration Based on ESA

陈星莺单渊达《东南大学学报》1998,(2)

本文提出了一种新的用于配电网络重构的优化方法－进化策略退火（ＥＳＡ）法,该方法将模拟进化策略法（ＥＳ）与模拟退火法（ＳＡ）进行了有机结合．首先用ＥＳ法选择ＳＡ法的初始温度,然后用改进ＳＡ法搜索重构的全局最优解．为加快寻优速度,本文提出了一种启发式规则用于降温策略,并采用了有效的潮流算法．仿真结果表明了ＥＳＡ法的有效性相似文献

17.

多标记文本分类中信息增益特征选择方法研究

许朝阳《廊坊师范学院学报(自然科学版)》2012,12(5):46-48

针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。相似文献

18.

基于FastText的新闻文本多分类研究

张超超卢新明《教育技术导刊》2020,19(3):44-47

在迅速增加的海量数据中,文本形式的数据占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。相似文献