首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

2.
如今社会发展进入信息化时代,各行各业的所使用或产生的数据规模呈几何级增长。如何对大量复杂数据进行有效分类,对推进服务质量、决策制定都有积极的意义。本文主要研究运用机器学习的方法对数据进行分类的算法,从机器学习算法引入,介绍主流的数据分类算法,并比较各类算法的优势与劣势。最后提出利用机器学习进行数据分类的方法以提升分类操作中的数据运算的速率以及分类结果的可信度,并提出对大数据进行机器学习的研究展望。  相似文献   

3.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

4.
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。  相似文献   

5.
自动文本分类技术研究   总被引:1,自引:0,他引:1  
奉国和 《情报杂志》2007,26(12):108-111
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。  相似文献   

6.
洪亮 《科技广场》2009,(7):35-37
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法.  相似文献   

7.
针对一些常用排版软件,对一些不常见的中文汉字给出了几种处理方法,即用命令拼贴、从符号库查取以及图片插入,同时辽对日文汉字及旧形字等特殊字符的处理给出了详尽的说明。  相似文献   

8.
在中文微博数据的文本情感分类任务中使用机器学习方法 ,为研究不同的特征集对情感分类准确率的影响,综合了一元词特征、句法特征、微博特征、基于评价对象特征、词典特征用于支持向量机分类器中,通过准确率、召回率、F指数比较分析不同特征组合对于分类性能的影响。所提方法用于微博数据中关于药品二甲双胍的评论文本,实验结果表明,一元词特征对文本情感分类的准确率高于其他单类特征,而在与句法特征、微博特征、基于评价对象特征、词典特征的综合使用得到了最高的分类精度。  相似文献   

9.
近年来,心血管疾病已成为威胁人们生命的主要疾病,而心血管疾病患者早期发病时往往出现心律失常症状,因此早期检测心律失常对提前预防心血管疾病,及早介入治疗具有至关重要的意义。基于此,本研究利用小波分析方法对不同类型的心电序列进行去噪声处理,再利用ARMA模型以及时间序列的方法对分解后的信号序列进行特征提取,将ARMA模型的系数作为心电信号的特征指标;结合决策树分类、支持向量机分类和随机森林分类机器学习方法对提取后的心电特征指标进行分类研究,并根据实验结果对三种算法的性能进行比较分析。  相似文献   

10.
本文依据反馈学习的思想和支持向量机分类算法,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型,通过实验研究了反馈学习对中文文本分类模型性能的影响.结果表明,反馈学习对分类性能的提高有明显作用,它是对实时变化信息的有效解决方法.  相似文献   

11.
12.
文本自动分类技术研究综述   总被引:2,自引:0,他引:2  
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。  相似文献   

13.
自动文本分类方法研究述评   总被引:2,自引:0,他引:2  
蒲筱哥 《情报科学》2008,26(3):469-475
在总结已经研究出的经典文本分类方法的基础上,对当前涌现出的一些新的文本分类方法进行了归纳,得出了当前研究的不足之处和未来发展趋势。  相似文献   

14.
模块化理论和方法在制造业领域的生产组织方面得到较为广泛的应用,而水利水电工程中应用较少。本文将模块化思想引入工程事故中,运用朴素贝叶斯分类法与拉普拉斯修正法,重点研究工程事故属性库,从而提出事故属性库的构建方法。通过识别工程事故的属性,利用朴素贝叶斯分类法,计算通过Python 3.6编程实现,确定特征属性类别,做数据清洗,对各个类别的特征向量进行统计,从而生成工程事故属性库。最后结合水利水电工程事故案例,运用本文提出的构建方法,构建水利水电工程事故属性库。  相似文献   

15.
针对科研论文往往具有统一的结构,将词项的位置信息考虑在内,给出一种新的词项特征加权方法.利用AdaBoosting分类算法进行实验,结果表明该方法在准确率、查全率和F-Measure方面都具有更好的文本分类性能.  相似文献   

16.
文章主要是结合电子政务信息的特点,对中文文本分类技术在电子政务中的应用进行探讨,指出当前中文文本分类研究存在的问题,提出在电子政务中应用时的建议.最后指出了加强电子政务的电子词典建设是促进自动分类技术在电子政务中广泛应用的一个重要工作.  相似文献   

17.
谭金波 《情报杂志》2007,26(9):87-88,91
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。  相似文献   

18.
本文借鉴了关键词轮排原理,结合相关统计模型,从正反两个方面对原始抽词词典进行压缩和优选,以达到降维和准确表达主题的目的;并基于海量新闻文本进行了自动分类测试,结果表明该约简算法在构造核心关键词词典方面是可行的。  相似文献   

19.
王亚民  刘洋 《情报杂志》2012,31(8):161-165
针对含附件文本利用率低的缺陷,为了提升附件文本分类的查全率和查准率,从两个不同角度分别提出了基于密度的BP神经网络附件文本分类算法,对组织中带有附件的文本分类进行改进.实验表明,算法在一定程度上提高了含附件文本的利用率.  相似文献   

20.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号