首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
运用非结构化信息挖掘,对网络评论情感进行分析是一个非常重要的方法。本文基于Web客户评论情感文本,在情感文本预处理过程中使用四种不同的停用词表,采用两种不同的特征选择方法,选用著名的TF-IDF权重计算方法,使用基于RBF核函数的支持向量机方法的分类器实现了对携程网上采集的4000个酒店客户评论情感文本的分类研究。通过实验,分析了不同特征选择方和停用词表的使用对客户评论文本情感分类的影响,提出了基于情感文本分类的有效的停用词表。  相似文献   

2.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

3.
基于机器学习的自动文本分类模型研究   总被引:2,自引:0,他引:2  
基于机器学习的方法是自动文本分类中非常重要的一大类方法。本文先给出了形式化的定义,提出了自动文本分类的流程模型,然后选取了支持向量机(Support Vector Machine,SVM)算法作为一个典型例子进行分析,最后作者通过一个中文文本分类实验评价了该算法的效果。  相似文献   

4.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

5.
一种混合文本分类方法研究   总被引:1,自引:0,他引:1  
文本自动分类是信息检索领域的一个重要研究方向。一些标准的机器学习算法像支持向量机已经成功地运用到了这一领域。不幸的是高维的输入向量严重的影响了分类速度,而支持向量机核函数参数的确定影响到分类的精度。为了提高分类精度和分类速度,本文提出了一种混合分类算法,首先用粗糙集理论对向量进行约简,然后采用基因算法对支持向量机的核函数参数进行优化。实验证明我们提出的算法是有效的。  相似文献   

6.
Web文本情感分类研究综述   总被引:5,自引:1,他引:5  
对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律.为此,本文对Web文本情感分类的研究进行综述.将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结.其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法.分析了情感分类中的语料库选择和研究难点.最后总结了情感分类的应用现状,并指出今后的研究方向.  相似文献   

7.
支持向量机在文本自动分类中的应用研究   总被引:3,自引:0,他引:3  
田晓宇  梁静国 《情报学报》2006,25(2):208-214
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

8.
基于字频向量的中文文本自动分类系统   总被引:12,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

9.
对1999-2008年国内支持向量机文本分类研究论文,从来源数据库、发表时间、期刊分布等方面进行文献计量分析,按主题简要介绍该领域理论研究和应用研究两个层次的主要成果,对这些成果从内容和研究方法上进行评述,指出SVM文本分类的不足,对研究中存在的问题进行分析总结,使读者全面对该领域研究情况认识,以期促进该领域进一步的深入发展。  相似文献   

10.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

11.
提出一种具有特征级别的领域特征集合的情感资源挖掘方法,将基于HowNet词典的分类法构建的情感特征与基于机器学习的特征分类方法中的无内容特征以及领域特征相融合,并将该集合放入支持向量机中进行情感分类实验,实验结果表明,使用抽取模式以及多特征融合的分类方法,可增强中文情感分类效果,验证两种分类方法综合研究的正确性与有效性,弥补目前特征级别的中文情感分类研究的不足.  相似文献   

12.
基于机器学习的文本自动分类研究进展   总被引:6,自引:0,他引:6  
张雪英 《情报学报》2006,25(6):730-739
文本自动分类是目前最常用的文本信息自动处理技术,也是机器学习、自然语言处理和信息检索领域的研究热点之一。本文比较全面、深入地论述了基于机器学习的文本自动分类所涉及的相关问题及解决方法,并提出了当前该领域面临的主要研究问题。  相似文献   

13.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

14.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

15.
文本分类中的特征降维方法综述   总被引:42,自引:7,他引:42  
陈涛  谢阳群 《情报学报》2005,24(6):690-695
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。  相似文献   

16.
网络推手识别研究在净化网络环境、监测网络舆论导向等领域有广阔的发展前景。采用文本情感倾向分析方法进行网络推手识别,通过分析信息发布者的情感倾向,统计正面情感信息与负面情感信息的比重,确定该信息发布者是否是网络推手。重点讨论信息抽取及情感分类相关技术的实现,并验证方法的可行性。  相似文献   

17.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号