首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 31 毫秒
1.
高晓琴 《科技通报》2012,28(4):70-71
主要研究了文本分类精度问题。介绍了文本分类的基本过程,提出了一种改进的支持向量机文本分类技术,设计并实现了一个开放的中文文档自动分类系统。实验结果表明,提出的方法不仅具有较高的训练效率,同时也能得到很高的分类准确率和查全率。  相似文献   

2.
张冰波 《大众科技》2010,(10):43-45
为了能在海量的文本中及时准确地获得有效的知识和信息,文章表示技术以及文本自动分类技术受到了广泛的关注。文章介绍了文本分类的过程和相关的技术,利用向量空间模型构建文本表示模型,介绍了常用的文本分类算法,由于传统类中心分类算法训练文档分散,不能准确的表示各类别的中心向量,提出了优化算法,从而提高了分类准确度。  相似文献   

3.
基于改进KNN的文本分类方法   总被引:9,自引:0,他引:9  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

4.
基于改进的SVM文本分类建模   总被引:1,自引:0,他引:1  
SVM是一种新的分类工具,可是其核函数在数学上必须满足Mercer条件,使得具有良好全局分类性能的Sigmoid函数在SVM中应用受到限制。本文将Sigmoid核函数与云模型相结合,提出一种简单的核函数的实现方法。此方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。  相似文献   

5.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

6.
基于VSM的文本分类挖掘算法综述   总被引:2,自引:0,他引:2  
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。  相似文献   

7.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

8.
介绍了数据挖掘和Web挖掘的基本概念,在此基础上,对基于Web的文本信息挖掘技术进行了分析研究,给出了一个基于Web的文本挖掘的结构模型。  相似文献   

9.
基于Web文本挖掘技术的企业竞争情报系统研究   总被引:9,自引:2,他引:9  
分析了企业竞争情报系统的现状,介绍了Web挖掘基本概念并分析了Web文本挖掘的关键技术,然后结合Web文本挖掘技术设计企业竞争情报系统结构模型与方案。  相似文献   

10.
一种基于向量空间模型的改进文本分类算法   总被引:2,自引:0,他引:2  
牛玲 《情报杂志》2006,25(6):63-64,67
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。  相似文献   

11.
白振田  侯汉清 《情报科学》2005,23(6):940-944
当前,在信息资源管理领域,有关信息自动化处理方面的研究较多涌现,相关的实用系统也在开发实验。自动分类便是其中之一。本文结合基于VSM理论的实用行业自动分类系统的开发实现,对构建分类概念空间的思路、步骤及主要技术,包括权值确定、算法构思、正确性及效率评价等相关问题进行讨论。  相似文献   

12.
基于分类的VSM模式下文本检索研究   总被引:3,自引:0,他引:3  
刘海峰  王元元  王倩 《情报科学》2006,24(11):1700-1703
本文针对向量空间模型下文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法;对TF—IDF因子提出了位置参数加权模式;对信息需求表达模糊、数据稀疏等问题总结了解决的方法。  相似文献   

13.
网络信息的急剧膨胀使得通用搜索引擎暴露出诸多问题.如何让用户方便、快捷地找到自己需要的"深层次"信息,成为一个亟待解决的问题.针对上迷问题,在分析垂直搜索的特点及关键技术的基础上,提出了一种改进的基于VSM的垂直搜索检索模型及其性能评测方法,并给出了基于Agent垂直搜索引擎的系统架构及系统各部分的功能描述.  相似文献   

14.
特征降维是基于向量空间模型(VSM)文本分类的关键技术之一,特征抽取是特征降维的主要方法。本文主要分析了几种常用的特征抽取方法,并给出了它们的实现步骤。  相似文献   

15.
基于向量模型的文本检索若干问题研究   总被引:12,自引:1,他引:12  
刘海峰  王元元 《情报杂志》2006,25(10):57-59,62
针对向量空间模型存在的几个问题进行了研究和探讨。在文本切分上提出了一种基于方差的切词方法;在对TF-IDF因子改进方面提出了位置参数加权方式;对向量维数压缩、词语同现等问题方面总结了解决的方法。  相似文献   

16.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

17.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

18.
针时目前基础研究项目分类的不足,提出一种基于项目内容特征的项目分类新方法.首先构建基于VSM的项目内容特征表示模型,确定类模型的表示方式.然后计算项目与类的相似度,提出相对相似度的概念.并定义交叉项目与交叉的判别方法,再根据相对相似度对基础研究项目进行分类.最后给出一个实例验证,对实例的分类结果进行详细的分析.并与原分类结果进行系统的比较.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号