首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 46 毫秒
1.
基于机器学习的文本自动分类研究进展   总被引:6,自引:0,他引:6  
张雪英 《情报学报》2006,25(6):730-739
文本自动分类是目前最常用的文本信息自动处理技术,也是机器学习、自然语言处理和信息检索领域的研究热点之一。本文比较全面、深入地论述了基于机器学习的文本自动分类所涉及的相关问题及解决方法,并提出了当前该领域面临的主要研究问题。  相似文献   

2.
王涛 《图书馆学研究》2007,(12):40-43,46
本文简要介绍了国内外文本自动分类的发展概况,论述了自动分类的定义,自动归类和自动聚类的几种常见方法,并对应用实例进行了分析。  相似文献   

3.
Web自动文本分类技术研究综述   总被引:1,自引:0,他引:1  
Web自动文本分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.本文首先分析了国内外Web自动文本分类方法的研究现状,接着对新近出现的多分类器融合的方法、基于群的分类方法、基于RBF网络的文本分类模型、基于模糊-粗糙集的文本分类模型、潜在语义分类模型等新方法,以及K-近邻算法和支持向量机的新发展等进行了深入探讨;并对Web自动文本分类过程中的几个关键技术:文本预处理、文本表示、特征降维、训练方法和分类算法等进行了分析;最后总结了当前Web自动文本分类技术存在的问题及其发展趋势.  相似文献   

4.
提出了将支持向量机应用于文本自动分类的研究,与常用的K-最邻近法相比,无论是对训练数据集还是测试数据集均具有一定的优势,而且不同特征选择方法对支持向量机的影响要比K-最邻近法小。此外,从研究中的不同特征选择的评价函数来看,它们对分类有一定的影响,应用X2统计进行特征选择的分类正确率最高,其次是文本证据权,而期望交叉熵的效果最差,说明特征选择在文本自动分类中也是相当重要的。  相似文献   

5.
自动分类研究进展   总被引:10,自引:0,他引:10  
在对自动分类研究状况进行概述和分析的基础上, 指出了自动分类研究的主要发展方向。  相似文献   

6.
一种基于类别信息的文本自动分类模型   总被引:2,自引:0,他引:2  
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。  相似文献   

7.
基于字频向量的中文文本自动分类系统   总被引:12,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

8.
一个中文文本自动分类数学模型   总被引:9,自引:1,他引:8  
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

9.
本文探讨了基于自动标引的《中国分类主题词表》(简称《中分表》)改造的模式、结构以及关键技术。在原《中分表》分类体系的框架之上,收集标引经验库中分类标引和主题标引的双重标引数据及其他相关数据,应用支持度、置信度和相关度等筛选处理方法,最终得出分类号与关键词(串)的最佳对应关系组合。本文从收词量、相符度、专指度、标引深度、主题标引能力和分类标引能力6个方面详细地对改造后的《中分表》进行了测试,结果表明改造后的《中分表》在编制方式、类目设置、收词量、全面性和专指性等方面都具有一定优势。建议在《中分表》的更新改造中,尽量采用立体化的整体结构,保证完备的收词量,进行必要的分级化控制并扩大用户交互。  相似文献   

10.
基于概率神经网络的文本自动分类研究   总被引:10,自引:2,他引:10  
施洁斌 《情报学报》2004,23(2):147-151
本文提出了将一种径向基网络的重要变形———概率神经网络应用于文本自动分类的研究 ,与常用的K 最邻近法相比 ,具有一定的优势 ,特别是在训练集中各类的训练样本数很不平衡时 ;与BP等其他神经网络相比 ,其特点是需调节的参数少 ,不需确定隐层数、隐层中的神经元数量等网络结构 ,比较容易使用。此外 ,从研究中的不同特征选择的评价函数来看 ,它们对分类有一定的影响 ,应用X2 统计进行特征选择的分类正确率最高 ,其次是文本证据权 ,而期望交叉熵的效果最差 ,说明特征选择在文本自动分类中也是非常重要的。  相似文献   

11.
所谓图像自动分类是指利用图像自动分类器把待分类的图像分配到预定义的图像类的过程。用于图像自动分类的方法有多种。其中K近邻算法是一种基于实例学习的方法,是一种较理想的自动分类器。本文在它的基础上提出了图像自动分类模型,整个图像自动分类过程包括图像预处理、特征表示、机器学习和图像分类4个步骤。表1。图1。参考文献13。  相似文献   

12.
借助特征聚类进行特征抽取是信息检索领域进行文本特征降维的重要手段之一.本文通过χ2统计和特征聚类相结合的模式,在尽量减少信息缺失的前提下两次对特征项维数进行压缩,通过分析特征的类别分布信息,实现了基于统计的特征降维;进而在基于类别概率分布的模式下实现了文本的矩阵表示,借助矩阵范数进行文本分类.实验结果表明,该方法的分类效率较高.  相似文献   

13.
将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一,而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点,针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价;结合国外相关研究的最新成果,提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。  相似文献   

14.
基于《金融档案分类表》的自动分类算法研究   总被引:7,自引:1,他引:7  
本文介绍基于《中国档案分类法金融档案分类表》(以下简称《金融档案分类表》)的中文文本自动分类算法。提出了类别词概念,介绍了类别词库和分类规则词库建造法以及自动分类的三维加权算法等内容。经过对真实金融档案文本测试,自动分类正确率可达81%以上。  相似文献   

15.
基于统计频率的文本分类特征选择算法研究*   总被引:1,自引:0,他引:1  
通过分析χ2统计量(Chi-square, CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性的缺点,对其进行改进,提出统计频率(Statistical Frequency, SF )算法。实验结果表明,统计频率算法能够弥补这些不足,在文本分类中表现出良好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号