首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
文章以国家图书文献中心(NSTL)的多语种科技语料为研究对象,以一部科技类的英汉双语科技词典为资源工具,提出一种英汉跨语言文本分类系统的构建方法,实验结果验证了采用本方法进行跨语言分类的可行性,也为下一阶段建立跨语言分类实用系统奠定了基础。  相似文献   

2.
自动文本分类技术研究   总被引:1,自引:0,他引:1  
奉国和 《情报杂志》2007,26(12):108-111
文本分类是数据挖掘的重要内容之一,在很多领域经常需要对文本信息进行处理、抽取、分类。通过分析了文本分类过程中涉及的文本表示、特征抽取、分类等方法,指出文本分类的基本特点。  相似文献   

3.
郑凤萍 《现代情报》2007,27(3):143-144
文本提出了一种基于模糊向量空间模型和径向基函数网络的分类方法。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

4.
在迅速发展的网络技术的影响下。图书馆学进一步偏重信息技术。文章通过对文本自动分类技术的分析,指出自动分类技术不但不能替代图书馆分类对纸质图书进行分类,而且自动分类技术的发展需要图书学家提供支持。  相似文献   

5.
基于模糊向量空间的文本分类方法   总被引:1,自引:0,他引:1  
郑凤萍  刘春雨 《情报科学》2007,25(4):588-591
本文针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

6.
覆盖算法在文本分类中的应用   总被引:4,自引:0,他引:4  
本文利用前向神经网络的交叉覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。应用该算法对语料库中的文本进行实验,从实验结果来看,该算法在运行时间和精度上都取得了令人满意的结果。  相似文献   

7.
基于VSM的文本分类挖掘算法综述   总被引:2,自引:0,他引:2  
简要介绍了VSM和文本分类挖掘的流程,分析了基于统计方法和基于机器学习的6种常用构造文本分类挖掘分类器的算法,指出了利用各种算法构造的分类器的特点,同时给出了这些算法的优化方向,为使用者选择、学习、改进算法提供依据。  相似文献   

8.
WEB文本分类技术在企业竞争情报分析中的应用   总被引:6,自引:1,他引:6  
薛燕波 《情报科学》2004,22(3):378-380,384
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成,效率低下;针对这一问题,本文提出了把Web文本分类技术应用到企业竞争情报搜集和分析中去,以提高竞争情报工作的效率。  相似文献   

9.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

10.
文本自动分类技术研究综述   总被引:2,自引:0,他引:2  
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。  相似文献   

11.
文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。  相似文献   

12.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

13.
本文依据反馈学习的思想和支持向量机分类算法,在分析中文文本分类过程的基础上,给出了基于反馈学习的中文文本分类模型,通过实验研究了反馈学习对中文文本分类模型性能的影响.结果表明,反馈学习对分类性能的提高有明显作用,它是对实时变化信息的有效解决方法.  相似文献   

14.
基于改进的SVM文本分类建模   总被引:1,自引:0,他引:1  
SVM是一种新的分类工具,可是其核函数在数学上必须满足Mercer条件,使得具有良好全局分类性能的Sigmoid函数在SVM中应用受到限制。本文将Sigmoid核函数与云模型相结合,提出一种简单的核函数的实现方法。此方法不仅提高了SVM文本分类能力,而且明显地减少了平均的CPU执行时间。  相似文献   

15.
基于改进KNN的文本分类方法   总被引:9,自引:0,他引:9  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

16.
Web文本特征提取方法的研究与发展   总被引:4,自引:0,他引:4  
庞景安 《情报理论与实践》2006,29(3):338-340,367
本文对当前有关Web文本特征提取方法的研究和试验进行了简要的综述和分析,比较了每类方法的优势和不足,指出研究中存在的难点和共同探讨的问题,并在此基础上,对该领域未来研究的发展方向和趋势进行了预测。  相似文献   

17.
自动文本分类的可视化方法探讨   总被引:1,自引:0,他引:1  
陈旭毅 《情报科学》2007,25(10):1530-1533
自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后提出了自动文本分类的流程模型。接着,对流程中的四个部分进行具体讨论。自动文本分类的应用非常广泛,为了叙述方便,以商务数据为例进行讨论,并且选择实例作为典型案例对自动文本分类后的可视化进行分析和具体研究。  相似文献   

18.
自然语言理解心理学在短文本分类中的实证研究   总被引:2,自引:0,他引:2  
目前对文本分类研究多数集中在对大规模语料基础上的特征选择或分类器算法的研究。本文是建立在训练样本少且样本长度短的基础上,根据人脑对自然语言理解的心理学原理"人们总是根据已知的最熟悉的、最典型的例子进行判断,只有在该方法不奏效的时候才使用频率这一概念,并且使用的是十分简单的频率"从该角度进行短文本分类的实证研究。以心理学中的"熟悉原理"、"典型原理"等为模型建立特殊词库和典型案例词库,改进了传统文本分类的实验步骤,同时提出了该方法的优势和局限性。  相似文献   

19.
基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。  相似文献   

20.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号