首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

2.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

3.
网络环境下,文献信息具有数量多、增长快、文献信息中的新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。为了比较受控标引、自由标引和自动标引三种标引方式的标引性能,本文从定量的角度对三种标引方式的相符度、专指度、标引深度及通用词数进行了测试对比,并分析了它们的综合性能。最后,分析讨论了网络环境下文本信息标引方式的选择和发展趋势。表5。图1。参考文献9。  相似文献   

4.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

5.
基于深度标引的专利文本挖掘框架研究   总被引:1,自引:1,他引:0  
专利文献中的文摘、权利要求项、全文等文本信息蕴涵了重要技术细节和技术保护等内容,从这些专利文本内容中挖掘具有技术价值、商业价值的潜在信息是当前专利信息应用领域的研究热点.文章研究将面向分析目标的专利文本深度标引应用到专利文本挖掘中,在数据预处理阶段就将分析目标作为知识抽取的基础,专利分析人员可依据分析需求,在文本挖掘时只提取标引结果的某一部分进行分析和处理,这不仅可提高专利文本挖掘的数据预处理质量,也可提高后期文本分析的效率.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一.  相似文献   

6.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。  相似文献   

7.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

8.
文章在对自动标引技术的原理、方法及划分、国内外研究发展现状和自动标引技术的优势简单介绍的基础上,提出了基于《中国分类主题词表》的文本自动标引系统的设计方案并对文本数据自动标引系统的流程及标引工作自动化处理过程进行了详细阐述.  相似文献   

9.
论数字化期刊论文的关键词标引   总被引:1,自引:1,他引:1  
在数字图书馆建设中,数字化期刊作为信息资源贮存和交流的新型载体形式,其论文标引规范控制是实现网络信息资源共享的需要,也是实现用户信息检索的需要。叙述了标引与信息资源检索的关系以及对论文采用关键词标引的方法、基本原则等,并就提高标引质量的问题发表了自己的看法。  相似文献   

10.
一个具体的全文后控检索系统的设计   总被引:4,自引:0,他引:4  
本文除简述了系统设计的总体思想、系统主要特点以及装库、标引、检索等模块的主要功能外, 重点探讨了适应全文检索系统不同时期标引建库需要的三种标引模式, 首次提出了基于全文检索系统标引和后控制成果自学习实现全文本标引用抽词词典的自动积累和完善并建立自动加权标引模式。另外, 还简要论述了全文摘要的机辅生成和后控检索策略的自动构造等重要问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号