首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
文献题名自动抽词--分类标引系统   总被引:7,自引:2,他引:5  
本文对“文献题名自动抽词-分类标引系统”作了概述,并给出了全部程序。这是一种比较简易实用的自然语言检索法。  相似文献   

2.
基于EMM中文抽词算法的XMARC主题信息挖掘   总被引:4,自引:0,他引:4  
王兰成 《情报学报》2005,24(1):82-86
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。  相似文献   

3.
自动抽词与自动分词   总被引:8,自引:0,他引:8  
自动抽词与自动分词既有紧密联系又有重大差别。自动抽词标引除编制题内关键词索引外,至今没有突破性进展,主要是检准率太低。本文指出自动抽词标引研究注重在各种更有效的算法的寻找,而忽视对相关问题的深入、系统的研究,是其进展缓慢的重要原因之一,并具体列举了一些相关问题。  相似文献   

4.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

5.
本文论述了用链与环的形式处理词与字的关系,以“环”的形式存放受控单字,不但解决了大型主题词表占据较大的机存容量问题,而且解决了用“环”的方法进行汉语标引词的提取,提高了标引词的处理速度,进而实现了主题标引。  相似文献   

6.
基于条件随机场的自动标引模型研究   总被引:3,自引:1,他引:2  
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量.  相似文献   

7.
文章首先介绍了汉语科技词系统的体系结构和功能,其次设计了自动赋词标引研究的整体思路,完成了自动赋词标引的系统功能实现,包括标引知识库的格式转换、算法实现和系统实现,并收集语料进行测试。最后对自动赋词标引的结果进行了分析,并且总结了该自动赋词标引研究的特点和不足,介绍了未来的工作设想。  相似文献   

8.
中文期刊论文自动标引加权设计研究   总被引:7,自引:0,他引:7  
本次调查,通过对随机采集的1000篇涉及到图书情报、农业经济、环境、工业企业管理这四个学科的中文期刊论文进行人工自由标引、人工打分测评和词频统计,并进行统计数据的分析,旨在得出中文期刊论文内容主题与文章题名、文摘、关键词、首段、第二段、倒数第二段、尾段、以及参考文献等8个标引信息源之间的关系,分析测评期刊论文不同部位的主题表达能力,并为之设计自动标引时加权抽词标引的适当权值。以便为中文期刊论文自动标引提供参考数据。  相似文献   

9.
古籍文本抽词研究   总被引:2,自引:0,他引:2  
目前古籍文本检索大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到影响。现将处理现代文本的N元组法移植到古籍文本中进行实义词提取,实验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。实验共从10万字的文本对象《齐民要术》中提取古籍普通语词和专有名词(包括书名、地名、人名官职名)共3369个,表明此实验方案基本是可行的。  相似文献   

10.
11.
谈谈靠类标引和靠词标引的应用问题   总被引:1,自引:0,他引:1  
  相似文献   

12.
中文期刊文献通用词标引分析   总被引:1,自引:0,他引:1  
通用因素是文献主题的构成因素之一,对主体因素起细分作用。通用词是指那些在专业领域没有独立检索意义的泛指词。在中文期刊文献标引的过程中,通用词的使用对其标引结果产生着重要的影响。文章讨论了通用词标引的一般规则,并以《中国期刊网》中的文献为例,进行抽样统计和实例分析,归纳了通用词标引的错误现象及其原因,并对期刊文献的通用词标引提出了几点改进意见。  相似文献   

13.
针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。  相似文献   

14.
试论虚拟图书馆的词汇控制   总被引:3,自引:0,他引:3  
本文从虚拟图书馆的词汇控制分析,虚拟图书馆中后控词表的实现方法以及具有后控词表的虚拟图书馆的逻辑结构分析三个方面,论述了虚拟图书馆的词汇控制问题。  相似文献   

15.
16.
文章论述新增词的选词标准、原则、方法和管理.  相似文献   

17.
文章介绍了利用汉语科技词系统的词表及词间关系对中文专利文献进行主题标引的研究进展,根据专利文献的特点设计了相应的标引策略和流程,并进行实验及结果分析,证明了本标引方案的有效性,最后对标引结果在专利检索中的应用特色进行了介绍。  相似文献   

18.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

19.
汉语关键词法探讨   总被引:1,自引:0,他引:1  
为适应图书馆改革发展形势,敝刊本着“尊重知识、尊重人才”精神,特设“图书馆名人论坛”专栏,刊登在图书馆界具有影响的专家、学者对图书馆改革与业务建设的言论,以求起到导向或争鸣作用。诚望各地专家、学者慷慨赐稿,以新颖的观点、翔实的信息,引人入胜;字数不限,文体无拘,稿费从优。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号