首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 65 毫秒
1.
何琳  侯汉清 《中国索引》2006,4(1):39-43
由于《中国图书馆分类法》的类目数目庞大和文献在各类目上分布的不均衡,导致基于机器统计学习的自动分类技术在此类多层分类上的力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过两种分类技术相结合的方法对信息资源进行分类,提出了用相关度度量来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。  相似文献   

2.
从目前数字图书馆的实际困难出发,提出一个依托《军事信息资源分类法》,挖掘人工标引经验,用之于自动分类的方案。  相似文献   

3.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

4.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

5.
以国家图书馆和上海图书馆的分编数据为依据,就当前人物传记分类中存在的主要问题进行了探讨,并指出正确的分类标引方法.  相似文献   

6.
<中国档案分类法>(第二版)(中国档案出版社,1997.12)(以下简称"中档法")出版发行两年来,对推动档案分类标引、组织档案分类目录起了很好的作用.这部大型工具书的出版是我国档案领域的一项较大的研究成果,可庆可贺.当然,任何事物都不是完满无缺的.我们在应用这部分类法进行档案分类标引工作中,确实遇到某些具体问题,给标引工作带来了误差.本文所指的某些问题,有的是我们对"中档法"的理解不够,有的则显然是这部分类法自身的某些不完善,我们认为的不完善之处将在这里列举一二,希望能与专家及使用者共同研讨.  相似文献   

7.
贺七一 《中国索引》2004,2(4):49-52
黄页分类工作是电话号码簿编辑的主要工作之一。黄页公司一直致力于探索运用计算机技术对黄页数据分类进行自动标引。1998年开始进行人机对话的计算机自动切分工作,现切分结果的正确率达到了60%以上,标引速度达到了每小时1200条。  相似文献   

8.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

9.
基于语料和基于标引经验的自动分类模式比较   总被引:1,自引:0,他引:1  
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。  相似文献   

10.
分类主题一体化自动标引研究   总被引:1,自引:0,他引:1  
姜新年 《图书馆工作》2000,(3):16-17,15
本文在回顾文献分类主题一体化历史的基础上,着重探讨了分类主题一体化自动标引的原理和方法。  相似文献   

11.
基于机器学习的中文书目自动分类研究   总被引:2,自引:1,他引:1  
面对与日俱增的图书出版量,图书馆编目人员的手工书目分类显得力不从心,如何实现由计算机自动完成图书分类成为数字图书馆建设中亟待解决的关键问题之一。本文尝试将BP神经网络和支持向量机等机器学习算法引入到书目分类中,建立了面向中图法的基于机器学习的书目层次分类系统模型,提出了采用特征加权方式描述书目和浅层次分类体系构建的设计思路,并通过大规模实验验证了该模型的可行性和合理性,基本上解决了没有主题标注情况下书目的自动分类问题。图9。表5。参考文献14。  相似文献   

12.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

13.
题名自动分类标引探讨   总被引:2,自引:0,他引:2  
本文重点论述计算机分类标引的一种方法:字面相似度语义逻辑分析法。根据字面相似度值的三种不同情况,通过语义逻辑关系分析,确定A级、B级阈值。A级为归类中心词。从而达到最终归类的目的,使归类结果更具科学性。  相似文献   

14.
汉语自动标引方法述评   总被引:3,自引:0,他引:3  
李培 《津图学刊》2000,(1):10-19
本文对一些典型的汉语自动标引方法进行了研究 ,概述了其处理过程 ,分析了其基本原理 ,并评价了其性能  相似文献   

15.
针对《中图法》(第四版)电子版中存在的类号比对和类号核对不方便的问题,研制了《中图法》(第四版)辅助分类系统。辅助分类系统具有类目树显示、内容检索、类号参照、类号组配、类号核对等功能,有助于提高分类标引工作的效率,提高文献编目的自动化水平。  相似文献   

16.
用于中文信息自动分类的《中图法》知识库的构建   总被引:4,自引:0,他引:4  
中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干,组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。构建《中图法》知识库面临着一些难题:异构数据的整合;原始数据中分类号与主题词或词串之间一对多、多对多关系的筛选;标引词串与知识库中的词串的相符性比较等。图2。参考文献8。  相似文献   

17.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

18.
双语教材具有专业和语言两个特征,《中国图书馆分类法》(以下简称《中图法》)的主表揭示其专业特征,而复分法和组配法都可以作为揭示其语言特征的辅助手段。通过比较复分法和组配法得出,双语教材更适合利用复分表揭示其语言特征,具体做法为:在《中图法》(第5版)的"总论复分表"中增加新类目"-9语种",并且依据H大类下的各语种类目扩展下位类。  相似文献   

19.
谈《中图法》(第四版)词典的分类标引   总被引:1,自引:0,他引:1  
列举《中图法》(第四版)词典类目的设置情况,对各类词典的分类标引作出详细举例说明,并对由于理解的差异而导致有关词典归类的分歧问题进行分析探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号