首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于字频向量的中文文本自动分类系统   总被引:12,自引:3,他引:12  
王梦云  曹素青 《情报学报》2000,19(6):644-649
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字一类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

2.
本文概述了现代文献研究的核心内容-机编文献的理论与方法问题。对国内外主要机编文摘的方法技术进行了归纳总结,并对机编文献的未来发展前景作出展望。  相似文献   

3.
杨建林 《情报学报》2001,20(4):460-463
本文提出了几个可以改善中文自动文摘系统的文摘效果的措施 :1 将字频统计方法和词频统计方法有机结合起来 ;2 进一步研究人工文摘中理解性文摘句的形成机理 ,完善仿人算法 ;3 将自动聚类的方法引入自动文摘研究。  相似文献   

4.
一个中文文本自动分类数学模型   总被引:9,自引:1,他引:8  
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。  相似文献   

5.
6.
7.
为了使文摘真正成为文章的重要的信息点,起到节约读者时间的作用,必须使文摘编写规范化,使其成为科技期刊编排格式标准化中名符其实的必要组成部分。  相似文献   

8.
自动文摘综述   总被引:21,自引:1,他引:21  
本文概述了自动文摘的发展历史和研究状况 ,给出当前自动文摘领域主要的研究方法和策略 ,剖析了它们的优点和不足。进一步结合自动文摘自身的特点和难点 ,提出近期自动文摘的研究重点是基于篇章话语形式的浅层分析方法生成指示型文摘。  相似文献   

9.
试论自动摘要技术   总被引:3,自引:0,他引:3  
介绍自动摘要技术的发展情况;着重分析几种主要的自动摘要技术;探讨自动摘要应考虑的因素以及中文文献的自动摘要技术,最后提出与自动摘要相关的技术。  相似文献   

10.
四角号码的由来及其字频输入码研究   总被引:2,自引:0,他引:2  
详细介绍四角号码检字法的由来和发展,比较新旧四角号码检字法的异同,介绍四角号码的应用和浙江图书馆与浙江大学西溪校区图书馆联手对四角号码计算机字频输入码的研究进展情况。  相似文献   

11.
中文文献摘要的自动编制   总被引:9,自引:0,他引:9  
本文简要地介绍了对自动编制中文科技文献文摘系统的改进和对其应用领域的扩充 ,以形成中文文献摘要的自动编制系统 ,并着重介绍了自动编制主题词词典、自动选取摘要句以及自动形成中文文献摘要的基本设计思想。  相似文献   

12.
本文介绍了几种自动标引加权方法,以及把这几种方法应用于汉语文献自动标引试验的情况,给出了试验的有关数据、基于数据的分析和推出的结论,并对汉语科技文献自动标引中的若干问题进行了探讨。  相似文献   

13.
本文评述了研制中文图书自动编目专家系统的现实意义和国外在编目自动化方面所进行的研究和探索;对中文编目的主要数据源一中文图书版权页和题名页的版式结构及语法语义特点进行了初步剖析,论证了开发自动编目系统的可行性,针对不同类型图书馆的实际需要,提出了几种系统模式,并从理论上对系统的实现机理进行了探讨。  相似文献   

14.
本文在对比《汉语主题词表》(自然科学)增订本与第一版的基础上,对《增订本》在各个方面的新进展及其优越性进行了评论,同时论述了《汉语主题词表》对中文自动标引研究工作的积极意义,并从中文自动标引的角度探讨了《汉语主题词表》的发展前景。  相似文献   

15.
本文主要介绍利用微机通用管理系统ISIS的PASCAL语言开发的并集成于该系统的“汉语科技文献自动标引系统CADAIS”的系统构成,功能,自动标引原理,词典结构与建立方法,标引算法和实验情况等。  相似文献   

16.
本文介绍了用.数据库管理系统FOXBASE编写的自动标引系统,其中主要介绍的基本思想、实现过程及其特点。文中着重介绍了词标引、主题标引、赋词标引和抽调标引的方法,和在Compaq386机上建立的试验系统。  相似文献   

17.
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的图书内容主题索引的自动编制方法是可行的。  相似文献   

18.
关于我国核心期刊统一化的思考   总被引:10,自引:1,他引:10  
从人们对核心期刊的认识和实际应用的角度,提出了我国核心期刊规范化和统一化的问题,并从核心期刊概念、应用和管理,有效时域和研究方法四个方面进行了简要的论述。  相似文献   

19.
中医药本体构建研究   总被引:5,自引:0,他引:5  
利用自然语言处理(NLP)理论和技术方法对中医药领域中已有的公认领域知识进行了重构与利用,在成功实现了中医药学知识描述体系的自动构建与获取的基础上,利用领域专家知识,实现了受限文本的Ontology自学习机制,并对领域本体的进化进行了有益的探索,有效地解决了Ontology研究的瓶颈问题,从而为中医药知识的挖掘与利用奠定了数据基础。从目前看来,这是一种较为理想、实用的方法,为专业领域Ontology的自动构建提供了理论依据及技术支持。  相似文献   

20.
中文文献数据库国际研讨会综述   总被引:2,自引:0,他引:2  
本文综述了中文文献数据库国际研讨会的主要内容, 包括中文文献数据库建设的意义, 国内外现状, 网络化和共建共享, 标准化和规范档, 先进软件和技术的应用和影响, 开发和推广, 对策和建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号