首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
付媛  朱礼军  韩红旗 《情报工程》2016,2(1):053-058
为应对日益严重的姓名歧义现象给提高搜索引擎查全率和查准率带来的挑战,同时给姓名消歧方法研究提供参考建议,对研究现状和主要成果进行总结.首先,介绍研究姓名消歧的目的和意义.其次,对国内外现有姓名消歧方法研究进展进行梳理,主要方法包括基于特征的、基于机器学习的、基于社会网络的、基于网络知识资源的姓名消歧等多种方法来解决姓名歧义问题.最后,文章分析各种方法的特征和不足,总结姓名消歧待解决的问题以及未来的研究方向.  相似文献   

2.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。  相似文献   

3.
人才流动、学者评价等以学者个人为对象的研究任务,通常需要针对学术论著数据集中的著者进行姓名消歧。本文针对此类特定研究任务,提出了准确且便于学者操作的姓名消歧方法。为简便计算,弥补本地数据缺失的问题,本文构建了基于异源数据的二阶段姓名消歧框架。一阶段充分挖掘本地关联信息,二阶段结合权威的外源数据。基于表征进行本地关系发现、半模糊检索等步骤,以达到全面客观的姓名消歧,最终通过人工智能领域的论文数据和Aminer姓名消歧数据集,实现并验证该方法的优越性和普适性。经过与人工标注数据对比,该框架表现出良好的消歧效果,较好地解决了原始数据中的同名异人和同人异名问题,从而为后续研究任务奠定了扎实的基础。  相似文献   

4.
基于网络协作标注的标签消歧方法述评   总被引:1,自引:0,他引:1  
以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。  相似文献   

5.
沈喆  王毅  鞠秀芳  成颖 《情报学报》2022,41(4):350-363
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。  相似文献   

6.
吴丹 《图书情报工作》2009,53(13):120-81
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点。在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,分别是:对查询进行结构化处理、通过语言分析帮助消歧、借助机读化语言资源进行消歧以及通过人机交互消歧,以期为跨语言信息检索查询翻译提供较好的消歧方法。  相似文献   

7.
基于查询扩展和词义消歧的语义检索   总被引:1,自引:1,他引:0  
随着网络化信息的急剧增长以及自然语言固有的歧义性问题,当前基于关键字匹配的搜索引擎已不能满足信息搜索的需求,出现了"信息泛滥而知识缺乏"的现象.本文提出基于语义的智能搜索技术,利用WordNet和WordNet Domains知识库从结构相关性和领域相关性两个方面综合判定词义间的相关性.根据用户提交的查询关键词的整体相关性最大化原则来确定查询词义,进而进行查询扩展;同时对检索到的文档内容也进行语义消歧来去除无关文档,兼顾了查准率和查全率两个方面.模拟实验结果表明,本文方法的搜索性能较传统的关键字匹配法和一般的查询扩展方法有明显优势,检索精度分别提高了18%和28%.  相似文献   

8.
借鉴现代汉语词义消歧的研究成果,提出一种改进的向量空间模型词义消歧方法,即在古汉语义项词语知识库的支持下,将待消歧多义词上下文与多义词的义项映射到向量空间模型中,完成语义消歧任务。以中国农业古籍全文数据库为统计语料,对10个典型古汉语多义词,共29个义项、1 836条待消歧上下文进行义项标注的实验,消歧平均正确率达到79.5%。  相似文献   

9.
利用优化的DBSCAN算法进行文献著者人名消歧   总被引:1,自引:0,他引:1  
通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。  相似文献   

10.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

11.
There are a number of solutions that perform unsupervised name disambiguation based on the similarity of bibliographic records or common coauthorship patterns. Whether the use of these advanced methods, which are often difficult to implement, is warranted depends on whether the accuracy of the most basic disambiguation methods, which only use the author's last name and initials, is sufficient for a particular purpose. We derive realistic estimates for the accuracy of simple, initials-based methods using simulated bibliographic datasets in which the true identities of authors are known. Based on the simulations in five diverse disciplines we find that the first initial method already correctly identifies 97% of authors. An alternative simple method, which takes all initials into account, is typically two times less accurate, except in certain datasets that can be identified by applying a simple criterion. Finally, we introduce a new name-based method that combines the features of first initial and all initials methods by implicitly taking into account the last name frequency and the size of the dataset. This hybrid method reduces the fraction of incorrectly identified authors by 10–30% over the first initial method.  相似文献   

12.
关于《中图法》第四版类名规范化研究   总被引:2,自引:0,他引:2  
分类法中类名所用语词的规范化直接关系到文献分类人员对类目的准确理解以及如何正确使用分类表的问题。类名的规范化是指类名所用语词的科学性、准确性、简洁性和一致性。在《中图法》第四版中类名不规范是比较突出的问题。参考文献12。  相似文献   

13.
Scopus and Web of Science are the two major citation databases that collect and disseminate bibliometric statistics about research articles, journals, institutions, and individual authors. Liaison librarians are now regularly called upon to utilize these databases to assist faculty in finding citation activity on their published works for tenure and promotion, grant applications, and more. But questions about the accuracy, scope, and coverage of these tools deserve closer scrutiny. Discrepancies in citation capture led to a systematic study on how Scopus and Web of Science compared in a real-life situation encountered by liaisons: comparing three different disciplines at a medical school and nursing program. How many articles would each database retrieve for each faculty member using the author-searching tools provided? How many cited references for each faculty member would each tool generate? Results demonstrated troubling differences in publication and citation activity capture between Scopus and Web of Science. Implications for librarians are discussed.  相似文献   

14.
1999~2003年三种地理学核心期刊作者群对比分析   总被引:1,自引:0,他引:1  
以《地理学报》、《地理研究》、《地理科学》1999~2003年的载文为数据源,从作者的年龄、性别、职称、学历、地域分布、所属系统等方面对三刊的作者群进行对比分析,找出三刊各自的核心作者群及三刊共有的核心作者群,以期透析地理学研究队伍的状况.  相似文献   

15.
16.
涉及“可持续发展”主题的文献多而繁杂,如何正确分类值得关注。本文从对“可持续发展”主题的基本认识出发,基于《中图法》(第四版)的分类体系,对该主题文献的分类实例作了辨析,归纳为4条分类思路。  相似文献   

17.
本文通过对知识经济的认识,探讨用《中图法》对知识经济理论、中国在知识经济时代发展战略、知识产业化、技术市场、知识工程与专家系统、知识产权以及知识学等涉及知识经济范畴的文献进行归类的方法。  相似文献   

18.
采用数据挖掘技术中的关联分析和聚类方法,重点研究Web日志兴趣发现的理论和方法,指出普通日志记录方法的局限性,提出过滤用户偏好的定制Web日志方法,实验结果验证通过该方法采集的数据,可以发现隐藏在日志数据中的关联规则,同时找到相似用户的兴趣和偏好,并且能够提高过滤用户兴趣偏好的精度。  相似文献   

19.
基于重视命名的科学性,准确反映事物内涵的原则,认为《中图法》(第四版)将全称由原来的《中国图书馆图书分类法》改为《中国图书馆分类法》,删去作为类分对象—"图书"这一关键词欠妥,同时探讨S农业科学、T工业技术等一级类目以及T工业技术大类中几个二级类目命名上存在的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号