首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

2.
数据清洗研究综述   总被引:9,自引:0,他引:9  
对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模型,分析相关算法与工具,给出数据清洗评估方法;并对今后数据清洗的研究和应用进行展望。  相似文献   

3.
基于本体的语义相似度计算方法研究综述*   总被引:5,自引:0,他引:5  
在对基于本体的词语语义相似度进行界定的基础上,对基于本体的语义相似度研究进行综述,分别阐述基于距离的语义相似度计算、基于内容的语义相似度计算、基于属性的语义相似度计算和混合式语义相似度计算等算法模型,最后从宏观层面指出今后本领域的研究方向。  相似文献   

4.
词汇相似度研究进展综述   总被引:1,自引:0,他引:1  
从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为新的词汇语义信息的重要来源。详细阐述维基游走法、内涵概念图法和时间语义分析法这三种最新的基于维基百科的词汇相似度算法,指出词汇相似度研究今后将有机融合维基百科和其他背景信息,使各种词汇语义信息来源优势互补。此外运用复杂网络的分析方法来挖掘词汇网络中词汇的相关性将是词汇相似度研究的又一发展方向。  相似文献   

5.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

6.
[目的/意义]随着文化遗产数字化和人文计算研究范式的兴起,人文领域学者在参与数字人文研究过程中对于文化遗产数据资源的利用需求日益突显.多源、异构文化遗产信息资源的语义融合与互操作成为当前数字人文数据基础设施建设中的关键问题,而行之有效的实体语义相似度计算方法则成为实现这一目标的重要手段.[方法/过程]以敦煌壁画叙词表关...  相似文献   

7.
基于句子相似度的文档复制检测算法研究   总被引:3,自引:0,他引:3  
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。  相似文献   

8.
通过对馆藏资源本体相关定义和特点进行分析,在传统语义相似度计算方法的基础之上,提出了一种综合的基于馆藏资源本体模型的语义相似度算法。并构建了竞争情报资源本体,对该算法进行了实例分析。该算法为馆藏资源本体的语义相似度计算提供了一种有效的量化途径。  相似文献   

9.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

10.
总结数字图书馆领域中与ETL相关的研究,在此基础上提出数字图书馆中ETL的分类,最后结合数字图书馆的应用需求和发展趋势,从ETL在数字图书馆资源建设、数字图书馆用户服务、实现数字图书馆与其他系统之间互操作3个方面,详细分析和研究数字图书馆中ETL的应用方式。  相似文献   

11.
采访查重的新理念与新方法——主题查重   总被引:1,自引:0,他引:1  
分析传统采访查重存在的同主题文献重复订购的问题,提出“主题查重”的新理念,论证“主题查重”理念形成的影响因素,指出“主题查重”的具体实施办法及其应注意的几个问题,建议设计者在设计与升级图书馆自动化集成系统时,增加采访模块的主题查重功能。  相似文献   

12.
对目前微博信息挖掘技术中的微博内容挖掘及用户关系挖掘的研究情况及相关方法进行介绍及归纳,认为其中微博内容挖掘主要包括微博短文本挖掘、话题趋势检测、情感倾向性分析等方面,用户关系挖掘主要包括用户群体特性、用户社区发现、意见领袖挖掘及微博传播模式等方面;指出这些方法的局限性,并对微博信息挖掘的发展进行展望,以为进一步研究提供参考。  相似文献   

13.
对目前微博信息挖掘技术中的微博内容挖掘及用户关系挖掘的研究情况及相关方法进行介绍及归纳,认为其中微博内容挖掘主要包括微博短文本挖掘、话题趋势检测、情感倾向性分析等方面,用户关系挖掘主要包括用户群体特性、用户社区发现、意见领袖挖掘及微博传播模式等方面;指出这些方法的局限性,并对微博信息挖掘的发展进行展望,以为进一步研究提供参考。  相似文献   

14.
从现有的一些情报研究工作成果入手,总结归纳情报研究人员使用的现有数据遴选方法,主要包括基于关键词或主题词的方法、机构法、期刊影响因子法和专家法等。在此基础上,对数据遴选方法进行分析,找出存在的问题,期望对情报研究人员的信息分析工作提供帮助。  相似文献   

15.
INNOPAC系统采访系统自动查重和采访数据成批转入研究   总被引:5,自引:0,他引:5  
对于INNOPAC图书管理系统的采访模块,采访数据只能逐条的查重并输入到系统中。本文讨论了根据INNOPAC提供的采访功能.实现采访数据的成批查重和数据转入。  相似文献   

16.
张宁 《图书馆杂志》2005,24(11):47-48
许多图书馆集成系统ILAS的用户反映,在ILAS中不能实现采购数据批查重。笔者在分析了采访人员的需求后,仔细研究了ILAS的功能模块,给出方便可行的解决办法,并通过测试予以验证。  相似文献   

17.
通用图书查重系统研制开发设计原理及其实现方法   总被引:1,自引:0,他引:1  
吕刚 《图书馆论坛》2005,25(1):74-76
针对目前人工图书查重繁琐、费时的具体问题,提出了通用图书查重系统研制开发的设计原理及关键技术的实现方法,从而使图书查重更方便、更省时省力,同时还解决了现场采购图书的查重问题。  相似文献   

18.
《文物保护研究》2013,58(3):91-106
Abstract

Saint Michael’s at Hildesheim, a Benedictine cloister church built in the eleventh century, was provided, towards the end of the twelfth century, with a painted ceiling consisting of oak boards. It represents the so-called ‘root of Jesse’, the genealogical tree of Jesus Christ. The ceiling, preserved in its original state except for a small part which was destroyed during the seventeenth century, was painted in lime-casein tempera. It was taken down in 1943 to protect it from destruction through air raids. It was restored in the years from 1955 to 1960. Later repaints were taken off and the original state regained. The pigments examined were identified as those known from the High Middle ,Ages, i.e. Lapis Lazuli, Orpiment, Natural Vermilion, Charcoal, Green Earth, Ochre, Verdigris as well as Lime White, which has been described by Cennini as ‘Bianco di San Giovanni’. Lead White has not been identified in any of the specimens analysed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号