首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

2.
基于句子相似度的文档复制检测算法研究   总被引:3,自引:0,他引:3  
提出一种基于句子相似度的文档复制检测技术,在抓住文档的全局特征的同时又兼顾文档的结构信息,克服以往检测算法两者不可兼顾的缺陷,提高检测精度。最后,给出该算法与其他算法检测结果的比较情况。实验证明,该算法是可行的。  相似文献   

3.
刘妍 《信息系统工程》2014,(4):129-130,142
本文详细探讨了余弦距离的含义及计算公式,演示了通过余弦距离手工检测文档相似度的方法,并基于Lucene 4.7框架编写了验证程序,上述探讨及编程对有关的工程实践有着积极的借鉴意义.  相似文献   

4.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

5.
[目的/意义]针对疾病知识的不同表达方式,提出一种融合疾病多维度的综合语义相似度计算方案。[方法/过程]在整合疾病本体和医学百科各自特征的基础上,设计由基于疾病本体的语义相似度和基于医学百科的疾病语义相似度构成的综合语义相似度模型。其中,运用图论计算基于疾病本体的语义相似度,运用LDA、集合和向量空间模型计算基于医学百科的疾病语义相似度。[结果/结论]将本文的方法同临床医生的人工判别进行比较,结果表明本文的方法能够有效地反映疾病的语义相似度。本文的方法可为疾病相似性进一步研究提供参考。  相似文献   

6.
词汇相似度研究进展综述   总被引:1,自引:0,他引:1  
从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为新的词汇语义信息的重要来源。详细阐述维基游走法、内涵概念图法和时间语义分析法这三种最新的基于维基百科的词汇相似度算法,指出词汇相似度研究今后将有机融合维基百科和其他背景信息,使各种词汇语义信息来源优势互补。此外运用复杂网络的分析方法来挖掘词汇网络中词汇的相关性将是词汇相似度研究的又一发展方向。  相似文献   

7.
 借鉴Rodriguez和Egenhofer提出的语义相似度计算模型,结合医学领域主题词表MeSH的特点,提出MeSH主题词表中的语义相似度计算方法,实验结果证明该方法是有效的。  相似文献   

8.
基于领域本体的文献模糊相似度算法研究   总被引:1,自引:0,他引:1  
利用分类主题一体化的主题词表构建领域本体,并通过概念间的关系定义及语义相似度公式,引入调整因子,确定概念相似度算法,再通过余弦系数法进一步得到文献间的相似度。对于本算法的结果,与领域专家预测的相似度进行比较,结果证实该算法有效。  相似文献   

9.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

10.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

11.
基于Map/Reduce的分布式搜索引擎研究   总被引:1,自引:0,他引:1  
在对Map/Reduce算法进行分析的基础上,利用开源Hadoop软件设计出高容错高性能的分布式搜索引擎,以面对搜索引擎对海量数据的处理和存储问题。  相似文献   

12.
为提高医学文献检索的效率和检索结果输出的有效性,快速客观地为科研人员提供高信度、低冗余的参考文献,实现检索结果按相关度排序输出,就基于向量空间模型的文献相关度计算方案进行探讨,提出基于相关度的医学文献聚类分析和相关度排序。  相似文献   

13.
分析语料存储系统的架构和不足,研究语料存储结构以及相应的检索匹配算法,对系统实现的功能进行描述。旨在探索语料检索系统在更深层次进行语料处理的途径以及证明其可行性。  相似文献   

14.
云计算环境下大规模数据处理的研究与初步实现   总被引:4,自引:0,他引:4  
将云计算技术引入到大规模数据处理过程中,提出在集中或分布管理的大量廉价计算机集群上构建动态的、可扩展的、高性价比的、易使用的高性能计算平台,创建一种基于云计算的大规模数据处理的框架模型。论述在这一环境下的大规模数据处理的方法和应用,通过搭建相应的计算平台,验证计算机集群及框架模型的可行性。  相似文献   

15.
基于汉字聚类特征的中文字符串相似度计算研究   总被引:1,自引:0,他引:1  
采用聚类分析的方法,对汉字的特征进行研究和分析,找出其内在规律,根据汉字具有“成簇性”的特点,对中文字符串进行精细化匹配,给出基于改进编辑距离的相似度计算模型。实验结果表明,该模型对中文字符串的相似度具有更为精细的体现。  相似文献   

16.
针对海量数据处理在处理速度、存储空间、容错性、访问时间等方面存在的问题,对Google MapReduce编程模型的原理、执行流程等进行分析研究,介绍4种主要的MapReduce实现平台Hadoop、Phoenix、Disco、Mars,从编程语言、构建平台、功能特点和应用领域4个方面对4种平台进行比较分析,以期对MapReduce编程模型原理及其应用平台有一个较全面的认识。  相似文献   

17.
语义web环境下语义推理的研究与实现   总被引:1,自引:0,他引:1  
从语义推理技术入手,主要针对描述逻辑、推理算法和推理机三个方面进行了研究分析。在此基础上,本文进行了语义推理原型系统的设计与实现。系统在语义分析模块中利用语义推理进行检索词的规范和扩展,在语义检索模块通过语义推理挖掘关联隐含知识。通过语义推理原型系统的构建,利用专用推理机Pellet与Jena推理子系统层叠的方式进行语义推理,为今后各种知识服务系统的语义推理提供参考依据。  相似文献   

18.
The effects of actual and perceived similarity on interpersonal outcomes (e.g., liking) in initial interactions were examined in a live interaction paradigm, which also included a pre-interaction manipulation of bogus similarity or dissimilarity. Pairs of previously unacquainted students engaged in a two-segment interaction using a structured self-disclosure task. One member of the pair was assigned to disclose while the other listened in the first segment; the two then switched roles in the second segment. Participants who received bogus information (prior to the interaction) that the other was similar expected to experience more liking toward the other and enjoyment of the interaction, relative to those who received bogus dissimilarity information. The pre-interaction manipulation of similarity/dissimilarity, however, did not generally affect liking and other affiliative outcomes once the pairs interacted. Perceived similarity was strongly associated with liking, closeness, and the other affiliative outcomes. Furthermore, more support was found that liking leads to similarity (Morry, 2005) than that similarity leads to liking in the initial interactions.  相似文献   

19.
基于J2EE的数字图书馆统一检索系统的研究与实现   总被引:1,自引:3,他引:1  
介绍多层体系结构及JMS技术,阐述统一检索系统的设计思想、检索流程和功能界面等。系统借鉴元搜索引擎的思想,并利用JMS的发布/订阅消息模型实现并发高效检索。  相似文献   

20.
This study examines the communication skill similarity between fathers and daughters. Participants were 186 daughters who identified perceptions of both their own communication competence and their father's communication competence. Results indicated that perceived similarity was related to relational satisfaction and quantity of communication. Using the Family Communication Pattern (FCP) model, father-daughter relationship satisfaction and communication skill similarity varied depending on the family type (i.e., consensual, pluralistic, protective, laissez-faire).  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号