首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
在对当前术语语义相似度集成相关研究进行分析的基础上,针对典型集成方法存在的不足,构建了基于多种测度的术语相似度集成计算模型.首先对集成计算模型的设计思路进行论述;其次提出了在模型中应用的相似度网络初始化算法、术语语词相似度改进算法、术语语境模板相似度改进算法以及基于搜索引擎的术语相似度改进算法,并实现了该集成计算模型;最后对该模型中所使用的各种相似度测度计算性能指标以及完全计算SVM集成和条件计算SVM集成性能指标进行对比评测.实验证明,该计算模型的F1综合性能达到0.8797,并能缩短32%的计算时间,有效提升了术语相似度综合计算性能.  相似文献   

2.
针对现有基于语境特征的术语相似度算法在语境模板生成和匹配过程中存在的不足,提出基于术语的句法依赖关系自动构造术语语境模板,进而通过语境模板匹配计算术语相似度的方法。该方法既能减少语境模板的生成和匹配困难,又将术语语境特征较好地保留在模板中。针对新方法提出具体的实现步骤,并选取基因工程领域实验数据对新方法和现有典型方法进行对比评测。实验证明,新方法在计算效果方面具有明显提升。  相似文献   

3.
基于语义网计算英语词语相似度   总被引:14,自引:2,他引:14  
荀恩东  颜伟 《情报学报》2006,25(1):43-48
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(Sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。  相似文献   

4.
基于双序列比对的中文术语语义相似度计算的新方法   总被引:1,自引:1,他引:0  
针对中文术语的语义相似度计算问题,本文首先用数学语言对其进行了描述,然后仔细分析了求解该问题的传统计算方法,结果发现传统计算方法大都做了一个隐式假设:组成两个术语的原子术语的顺序必须大体一致.换句话说,传统计算方法并没有考虑原子术语顺序的差异对构建两个术语的原子术语间对应关系质量的影响.为克服这个问题,通过类比分析,本文认为可将该问题看作一个全局双序列比对问题,因而引入生物信息学领域中著名的全局双序列比对算法(NW算法).理论及实验研究均表明,在绝大多数情况下,该方法优于传统方法,或至少与传统方法的效果相当.  相似文献   

5.
词汇相似度研究进展综述   总被引:1,自引:0,他引:1  
从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为新的词汇语义信息的重要来源。详细阐述维基游走法、内涵概念图法和时间语义分析法这三种最新的基于维基百科的词汇相似度算法,指出词汇相似度研究今后将有机融合维基百科和其他背景信息,使各种词汇语义信息来源优势互补。此外运用复杂网络的分析方法来挖掘词汇网络中词汇的相关性将是词汇相似度研究的又一发展方向。  相似文献   

6.
基于领域本体的文献模糊相似度算法研究   总被引:1,自引:0,他引:1  
利用分类主题一体化的主题词表构建领域本体,并通过概念间的关系定义及语义相似度公式,引入调整因子,确定概念相似度算法,再通过余弦系数法进一步得到文献间的相似度。对于本算法的结果,与领域专家预测的相似度进行比较,结果证实该算法有效。  相似文献   

7.
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算, 对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试, 取得较好效果。  相似文献   

8.
介绍本体的基本概念,论述本体的形式化表示和信息源表示,以及影响术语相似度的3个因素(距离,深度和密度),并在阐述如何计算术语相似度的基础上,描述基于本体和相似度检索过程。  相似文献   

9.
 借鉴Rodriguez和Egenhofer提出的语义相似度计算模型,结合医学领域主题词表MeSH的特点,提出MeSH主题词表中的语义相似度计算方法,实验结果证明该方法是有效的。  相似文献   

10.
[目的/意义]针对疾病知识的不同表达方式,提出一种融合疾病多维度的综合语义相似度计算方案。[方法/过程]在整合疾病本体和医学百科各自特征的基础上,设计由基于疾病本体的语义相似度和基于医学百科的疾病语义相似度构成的综合语义相似度模型。其中,运用图论计算基于疾病本体的语义相似度,运用LDA、集合和向量空间模型计算基于医学百科的疾病语义相似度。[结果/结论]将本文的方法同临床医生的人工判别进行比较,结果表明本文的方法能够有效地反映疾病的语义相似度。本文的方法可为疾病相似性进一步研究提供参考。  相似文献   

11.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

12.
基于Hash算法的中文分词的研究   总被引:1,自引:0,他引:1  
通过对已有算法的分析,提出一种新的词典结构,并根据词典给出分词算法。理论和实验证明,算法在速度和效率上有很大的提高。  相似文献   

13.
王煜  白石  王正欧 《情报学报》2007,26(5):643-647
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.  相似文献   

14.
运用SATI和R语言统计软件,对中国知网期刊库中收录的两年来与"生态文明建设"相关的学术论文进行词频分析和共词聚类,从中提取出当前生态文明建设领域的研究热点,通过绘制高频关键词聚类分析图、对应分析图和共现网络知识图谱,揭示该研究领域的内部联系及其特征,从而为国内的相关研究提供参考。  相似文献   

15.
[目的/意义]提出一种基于词频、词量、累积词频占比三者变化关系的共词分析词集范围的确定方法,尝试对现有词集范围选取方法中仅凭经验判断和过度依赖词频为“1”的关键词的问题进行改进,为相关研究提供一种更加规范、科学、值得借鉴的做法。[方法/过程]该方法充分考虑词集实际分布规律和特点,将词或词组分类成高、中、低频,并选择高、中频词共同作为共词分析的对象。[结果/结论]通过在具体领域的实例验证以及与其他方法的对比,证明该方法可以有效地选择合适的词集范围,对今后相关研究具有一定借鉴意义。  相似文献   

16.
针对典型的分布式UDDI网络模型中语义Web服务匹配策略存在的问题,通过对经典的弹性匹配算法进行扩展,提出使用GCSM语义距离算法、类别系数和级别系数来量化Web服务的匹配程度即相似度,使得匹配结果更接近请求者的请求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号