共查询到18条相似文献,搜索用时 156 毫秒
1.
针对现有基于语词的术语相似度典型算法存在的问题,提出了将WordNet和编辑距离计算应用于术语词语匹配过程,并根据术语修饰词的位置赋予特征权重的术语相似度改进算法.和已有算法相比,新的算法在三个方面有所改进.首先,在术语中心词匹配过程中引入WordNet的同义词、近义词检索功能,实现中心词之间的语义匹配;其次,将术语词语的直接匹配改进为基于编辑距离计算的模糊匹配;最后,在计算过程中充分考虑了术语修饰词与中心词之间的距离对修饰词权重分配的影响因素.针对新算法提出了具体的实现步骤,并选取基因工程领域实验数据对改进算法和现有典型算法进行对比评测.实验证明,每种改进方法在单独测试时效果优于或至少不低于Nenadic算法.基于三种改进方法的综合计算方法在计算效果方面具有明显提升. 相似文献
2.
利用查询术语同义词关系扩展信念网络检索模型 总被引:2,自引:0,他引:2
信念网络模型是一种重要的、基于贝叶斯网络的信息检索模型.它定义了一个明确的样本空间,给出了信息检索的一个灵活有效的基本框架.本文针对传统信念网络模型没有利用术语之间关系的缺陷,利用信息检索用同义词和词语相似度等概念,提出了最优同义词、相似概念、概念相似度等定义,提出了一种概念相似度的计算方法.然后利用上述定义对传统信念网络模型进行扩展,提出了一种基于查询术语同义词关系的扩展信念网络检索模型,讨论了扩展模型的拓扑结构和利用扩展模型进行信息检索的具体方法.实验结果表明,扩展后的信念网络模型比传统模型具有更好的检索性能. 相似文献
3.
4.
基于SUMO和WordNet本体集成的文本分类模型研究 总被引:1,自引:0,他引:1
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。 相似文献
5.
基于改进编辑距离的相似重复记录清理算法 总被引:1,自引:0,他引:1
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。 相似文献
6.
邢美凤 《现代图书情报技术》2012,(1):34-39
提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N-gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。 相似文献
7.
基于词序方法的文本相似度计算模型 总被引:1,自引:0,他引:1
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%. 相似文献
8.
9.
10.
11.
12.
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。 相似文献
13.
Text Categorization (TC) is the automated assignment of text documents to predefined categories based on document contents. TC has been an application for many learning approaches, which prove effective. Nevertheless, TC provides many challenges to machine learning. In this paper, we suggest, for text categorization, the integration of external WordNet lexical information to supplement training data for a semi-supervised clustering algorithm which can learn from both training and test documents to classify new unseen documents. This algorithm is the Semi-Supervised Fuzzy c-Means (ssFCM). Our experiments use Reuters 21578 database and consist of binary classifications for categories selected from the 115 TOPICS classes of the Reuters collection. Using the Vector Space Model, each document is represented by its original feature vector augmented with external feature vector generated using WordNet. We verify experimentally that the integration of WordNet helps ssFCM improve its performance, effectively addresses the classification of documents into categories with few training documents and does not interfere with the use of training data. 相似文献
14.
设计并实现一个科技项目同行评议专家智能遴选系统,以专家信息和专家档案库为基础,采用基于统计的术语抽取技术解决未登录词问题,利用向量空间检索计算待评审项目和评审专家的相关性,根据相关性大小遴选出最合适的评审专家。 相似文献
15.
信息检索扩展技术研究 总被引:1,自引:0,他引:1
本文针对信息检索在查询扩展方面的不足,提出了一种结合本体理论和用户相关反馈技术的查询扩展方法。以FirteX作为检索平台, 选取WordNet作为本体扩展资源来验证本文所提出的查询扩展算法,实现结果表明该方法比基于余弦相似性的查询扩展方法在平均查全率、平均查准率方面有更大的优点。 相似文献
16.
改进的中文同义词相似匹配方法 总被引:2,自引:0,他引:2
信息检索的核心技术是文档集与提问集的相似匹配。目前基于关键词的字面匹配方法和基于词义的概念匹配方法各有优势与不足。在数字图书馆文献检索中可以综合两者的优势。设计一种改进的中文同义词相似匹配方法较现有两种方法优越,并具有更好的应用性。图2。表3。参考文献2。 相似文献
17.
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。 相似文献
18.
提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。 相似文献