共查询到20条相似文献,搜索用时 46 毫秒
1.
词义消歧是自然语言处理中的一个核心问题,尝试了基于单纯贝叶新概率模型的消歧方法,取得了好的效果。由于该方法在抽取上下文特征时没有进行合理的选择,致使一些无用的信息混入其中降低了贝叶斯分类器的分类准确率。利用词根词性提高了上下文特征抽取的有效性,并且尝试寻找上下文中的指示词这种特征进行消歧。 相似文献
2.
在文本中,常常出现一词多义的现象,本文提出一种基于语义关系图的词义消歧算法,算法首先利用Word Net的语义关系构建语义关系图;其次,通过多义词在语义关系图的上下文选择最佳语义关系。测试用Senseval-3中的全文内容作为实验测试集,结果表明,词义消歧算法的测试结果很理想。 相似文献
3.
【目的/意义】为了实现高质量的数据清洗目标以提高专利大数据的利用效率,发明人姓名消歧成为了目前 一个亟待解决的关键性问题。【方法/过程】本文提出了基于专家研讨思想的发明人姓名消歧算法,即首先根据综合 相似度阈值将消歧过程中产生的发明人姓名歧义分为确定性歧义和非确定性歧义;然后对确定性歧义直接修正, 同时,引入专家研讨思想,通过群体智慧将非确定性歧义转化为确定性歧义进行消歧。【结果/结论】以国内医药行 业专利数据为实例的分析表明,与以往单纯的机器消歧算法相比,该消歧算法从准确率和消歧时间两个维度均具 有显著改进。 相似文献
4.
文献著者消歧是人名消歧的一种,近年来引起了学术界的广泛关注。其中,文献聚类方法是文献著者消歧的重要方法,但其实验效果往往不佳。基于此,对文本聚类K—means方法进行改进,并在此基础上来实现文献著者消歧。实验结果表明,改进的K—means算法能有效提高文献著者消歧的实验效果。 相似文献
5.
在数字图书馆环境下,作者名歧义现象会降低文献数据库检索的准确性,影响文献数据集质量,自动化消歧方法相比于传统的方法将更有效地解决海量数据增长、人工辨识效率偏低的矛盾。在简述现有的具有代表性的作者名自动消歧方法的基础上,根据聚类方式和特征选取方式的不同,为其建立起一个较为完整的分类体系,并对其进行对比分析。然后针对文献数据库中存在的国内外作者名歧义现象,提出相应的不受限于某种数据库和语种的通用的人名消歧框架,从而为指导文献数据库系统如何应用合适的消歧方法提供技术支持。 相似文献
6.
【目的/意义】本文利用多源数据,通过对科技文献作者的名称进行消歧,使作者与科技文献呈一一对应的
关系。【方法/过程】本文提出首先将采集的多源数据进行预处理,形成了同一姓名作者文献组成的待消解的重名数
据集,通过合作关系构建学术圈以发现歧义,最后通过机构和领域进行消歧。【结果/结论】实验采集了各级教育、自
动化及计算机技术、信息与知识传播、数理科学和化学、无线电电子学、中国医学等6个不同的学科的文献题录数
据,本文提出的基于规则的消歧具有良好的消歧效果。通过多源数据融合、机构和领域多指标消歧,能够达到较高
的消歧效果。【创新/局限】解决了同机构同领域消歧的难题,并考虑了增量问题,构建了完整的消歧模型。 相似文献
7.
8.
介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评. 相似文献
9.
【目的/意义】为解决重名作者姓名识别问题,提升作者姓名消歧准确率。【方法/过程】本文着重在整合作
者单位、邮箱等信息特征的基础上抓住作者在研究方向和研究内容上的承接性和演进性,提出构建综合文章题目、
关键词、摘要、引文以及作者的合作列表、邮箱、机构等附属信息的作者语料集,利用Doc2ve进行深度本文表示学
习,在特征学习的基础上利用支持向量机(SVM)根据人工标注的样本进行模型训练和学习,以 PubMed Central
(PMC)全部数据为例,在得到局部较优结果的基础上,将模型用于PMC所有数据集。【结果/结论】结果显示本文提
出的姓名消歧方法准确率达91.80%,有效提升了消歧的准确率,该方法不仅把握了传统作者机构、邮箱、合作列表
等特征信息,而且根据作者研究内容的承接性和演进性追溯作者,整合多方面特征以解决单单依据单位、邮箱等信
息消歧失效问题,面对学者流动性的增强展示出其更强的应用前景。【创新/局限】本研究将每个作者分别包装成一
个个文档,以此包含作者的所有属性以及相关信息,通过无监督文本表示学习和有监督机器学习结合的模式完成
消歧任务,在生命科学与医学领域数据方面具有较好的适用性。 相似文献
10.
11.
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 相似文献
12.
句型转换的机器翻译理论模型与一些处理方法 总被引:3,自引:0,他引:3
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。 相似文献
13.
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。 相似文献
14.
15.
组织创新影响机制中各变量具有不确定性与动态性等特点,可以尝试进行贝叶斯网络分析。根据贝叶斯网络的基本原理,构建了基于贝叶斯网络的组织创新影响机制模型,并对复杂贝叶斯网络计算问题的简化问题进行了探讨。实例应用表明,该方法克服了其他传统分析方法局限于线性、静态分析的缺点,较为准确地反映了组织创新影响机制各变量间的动态关系。 相似文献
16.
17.
18.
19.
20.
在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下.该方法能够快速、准确地对大规模中文文本进行特征词抽取。 相似文献