期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汤小娜苏劲松《黑龙江科技信息》2007,(7):38

词义消歧是自然语言处理中的一个核心问题,尝试了基于单纯贝叶新概率模型的消歧方法,取得了好的效果。由于该方法在抽取上下文特征时没有进行合理的选择,致使一些无用的信息混入其中降低了贝叶斯分类器的分类准确率。利用词根词性提高了上下文特征抽取的有效性,并且尝试寻找上下文中的指示词这种特征进行消歧。相似文献

2.

一种基于语义关系图的词义消歧算法

张健立《科技通报》2015,(3)

在文本中,常常出现一词多义的现象,本文提出一种基于语义关系图的词义消歧算法,算法首先利用Word Net的语义关系构建语义关系图;其次,通过多义词在语义关系图的上下文选择最佳语义关系。测试用Senseval-3中的全文内容作为实验测试集,结果表明,词义消歧算法的测试结果很理想。相似文献

3.

基于专家研讨思想的发明人姓名消歧研究

下载免费PDF全文

孙笑明李瑶王成军刘斌赵升《情报科学》2019,37(4):116-121

【目的/意义】为了实现高质量的数据清洗目标以提高专利大数据的利用效率，发明人姓名消歧成为了目前一个亟待解决的关键性问题。【方法/过程】本文提出了基于专家研讨思想的发明人姓名消歧算法，即首先根据综合相似度阈值将消歧过程中产生的发明人姓名歧义分为确定性歧义和非确定性歧义；然后对确定性歧义直接修正，同时，引入专家研讨思想，通过群体智慧将非确定性歧义转化为确定性歧义进行消歧。【结果/结论】以国内医药行业专利数据为实例的分析表明，与以往单纯的机器消歧算法相比，该消歧算法从准确率和消歧时间两个维度均具有显著改进。相似文献

4.

利用改进的K-means算法实现文献著者人名消歧

朱亮亮《人天科学研究》2013,(5):63-66

文献著者消歧是人名消歧的一种,近年来引起了学术界的广泛关注。其中,文献聚类方法是文献著者消歧的重要方法,但其实验效果往往不佳。基于此,对文本聚类K—means方法进行改进,并在此基础上来实现文献著者消歧。实验结果表明,改进的K—means算法能有效提高文献著者消歧的实验效果。相似文献

5.

文献数据库中作者名自动化消歧方法应用研究

郭舒《情报杂志》2013,(9)

在数字图书馆环境下,作者名歧义现象会降低文献数据库检索的准确性,影响文献数据集质量,自动化消歧方法相比于传统的方法将更有效地解决海量数据增长、人工辨识效率偏低的矛盾。在简述现有的具有代表性的作者名自动消歧方法的基础上,根据聚类方式和特征选取方式的不同,为其建立起一个较为完整的分类体系,并对其进行对比分析。然后针对文献数据库中存在的国内外作者名歧义现象,提出相应的不受限于某种数据库和语种的通用的人名消歧框架,从而为指导文献数据库系统如何应用合适的消歧方法提供技术支持。相似文献

6.

基于多源数据的科技文献作者同名消歧研究

下载免费PDF全文

昌宁窦永香徐薇《情报科学》2021,39(6):108-116

【目的/意义】本文利用多源数据,通过对科技文献作者的名称进行消歧,使作者与科技文献呈一一对应的关系。【方法/过程】本文提出首先将采集的多源数据进行预处理,形成了同一姓名作者文献组成的待消解的重名数据集,通过合作关系构建学术圈以发现歧义,最后通过机构和领域进行消歧。【结果/结论】实验采集了各级教育、自动化及计算机技术、信息与知识传播、数理科学和化学、无线电电子学、中国医学等6个不同的学科的文献题录数据,本文提出的基于规则的消歧具有良好的消歧效果。通过多源数据融合、机构和领域多指标消歧,能够达到较高的消歧效果。【创新/局限】解决了同机构同领域消歧的难题,并考虑了增量问题,构建了完整的消歧模型。相似文献

7.

基于汉语篇章结构的自动摘要方法研究

张美娜亓超迟呈英战学刚《情报杂志》2007,26(8)

介绍了一种新的基于汉语篇章结构的自动方法。在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构。经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评。相似文献

8.

基于汉语篇章结构的自动方法研究

张美娜亓超迟呈英战学刚《情报杂志》2007,26(8):34-36

介绍了一种新的基于汉语篇章结构的自动摘要方法.在文本物理结构的基础上,利用汉语复句研究理论、RST理论和各种汉语语言特征的融合方法对文本内容进行了深入的分析,确定了文本的各层次语言单元之间的逻辑关系,得到了文本的逻辑结构.经过加权规则抽取文摘,并通过消歧规则使文摘连贯流畅,最后给出了系统测评. 相似文献

9.

基于Doc2vec和SVM的作者姓名消歧研究 ——以PubMed Central为例

下载免费PDF全文

霍朝光司湘云王婉如《情报科学》2021,39(7):91-98

【目的/意义】为解决重名作者姓名识别问题,提升作者姓名消歧准确率。【方法/过程】本文着重在整合作者单位、邮箱等信息特征的基础上抓住作者在研究方向和研究内容上的承接性和演进性,提出构建综合文章题目、关键词、摘要、引文以及作者的合作列表、邮箱、机构等附属信息的作者语料集,利用Doc2ve进行深度本文表示学习,在特征学习的基础上利用支持向量机（SVM）根据人工标注的样本进行模型训练和学习,以 PubMed Central （PMC）全部数据为例,在得到局部较优结果的基础上,将模型用于PMC所有数据集。【结果/结论】结果显示本文提出的姓名消歧方法准确率达91.80%,有效提升了消歧的准确率,该方法不仅把握了传统作者机构、邮箱、合作列表等特征信息,而且根据作者研究内容的承接性和演进性追溯作者,整合多方面特征以解决单单依据单位、邮箱等信息消歧失效问题,面对学者流动性的增强展示出其更强的应用前景。【创新/局限】本研究将每个作者分别包装成一个个文档,以此包含作者的所有属性以及相关信息,通过无监督文本表示学习和有监督机器学习结合的模式完成消歧任务,在生命科学与医学领域数据方面具有较好的适用性。相似文献

10.

基于显著对象的贝叶斯多目标检测方法

刘龙柳恭尤亚《人天科学研究》2013,(7):26-29

针对多目标图像检测存在的误检问题,结合低层特征和中层提示,提出了一个新的基于显著对象的贝叶斯框架下的多目标检测方法。该方法首先用上下文感知显著检测方法获取图像的低层特征信息,然后用Ncut图像分割取得图像的显著中层信息提示,即多目标的类别标签信息,根据低层和中层信息提示来计算先验显著图,最后使用贝叶斯方法计算获得图像的后验显著图。实验结果表明,该方法提高了显著对象检测精度,并且可以较好地解决多目标检测误检问题。相似文献

11.

基于搜索引擎的中文歧义词收集系统研究

吉向东《现代情报》2010,30(6):125-127

本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。相似文献

12.

句型转换的机器翻译理论模型与一些处理方法 总被引：3，自引：0，他引：3

杨宪泽雷开彬《科技通报》2007,23(2):253-257

自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有：第一，讨论了机器翻译的理论模型；第二，给出了一个自动分词算法，提出了一个初步消歧方法；第三，建立汉英机器翻译的时态转换及相关匹配规则。相似文献

13.

词语相似度算法研究综述

李慧《现代情报》2015,35(4):172-177

词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。相似文献

14.

基于多特征提取的中文二元分类

《科技风》2016,(2)

通过对中文文本中二元组进行分类,可以提取出文本中的中文词汇。研究中文二元组的组合规律,抽取二元组的词频、邻接熵、二元组概率、互信息值、卡方值等多个特征。利用机器学习的方法将二元组分为二元词、非词和待扩展词三类,实现中文词汇的自动提取。实验分别采了用朴素贝叶斯模型和决策树算模型进行训练,利用模型预测中文二元组,抽取中文词汇。实验结果表明,决策树算模型分类效果较好,准确率70.3%,召回率73.5%,F1值71.9%。相似文献

15.

基于贝叶斯网络的组织创新影响机制研究

下载免费PDF全文

蒋天颖《科研管理》2011,32(5):61

组织创新影响机制中各变量具有不确定性与动态性等特点,可以尝试进行贝叶斯网络分析。根据贝叶斯网络的基本原理,构建了基于贝叶斯网络的组织创新影响机制模型,并对复杂贝叶斯网络计算问题的简化问题进行了探讨。实例应用表明,该方法克服了其他传统分析方法局限于线性、静态分析的缺点,较为准确地反映了组织创新影响机制各变量间的动态关系。相似文献

16.

基于改进关联规则的本体关系获取研究

谷俊严明王昊《情报理论与实践》2011,34(12)

文章提出一种改进的关联规则方法,用于抽取文本中的非分类关系。首先利用基于上下文的术语相似度获取方法得到术语间的相似度权重,再通过加入谓语动词的关联规则算法计算,结合搜索引擎技术得到候选关系对集合,并通过置信度和支持度的对比分析,抽取最终的非分类关系结果,最后对测试数据进行实验,并对结果进行分析。相似文献

17.

概率型粗糙集模型在贝叶斯决策中的应用研究

余海王欣李伟《中国科技信息》2007,(17):309-310

本文探索性地研究了概率型粗糙集模型与贝叶斯决策方法之间的联系，建立了贝叶斯决策方法的概率型粗糙集模型，实现了粗糙集理论在贝叶斯决策中的应用。相似文献

18.

基于朴素贝叶斯方法的Web数据噪音分类研究

《内江科技》2016,(7):36-37

在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。相似文献

19.

实体识别中基于上下文仲裁的比较空间缩减机制

周建芳左翠华张琳《人天科学研究》2013,(7):45-47

分布环境下实体识别过程中存在的最主要问题是实体识别的效率问题。由于实体的特征属性之间存在上下文异构,非字符串属性之间无法直接进行有意义的比较,因而字符串属性的相似性比较十分耗时。提出了基于上下文仲裁的比较空间缩减机制,通过解决实体特征属性之间存在的上下文异构,对实体特征属性中的非字符串属性进行直接比较以滤除绝大部分不匹配的实体对,极大地缩减了比较空间,最终达到了提高实体识别效率的目的。相似文献

20.

基于上下文统计反馈的中文特征词抽取方法

苏志响邵志清《情报探索》2006,(12):60-61,64

在介绍经典统计量互信息和t-测试的基础上,提出一种基于上下文统计反馈模型的特征词自动抽取方法,使之更好地满足对大规模中文文本进行处理的需求。实验表明,在无需词典和语料库的前提下．该方法能够快速、准确地对大规模中文文本进行特征词抽取。相似文献