首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
命名实体是文本中基本的信息元素,是正确理解文本的基础。命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别,即发现命名实体和标注命名实体。利用了隐马尔可夫模型(HMM,Hidden Markov Model)和改进的隐马尔可夫模型进行英文命名实体的识别。  相似文献   

2.
在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93.45。  相似文献   

3.
罗进一 《百科知识》2020,(33):10-11
<正>在军事领域中,武器装备名是重要命名实体之一,如何识别英文武器装备名,具有极高的军事领域信息处理价值。命名实体集中了人名、地名、机构名称、数字短语、时间表达式等形式,使用者能从中发现信息,是对文本内容产生深度理解效果的关键所在。具体到军事领域,英文中的一些现代武器装备名,可谓军事文本构成的核心命名实体,将其作为研究对象有其必然性。因为表达形式的针对性很特殊,现代军事武器装备名识别方法公开文献较少,且早期命名实体识别策略往往以规则借用为主,直至近些年才有了从大规模语料库出发的识别统计方法。  相似文献   

4.
[目的/意义]菊花古典诗词的命名实体识别有助于深度挖掘菊花诗词文本之间的关联,传承菊花文化,助力菊花产业及乡村文化旅游,同时也为其他花卉诗词的文本深度挖掘提供了思路。[方法/过程]文章通过网络、论文和书籍进行菊花古典诗词数据的采集,重点选择诗词中涉及的时间、地点、季节、花名、花色、人物和节日7类命名实体进行标注和识别,得到BiLSTM、BiLSTM-CRF和BERT模型不同识别结果,并与CRF模型识别结果进行对比。[结果/结论]BERT模型在菊花古诗词文本的命名实体识别中表现优异,实体识别的调和平均数高于其他模型,最优调和平均数达到91.60%。BERT模型可用于菊花古诗词文本的深层次挖掘研究,并可向更多的花卉诗词扩展,古诗词文本的命名实体标注体系可以为后续研究提供借鉴。  相似文献   

5.
潘正高 《情报科学》2012,(5):708-712,786
介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。  相似文献   

6.
命名实体识别(Named Entity Recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等.首先对我国关于命名实体识别研究的文献进行了总结,给出命名实体识别的主要方法及模型.并针对文献中对这些命名实体识别方法的效果进行统计分析,探讨各种识别对象、识别模型的效果及适用性.经过对现有研究文献的统计,结论为:在不考虑运行效率的情况下,对于机构名,识别效果最好的是层叠CRF模型;对于地名,测试效果最好的是CRF方法与专家知识相结合;人名识别方法中表现不错的则是边界模版和局部统计相结合的模型.  相似文献   

7.
《科技风》2016,(16)
随着互联网技术的飞速发展和极大普及,以及相关领域研究的不断深入,可用信息资源得到了极大丰富。人们迫切需要从海量的非结构化文本中获取有用的信息。在这一背景下,信息抽取技术应运而生。命名实体识别自诞生之日起,就被看作信息抽取系统的一个重要子任务,受到广大国内外学者的广泛关注。本文探讨了命名实体识别的基本概念和意义,并对现有的命名实体识别技术、特征、评估方法进行了总结。  相似文献   

8.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

9.
[目的/意义]为挖掘旅游平台游记文本蕴含知识,协助旅游者高效获取符合需求的信息和知识,为制定旅游计划提供科学决策的信息支持。[方法/过程]首先面向用户需求提出基于布尔矩阵和集合逻辑改进Apriori算法的思路;然后融合命名实体识别实现了游记文本关联知识挖掘及聚合,构建了基于关联知识挖掘的个性化推荐服务模式,并以携程网中杭州相关的游记文本进行了实证研究。[结果/结论]研究发现,融合命名实体识别和改进的Apriori算法,能够有效挖掘游记文本蕴含知识,实验结果验证了在算法性能及结果上要优于传统Apriori算法,并能够根据挖掘结果向用户提供个性化推荐服务,协助旅行者科学、高效地制定旅游计划。研究结论丰富了游记文本挖掘的方法论,为旅游平台服务推荐优化提供了新的思路。  相似文献   

10.
关系抽取是文本挖掘的一项重要研究内容,它能够反映命名实体之间的关系,有助于发现隐含在大量数据和文本中的知识。以生物信息学为例,重点论述了国内外关系抽取技术的研究进展、常用技术与方法及应用,并对未来关系抽取技术的发展进行了展望。  相似文献   

11.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

12.
刘佳  边俊伊 《现代情报》2023,(11):37-46
[目的/意义]针对藏医古籍知识组织与开发不足的问题,利用混合深度学习方法构建面向藏医古籍的命名实体识别模型,为藏医古籍知识的深度开发与利用提供方法支持。[方法/过程]根据藏医古籍知识特点,构建ALBERT-BiLSTM-CRF模型。以《四部医典》为数据集,在人工标注与文本预处理的基础上,进行命名实体识别实验,并将实验结果与其他3种常见模型进行对比分析。[结果/结论]ALBERT-BiLSTM-CRF模型对藏医古籍实体识别效果最好,F1-score达到96.28%,与其他方法相比提升约7个百分点。  相似文献   

13.
化妆品标准有助于规范化妆品市场,同时也是相关部门进行安全监管的重要依据。为了解决化妆品标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,本文提出了一种融合了注意力机制的BERT-BiLSTM-Attention-CRF模型来提取文本中的实体和关系,引入的注意力机制能够优化权重分配、消除噪音,进而提高抽取的准确性。为了验证模型的有效性,我们与几种常见的深度网络模型进行了对比,结果证明我们的模型在自建的化妆品标准数据集上的F1值比其他模型高了3.9%~12.1%,进一步验证了模型的有效性和合理性。  相似文献   

14.
文本中实体关系的确定可以使计算机清楚文本中实体间的联系,进而可以通过其中一个实体和关系得出另一个实体,关系抽取技术用于抽取文本中实体之间的关系.随着互联网技术的发展,文本数据越来越庞大.关系抽取作为信息抽取的子任务,帮助人类从海量数据中获取有用的信息,实现将非结构化、半结构化的自然语言文本转化为结构化数据.在介绍关系抽...  相似文献   

15.
丁晟春  方振  王楠 《现代情报》2009,40(3):103-110
[目的/意义] 为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程] 该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[结果/结论] 实验结果显示对企业全称实体、企业简称实体与人名实体3类命名实体识别的识别率平均F值为90.85%,验证了所提方法的有效性,证明了本研究有效地改善了商业领域中的命名实体识别效率。  相似文献   

16.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

17.
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。  相似文献   

18.
科研机构是海量数字资源中的主要科研实体之一,对科研机构命名进行识别是开展机构评价的前提。我国科研机构在沿革过程中出现了许多命名问题,这些为我国科研机构的评价工作带来了困扰。通过分析国内外机构命名识别方法研究的现状,结合知识评价目标下机构命名识别的特点,在分析科研机构命名规则的基础上,提出一种基于规则与向量空间模型相结合的科研机构命名识别方法及步骤。  相似文献   

19.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

20.
徐飞  宋英华 《科研管理》2018,39(7):131-138
对食品安全事件当中的实体进行分析和识别,不仅有助于人们加深对食品安全事件的了解,而且有利于管理者应对食品安全事件。以食品安全事件的新闻报道文本为语料,通过系统地统计和分析人名和机构名的内部与外部特征,在制定的含有多个特征的识别模板的基础上,基于条件随机场模型,本文完成了对食品安全事件当中的机构名和人名这两个命名实体进行识别的任务。通过与最大熵模型的测试结果进行比较,实验表明条件随机场模型的整体性能比较突出,取得了较好的准确率和召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号