首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
命名实体识别模型Lattice LSTM集成字信息和词信息,在路由词信息的过程中会退化成词模型,不能有效利用字信息内在关联性.针对上述问题,提出基于多头注意力机制的Lattice LSTM模型,获取字信息的内在关联和远距离语义信息,同时对模型进行调参优化与改进.在多个数据集上的实验验证,该模型相对于基线模型F1值提高了0.48%~1.11%.  相似文献   

2.
在分析工程文本中命名实体实际特征的基础上,提出一种基于CRF与规则相结合的工程领域命名实体识别方法。在完善用户词典并对文本进行分词后,以短语级的粒度为原则从中确定特征,将文本交由CRF算法进行处理;分析CRF的处理结果,根据语言学规律及工程文本特点编写规则,对CRF处理结果进行优化。实验表明,该方法的全局F1值能够达到93.45。  相似文献   

3.
传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。  相似文献   

4.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

5.
针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型.提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点.与已有的BERT-BAC模型相比,在确保较高F1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实...  相似文献   

6.
在医学领域,传统的命名实体识别方法在医疗病历实体识别过程中,存在文本提取特征单一及不充分等问题,导致模型识别精准度不高。针对此问题,文章提出一种基于语义、词序、BER T预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征提取,利用Fasttext对文本的词序特征进行提取,通过BER T预训练模型获取词向量,解决Word2vec无法解决一词多义的问题。将多元特征向量融合,对相关数据的特征进行提取融合。通过卷积神经网络对融合特征进行再提取,得到更有价值的数据特征。最后通过双向长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行实体识别。实验结果表明:此方法在ChineseBLUE(c MedQANER)数据集上,其精准度、召回率、F1-Measure值等评价指标都有显著的提升。  相似文献   

7.
电子病历中同一医疗概念的提及形式具有多样性,阻碍了医疗数据的分析和利用,研究电子病历实体标准化具有现实意义。设计并实现了基于深度学习的电子病历实体标准化算法,使用Siamese网络架构和LSTM网络搭建模型,采用Pairwise方法训练模型,在测试集上与传统基于编辑距离的方法进行比较。对手术实体标准化的实验结果显示,深度学习算法正确率达到79.71%,比传统方法提高了17.4个百分点,表明深度学习算法在电子病历实体标准化方面具有有效性。  相似文献   

8.
为解决手工提取图像特征过程繁复和参数复杂问题,提出一种基于深度学习的协同KPCANet模型。该算法能够对现场采集到的人脸数据和特征进行提取和分类,通过提取分块直方图特征进行编码协同表示,将测试样本归于残差最小的类中对人脸数据进行识别和运算。实验结果表明,协同KPCANet模型在滤波器数量L1=10时一层卷积层与L2=15时二层卷积层的正确率分别达到99.17%和99.44%。协同KPCANet模型不仅能使运算过程简洁,还能提高识别结果准确度,提升识别效率。  相似文献   

9.
基于迁移学习的家猪图像识别研究   总被引:1,自引:0,他引:1  
为实现家猪图像识别并提高识别准确率,提出一种基于迁移学习的家猪图像识别方法。首先对现有数据集进行数据增强,然后迁移 VGG16 模型并对其进行微调,从而更好地提取图像特征并缩短网络训练时间。采用自归一化神经网络解决了梯度消失和梯度爆炸问题,在网络构造时使用全局平均池化代替全连接层,以达到降低模型过拟合的效果。实验对比结果表明,该方法分类效果较好,准确率达到了 84%,召回率和 F1 值分别提升至 0.8、0.82,各项指标相比基础模型均有所提升。  相似文献   

10.
中文电子病历命名实体识别对于医学知识库的构建和临床决策作用关键。针对中文电子病历结构化实体识别困难的问题,提出一种多特征融合的中文电子病历命名实体识别方法。该方法基于条件随机场,通过逐一融合语言符号、词性、关键词、词典、词聚类等多种特征,采用递增式学习策略验证其有效性,在最优特征组合下识别出疾病、症状、检查和治疗4类实体。实验结果表明,该方法识别准确率达到90.99%,有效满足了应用需求。  相似文献   

11.
关系抽取是构建如知识图谱等上层自然语言处理应用的基础。针对目前大多数关系抽取模型中忽略部分文本局部特征的问题,设计一种结合实体位置特征与多层注意力机制的双向LSTM网络结构。首先根据位置特征扩充字向量特征,并将文本信息向量化,然后将文本向量化信息输入双向LSTM模型,通过多层注意力机制,提高LSTM模型输入与输出之间的相关性,最后通过分类器输出关系获取结果。使用人工标注的百科类语料进行语义关系获取实验,结果表明,改进方法优于传统基于模式匹配的关系获取方法。  相似文献   

12.
为了减少基于深度学习动作识别过程中视频图像背景和冗余帧等对识别效果的影响,在深度学习框架中加入注意力机制,提出了一种利用长短时记忆(long short-term memory, LSTM)网络等强化特征提取的方法。首先,改进了数据处理方法,使用融入空间注意力机制的残差网络提取视频中的动作序列空间特征;其次,提出时序注意力机制(temporal attention mechanism, TAM),进一步提取LSTM输出动作序列的时序特征,并根据不同时刻LSTM输出的重要程度,为视频帧序列动态分配加权系数;最后,通过Softmax分类器完成动作分类。结果表明,所提方法在UCF101数据集上的识别准确率达到了96.9%。  相似文献   

13.
为了改善传统脑电情绪识别方法需要对脑电信号进行深入了解,且需要人工提取相关特征的缺点,基于深度森林的表征学习能力对脑电样本的时域与频域数据进行自动特征提取,并融合32通道脑电信号的时域特征向量和频域特征向量,通过级联森林对特征作进一步学习。实验结果表明,该方法对效价二分类预测的准确率达到68.4%,查准率达到66.3%,查全率达到89.9%,F1分数达到76.3%;对唤醒度二分类预测的准确率达到68.2%,查准率达到65.8%,查全率达到91.2%,F1分数达到76.4%。通过与DEAP数据集使用EEG信号给出的二分类实验结果进行对比,基于深度森林的脑电情绪识别方法对未知样本的识别准确率高于DEAP的结果。  相似文献   

14.
命名实体识别是自然语言处理基础任务之一。针对“数字敦煌”项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-BiLSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著。最后将训练得到的模型应用于“数字敦煌”资源库命名实体识别任务,证明了方法的有效性。  相似文献   

15.
针对烧结厂烧结杯实验周期长等问题,构建一种 A-LSTM 的烧结矿质量预测模型。在 LSTM 网络基础上借鉴注意力机制思想,通过权重再分配使网络更加关注训练过程中的非冗余数据。为减少损失函数在训练过程中的震荡,提出加权均方误差损失计算方式,考虑每轮输入数据缺失值占总体的比重,使模型预测更为准确。实验结果表明,A-LSTM 预测方法准确率可达 92.7%,相比于原始 LSTM,预测准确率提升了 1.9%。  相似文献   

16.
实体识别是自然语言处理领域中一个十分重要的问题,是信息提取的基础,其识别程度直接影响了后续的句法分析、篇章理解等工作的精确程度。“熵”最初是热力学的一个概念,用来表示不确定度,熵越大,不确定性越大。“最大熵”模型是一种融合多种特征于一体,并综合这些特征进行建模,在满足约束的模型中选择熵最大的模型。“最大熵”模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的效果。通过实验分析了在新闻报道领域最长地点实体的特征,并应用了最大熵模型进行了识别研究。  相似文献   

17.
为解决变负荷工况下因模型输入变量较多、相关性大导致模型复杂度增加的问题,提出了一种将核极限学习机(KELM)和主成分分析(PCA)相结合的动态建模方法,并应用于选择性催化还原(SCR)脱硝系统出口处的氮氧化物(NOx)浓度预测.首先,将主成分分析应用于输入数据特征信息提取,并将提取信息的当前和过往序列值用作KELM模型的输入,以反映SCR出口处NOx浓度的动态特征;然后,将SCR出口的NOx浓度历史数据作为模型的输入,以提升模型精度;最后,利用优化算法确定模型最优参数.结果表明,与GPR、LSTM、CNN模型相比,所建动态模型的预测误差分别减少约78.4%、67.6%和59.3%,说明该模型结构可靠,能够准确预测SCR系统出口NOx浓度.  相似文献   

18.
分布环境下实体识别过程中存在的最主要问题是实体识别的效率问题。由于实体的特征属性之间存在上下文异构,非字符串属性之间无法直接进行有意义的比较,因而字符串属性的相似性比较十分耗时。提出了基于上下文仲裁的比较空间缩减机制,通过解决实体特征属性之间存在的上下文异构,对实体特征属性中的非字符串属性进行直接比较以滤除绝大部分不匹配的实体对,极大地缩减了比较空间,最终达到了提高实体识别效率的目的。  相似文献   

19.
文章深入研究了基于BP神经网络的数字识别算法。首先,对输入的图像进行预处理,然后提取特征,最后构造基于BP神经网络的分类器。实验结果表明:该识别算法达到了较高的识别正确性,具有一定的实用性和有效性。  相似文献   

20.
HMM、CRF等机器学习算法在中文实体抽取任务上存在大量依靠特征提取及准确率低的缺陷,而基于BiLSTM-CRF、BERT等深度神经网络算法在中文实体识别准确率高,但BiLSTM模型依赖大规模标注数据,BERT存在参数量大、效率低等问题。该研究提出了基于ALBERT-Attention-CRF模型进行中文实体抽取的方法。首先将glove、Word2vec等静态词向量替换为ALBERT预训练模型字向量,可有效解决分词错误、数据稀疏、OOV、过拟合以及一词多义等问题;然后采用ALBERT作为编码层并对其输出利用Attention机制捕获上下文语义特征;最后结合CRF作为解码层输出实体正确标签,摒弃主流BiLSTM-CRF模型,最终在《人民日报》数据的测试集上取得了理想的效果。试验结果表明,该方法有助于提升通用中文实体识别的准确率和效率,其有效性也得到了较好的验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号