首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对利用当前神经网络模型进行中文位置语义解析存在多义词解析效果差、泛化能力差等问题,提出一种基于BERT-BiLSTM-CRF模型的中文位置语义解析方法.首先利用BERT预训练模型对中文位置信息进行预训练,获取所有层中的上下文信息,增强中文位置信息的语义表征能力,然后通过BiLSTM模型提取向量特征信息,最后通过CRF...  相似文献   

2.
在医学领域,传统的命名实体识别方法在医疗病历实体识别过程中,存在文本提取特征单一及不充分等问题,导致模型识别精准度不高。针对此问题,文章提出一种基于语义、词序、BER T预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征提取,利用Fasttext对文本的词序特征进行提取,通过BER T预训练模型获取词向量,解决Word2vec无法解决一词多义的问题。将多元特征向量融合,对相关数据的特征进行提取融合。通过卷积神经网络对融合特征进行再提取,得到更有价值的数据特征。最后通过双向长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行实体识别。实验结果表明:此方法在ChineseBLUE(c MedQANER)数据集上,其精准度、召回率、F1-Measure值等评价指标都有显著的提升。  相似文献   

3.
针对静态词向量方法不能很好地解决一词多义,长短时记忆网络参数量较多、训练时间过长等不足,提出将ALBERT预训练模型、双向门控循环单元、多头注意力机制融合在一起,构建了一个微博文本情感预测模型.首先,通过ALBERT模型获取文本动态词向量;然后采用双向门控循环单元提取文本特征;接着引入多层注意力机制捕获文本序列中的重要信息;最后,通过Softmax进行情感分类.实验结果表明:所提出的模型与传统模型相比,能有效提取文本的特征,与静态词向量相比,模型准确率提升1.76%,与长短时记忆网络相比,参数数量下降25%,训练效率提升20%,有较好的实用价值.  相似文献   

4.
随着互联网的迅猛发展,网上健康信息以几何速度增长,其中大量虚假健康信息给人们的生活带来了很大影响,但目前对虚假健康信息文本识别的研究非常缺乏,以往研究主要集中在识别微博上的谣言、伪造商品评论、垃圾邮件及虚假新闻等方面。鉴于此,采用基于词向量的深度神经网络模型和基于双向编码的语言表征模型,对互联网上流传广泛的健康信息文本进行自动分类,识别其中的虚假健康信息。实验中,深度网络模型比传统机器学习模型性能提高10%,融合Word2vec的深度神经网络模型比单独的CNN或Att-BiLSTM模型在分类性能上提高近7%。BERT模型表现最好,准确率高达88.1%。实验结果表明,深度学习可以有效识别虚假健康信息,并且通过大规模语料预训练获得的语言表征模型比基于词向量的深度神经网络模型性能更好。  相似文献   

5.
识别一篇生物医学文献中的核心实体是准确提取该文献信息的前提。针对目前生物医学文献实体识别和筛选方法的局限性,提出了基于LSTM的生物医学核心实体提取模型。该模型以LSTM为核心,通过更为优秀的词向量和输入生成规则改良模型输入,使用双向LSTM模型改进处理过程,将结果保存为树形结构并对该树进行合理剪枝获取标注链,实现输出结果处理,最终使实体识别的F1值达到了89.35%。此外,在核心实体筛选过程中,基于TF/IDF算法规则,充分考虑了词频、位置、逆文档频率等因素,使核心实体筛选的F1值达到了76.85%。  相似文献   

6.
中文电子病历命名实体识别对于医学知识库的构建和临床决策作用关键。针对中文电子病历结构化实体识别困难的问题,提出一种多特征融合的中文电子病历命名实体识别方法。该方法基于条件随机场,通过逐一融合语言符号、词性、关键词、词典、词聚类等多种特征,采用递增式学习策略验证其有效性,在最优特征组合下识别出疾病、症状、检查和治疗4类实体。实验结果表明,该方法识别准确率达到90.99%,有效满足了应用需求。  相似文献   

7.
传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。  相似文献   

8.
命名实体识别是自然语言处理基础任务之一。针对“数字敦煌”项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-BiLSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著。最后将训练得到的模型应用于“数字敦煌”资源库命名实体识别任务,证明了方法的有效性。  相似文献   

9.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

10.
为了改善现有基于深度学习网络的中文评论情感分类方法,同时提高中文评论情感分类的正确率和效率,基于Tensorflow框架,对传统BERT模型进行改进,以Nlpcc2013和Nlpcc2014公开的微博评论数据集为实验数据,分别从两个数据集中清洗抽取出3949条和14163条情感极性明显的评论,将数据输入改进后的RoBE...  相似文献   

11.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

12.
目前一些相对成熟的手势识别算法,如基于模板匹配的方法、基于人工神经网络的方法以及基于隐马尔科夫模型的方法,都存在计算复杂的劣势,而基于深度学习的手势识别具有一定优势。通过深度学习提取多层网络简化的高价值易用特征,通过向量等表示,简化算法以实现良好的识别效果。通过摄像头采集室内复杂背景下的手势图像,在计算能力、存储能力强大的PC平台通过深度学习处理图像,提取特征,然后进行分类识别,能提高识别准确率。通过改进硬件或算法还可提高识别效率及安全性。  相似文献   

13.
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。  相似文献   

14.
针对自动驾驶领域对交通标志识别的需求,设计了一种基于迁移学习的交通标志识别系统。该系统采用了预训练的MobileNetV3(去掉输出层)作为特征提取网络,然后添加两个自定义的全连接层以实现信号的分类和输出。由于采用迁移学习方法,深度学习网络中需训练的模型参数大幅减少,训练所需时间大为缩短。该系统使用经典的中国交通标志数据库(CTSDB)中的数据作为交通标志的训练数据和测试数据,训练结果表明,损耗低至0.024 3,准确率高达99.88%;测试结果表明,可以对58类交通标志进行识别,准确率为55.3%。  相似文献   

15.
一种deep web数据源下重复记录识别模型   总被引:1,自引:0,他引:1  
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.  相似文献   

16.
中日现代语言通用汉字词各义项在两种语言中的使用情况一直是学界关注的难题。基于高频中日同形词的研究结果表明,利用BERT词向量技术对日语目标词义项统计的平均准确率达到了90%,最高达到97%;对汉语目标词义项统计的平均准确率达到了88.3%,最高也达到97%,利用词向量技术对中日汉字词汇语义开展计量研究具备可行性。同时研究还发现,传统词典义项设立的科学性、例句规范性和句长等因素都会对基于词向量的语义分析产生影响。  相似文献   

17.
新闻文本分类是长文本分类的典型问题,因此提取词与词之间的关系特征就尤为重要.提出了基于双向Transformer编码表示的预训练模型(Bidirectional Encoder Representations from Transformers, BERT)和双向长短时记忆网络(Bi-directional Long Short-Term Memory, BiLSTM)以及注意力机制的对抗训练分类模型(BBA-AT).将预处理新闻文本数据经过BERT进行训练得到词嵌入编码,在训练后的词向量级别上进行扰动达到数据增广的效果,以此来进行对抗训练,之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的BBA-AT模型F1值在TNEWS数据集上比BERT模型提升了1.34%.  相似文献   

18.
葡萄酒的化学成分是辨别葡萄酒品种的主要依据。考虑到常规检测方法复杂、繁琐,准确率低,选择机器学习方法识别葡萄酒种类。针对目前常用的K均值算法在葡萄酒识别中存在的问题,尝试使用支持向量机进行分类,并与K均值算法进行对比分析。结果表明,基于支持向量机的模型分类性能更好,准确率达到98.15%。  相似文献   

19.
该文针对信用卡欺诈客户数据集极不平衡的特点,设计了SMOTE、Borderline SMOTE、ADASYN、SMOTENC四种采样算法,对数据集进行均衡处理,并结合逻辑回归、支持向量机、随机森林、多层神经网络构建欺诈风险识别模型,最后通过准确率、AUC、精确率、召回率和F1等指标对识别模型效果进行评判.实验结果表明,...  相似文献   

20.
针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型.提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点.与已有的BERT-BAC模型相比,在确保较高F1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号