首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

2.
查询扩展是信息检索领域重要研究内容。为了解决信息检索过程中用户提交查询时描述不准确以及查询词不匹配的问题,提出一种基于Word2vec的语义查询扩展方法。使用分布式神经语言概率模型Word2vec训练低维词向量,选取扩展词候选集,利用面向扩展词的查询向量生成方法过滤候选集,使选取的扩展词能更有效地体现整个查询的语义及语法相关性。实验结果表明基于Word2vec的语义查询扩展方法使查全率及查准率均有提高,因此该方法能很好地应用于查询扩展领域。  相似文献   

3.
中医医案是中国老中医的智慧的结晶,为了挖掘出中医医案中隐藏的大量的临证经验及用药规律,本文采用了数据挖掘技术对中医医案进行结构化研究,使用了改进的贝叶斯网络算法对其医案进行分析,发现其中的规律,为中医医案的发展做出了一定的改进.  相似文献   

4.
在医学领域,传统的命名实体识别方法在医疗病历实体识别过程中,存在文本提取特征单一及不充分等问题,导致模型识别精准度不高。针对此问题,文章提出一种基于语义、词序、BER T预训练模型相结合的多特征融合提取方法。引入Word2vec对文本进行语义特征提取,利用Fasttext对文本的词序特征进行提取,通过BER T预训练模型获取词向量,解决Word2vec无法解决一词多义的问题。将多元特征向量融合,对相关数据的特征进行提取融合。通过卷积神经网络对融合特征进行再提取,得到更有价值的数据特征。最后通过双向长短时记忆神经网络结合条件随机场模型(BiLSTM-CRF)进行实体识别。实验结果表明:此方法在ChineseBLUE(c MedQANER)数据集上,其精准度、召回率、F1-Measure值等评价指标都有显著的提升。  相似文献   

5.
情感分析可以帮助商家了解客户喜好从而生产出满意度更高的商品,也可以监督网上舆论等。为此,基于传统机器学习方法,加入深度学习模块,对在线评论进行情感分析与对比。在词向量训练模块中引入Word2vec模型,用高维向量表示词语、句子,既可防止过度拟合问题,又可减少训练参数个数,提高训练效率。将得到的句向量作为输入代入机器学习模型(MLP、SVM、朴素贝叶斯等)与深度学习模型(CNN、LSTM、BILSTM等),比较实验结果,提出优化方向。结果表明,基于深度学习的情感分析模型准确率明显高于单一机器学习模型,但是深度学习需要大量语料,对实验机器要求也较高,很难完全展现其魅力。  相似文献   

6.
在新的国家医疗卫生政策的引导下,传统中医迎来了发展与挑战。受此影响,当前中医方法论研究在取得成绩的同时,也凸显了不足,缺乏对临床诊断,尤其是医案说理活动的分析。文章尝试引入广义论证理论,结合传统中医医案文本的特点,提出传统中医医案说理的本土化研究方法;进而选择《小儿药证直诀》作为分析案例,从该文本出发,采用上述方法分析中医临床诊断中的说理,推动中医方法论的本土化研究。  相似文献   

7.
中医学已有数千年的悠久历史,对中华民族的繁衍昌盛做出了巨大贡献。然而,目前国内著名老中医逐年减少,而新一代中医中能真正灵活应用中医辨证论治精髓解决临床问题的"上工"为数极少。因此,中医传承工作至关重要,迫在眉睫,中医医案的研究是中医学得以传承、发扬的至关重要的举措。本系统以中医医案研究为核心,以中医经典著作文献资源为依托,采用本体技术及数据挖掘分析技术,通过对中医医案与中医经典著作文献进行关联研究分析,探本溯源,继承发扬,为高级中医研究人员、中医临床研究人员和中医学习人员提供了中医知识获取的研究方法和学习工具。  相似文献   

8.
慢性肾脏病是一种严重威胁人类健康的全球性疾病,中医在预防和治疗慢性肾脏病上具有一定优势。中医医案是中医诊疗过程的记录,蕴含着丰富的中医学术思想与临床经验。基于 Java EE 结合模式匹配技术,设计开发了慢性肾脏病中医医案解析与管理系统,实现慢性肾脏病中医医案患者基本信息、病史信息、诊断信息、住院信息、出院信息、理化检查信息等记录的解析、存储与管理。该系统有利于中医医疗人员对慢性肾脏病中医医案的分析、利用与管理,促进中医在治疗慢性肾脏病方面更好地发展。  相似文献   

9.
现有特征选择算法往往只能处理简单的拓扑结构图形,对复杂的拓扑结构图形无能为力,为此选择Structure2vec算法对网络欺诈风险进行研究。在梳理相关文献基础上,对Structure2vec的数学原理进行分析,给出其对应的卷积神经网络模型;选择网络用户的信用历史、身份特质、行为偏好、履约能力和社会关系等5种类型特征数据,构建Stucture2vec关系图;利用Structure2vec算法编写Python程序,对样本数据进行训练,获得模型;利用测试数据对模型进行测试,获得特征向量和对应的风险评估值。结果表明,利用Structure2vec算法对网络欺诈风险进行特征选择和评估,效果优于一般卷积神经网络。  相似文献   

10.
目的:比较我院实习医师用Word文档编辑功能的电子病历与手写病历在不同病因发热住院患者临床应用中的规范性差别.方法:选择收住我科的不同病因发热住院患者电子病历112份,手写病历82份,对发热症状的特征如热度、热型、热程及其伴随症状等进行统计,分析两者病案规范性差别.结果在对呼吸道症状描述的全面性,规范性上明显优于手写病历(P<0.05),其他的伴随症状的描述包括发热症状的特征描述两者比较无统计学差异(P>0.05).结论把电子病历的功能模块和Word文档有机地结合起来,既能加强电子病历书写的全面性和规范性,又不失去其个性化.  相似文献   

11.
弹幕是最近比较流行的在线视频评论方式,因其内容为自发用户发出,可能带有大量的不和谐性,因此如何识别弹幕中的中文文本内容,文中使用了命名实体识别方法,针对弹幕文本规范化处理和研究,通过采用 Word2vec 方法进行词向量训练,以期望达到合理识别的效果。  相似文献   

12.
HMM、CRF等机器学习算法在中文实体抽取任务上存在大量依靠特征提取及准确率低的缺陷,而基于BiLSTM-CRF、BERT等深度神经网络算法在中文实体识别准确率高,但BiLSTM模型依赖大规模标注数据,BERT存在参数量大、效率低等问题。该研究提出了基于ALBERT-Attention-CRF模型进行中文实体抽取的方法。首先将glove、Word2vec等静态词向量替换为ALBERT预训练模型字向量,可有效解决分词错误、数据稀疏、OOV、过拟合以及一词多义等问题;然后采用ALBERT作为编码层并对其输出利用Attention机制捕获上下文语义特征;最后结合CRF作为解码层输出实体正确标签,摒弃主流BiLSTM-CRF模型,最终在《人民日报》数据的测试集上取得了理想的效果。试验结果表明,该方法有助于提升通用中文实体识别的准确率和效率,其有效性也得到了较好的验证。  相似文献   

13.
社交网络中各种推广应用都依赖于用户兴趣的获取。用户兴趣获取方法多种多样,但大多集中于用户关注信息、用户浏览网页的分析,用户发表的语义信息与兴趣的潜在联系很少被深度发掘。提出基于标签的话题分割模型,将所有文本转化为带标签的文本以便聚类。通过分析话题变化状态推测用户兴趣迁移状况,注重社交网络用户兴趣及迁移状况与话题动态变化过程的潜在关联,利用Word2vec对话题进行相似度分析,充分利用词的上下文信息表征丰富的语义信息,通过分析社交网络平台数据,得到用户兴趣分布、兴趣动态变化过程以及话题迁移状况。将结果进行拟合后发现,用户的兴趣及变化状况很大程度上取决于用户发表的话题。  相似文献   

14.
毕业论文管理类的自由软件越来越多.但结合MS Word实现论文格式在线审改功能的却很少.文章利用VBA技术,展示对于Word文档的文本格式自动化审改的思路、方法与关键代码.  相似文献   

15.
《集宁师专学报》2017,(6):37-41
网络敏感词分析是舆情监控系统的关键,该文介绍了Spark、Flume、kafka等用于系统架构的主要开源组件,分析了敏感词分析中主要用到的Han LP中文分词和命名实体识别两大组件,以及利用Word2vec训练词向量组件进行相似度判断的算法原理及时间复杂度比较,根据高校网络用户流量特征,提出了舆情监控的系统架构设计,最后展示了系统原型实现,并对其进行了探讨及前景展望。  相似文献   

16.
作为社交网络重要载体,微博成为信息传播的重要平台,承载着公众情感表达及舆论传播的重要功能。对微博博文及评论作出主题概括及情感分析在网络管控、舆情监测及公众情绪引导方面具有重要的实践意义。提出一种基于机器学习与文本分析的主题概括及情感分析模型。以武汉理工大学研究生坠亡事件为话题,利用Word2vec将文本转化为词向量,并且通过机器学习聚类方法对舆情各个生命周期过程进行主题概括,采用基于词典文本分析方法,对评论文本进行多元情感分析,对表现突出的情感大类作细粒度分析,最终实现基于主题与情感分析的多元细粒度公众情感变化分析模型。该分析模型可在特定舆情事件下得出公众在各阶段的关注中心及情绪变化规律,实现舆情主题与情感变化的协同演化研究。  相似文献   

17.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。  相似文献   

18.
在数据分析系统中人们希望将分析结果如文本、数字、表格、图片等保存到文件中,自动生成数据报告文档。研究应用程序与Microsoft Office组件之间的数据交换技术具有现实意义。Microsoft Office组件建立在自动化技术基础之上,自动化是支持IDispach接口的COM,它继承COM很多优点,简化COM底层细节,支持客户端与服务器之间数据的双向通信,通过自动化技术使得不同应用中的数据通信更加便利。MFC实现了对自动化对象和客户应用程序开发的支持。Microsoft Office组件是以Application对象为根的层级模型结构,Application、Document、Selection和Range等是最常用到的Word对象。项目实例演示了VC环境下通过制作报告模版,利用自动化技术快速开发Word客户应用的过程,该方法对在各种语言环境下开发Microsoft Office客户应用程序都具有借鉴价值。  相似文献   

19.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

20.
本文借鉴应用程序自动化方法,基于AutoIt3和VBA,设计了一种针对Word操作题的自动批量批改程序框架,首先依据Word操作技能考核要求对Word操作题各小题划分评分点和对应分值,然后应用VBA实现单个学生Word操作题自动批改程序,最后应用AutoIt3实现多个学生Word操作题自动批量批改程序.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号