首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

2.
[目的/意义]区块链技术被纳入“新基建”范畴后,其产业发展演进快、舆情热度高。本研究将情感因素纳入新兴产业网络舆情热度预测,探究区块链产业关注主题及发展态势。[方法/过程]论文融合情感分析与多元时间序列特征提出舆情热度预测模型,采用BERT-BiLSTM(Bi-directional Long Short-Term Memory, BiLSTM)方法对舆情文本分类并赋值,挖掘情感极性类别的主题,将不同情感倾向的情感值分别取绝对值累加,构建基于情感因素的多元时间序列特征体系,并输入LSTM(Long Short Term Memory, LSTM)模型进行区块链产业舆情热度预测。[结果/结论]BERT-BiLSTM在情感分类任务中准确率为84%,其中消极和中性情感类属文本的成因主要为“对于区块链技术的不信任”和“缺乏区块链相关概念的了解”。在热度预测模型中,模型均方根误差(Root Mean Square Error,RMSE)降低17.67,平均绝对误差(Mean Absolute Error, MAE)降低15.14,决定系数(R-Square,R2)提升11%,模型总体性能良好。  相似文献   

3.
学术文本词汇功能识别的目的是实现学术文本中表征问题、方法和对象等词汇的抽取。针对传统识别方法中训练难以获取所导致的识别准确率低、召回率有限和泛化能力差等问题,本研究提出了一种基于深度学习和标题生成策略的学术文本词汇功能识别方法,将任务形式由信息抽取转化为特定形式的标题生成问题。本研究采用构建seq2seq模型和引入注意力机制的方式捕获词汇多层语义信息,最终实现学术文本中问题和方法指代词的生成和获取。实验结果表明,通过应用深度学习方法和标题生成策略,本研究提出的模型能够从摘要中有效识别学术文献的主要研究问题和主要研究方法,并较已有方法在识别效果上有明显提升。  相似文献   

4.
[目的/意义] 为帮助读者从热点事件产生的海量微博报道中快速了解事件的来龙去脉,提高微博事件摘要的准确性和可读性,提出一种基于事件要素的多模型微博热点事件时间轴摘要提取方法。[方法/过程] 针对微博文本特征,结合主题模型(LDA)与互信息最大熵模型(MaRxEnt-MI)的特点提取事件摘要关键词,以微博传播价值和主题相关性为标准筛选微博,以时间-摘要关键词-摘要微博的形式生成时间轴摘要。[结果/结论] 利用人工标注的测试集,与传统的TextRank方法进行对比,F值提高8%-13%,内部测试表明摘要可读性提高明显。实验文本和测试集的数量及事件丰富度需要进一步扩展,应考虑更多的加权策略模型以提高摘要的准确性。实验结果及测试反馈表明,本文的方法能很好满足用户对热点事件摘要信息需求,提高微博摘要提取的准确率。  相似文献   

5.
基于序列模式的个性化Web页面推荐模型*   总被引:1,自引:1,他引:0  
基于数据挖掘中的序列模式方法,提出一种个性化Web页面推荐模型。该模型首先利用Web使用数据预处理提取Web交易事务集,然后应用序列模式算法挖掘频繁(连续)序列,最后通过构建频繁(连续)序列树生成用户偏好视图以生成个性化Web页面推荐集。  相似文献   

6.
[目的/意义]大规模在线开放课程论坛具有丰富的用户评论数据。从大量未区分的评论数据中,自动识别出知识密度较高的探索型对话并挖掘其潜在价值,对于改善教师教学质量以及提高学生知识水平具有重要影响。[方法/过程]首先利用GloVe方法训练词向量,加强对文本语义的理解,然后利用卷积神经网络自动学习文本特征,提出一种基于深度学习的探索型对话自动识别模型,并在学堂在线平台《心理学概论》课程论坛标注数据集上进行实证与对比研究。[结果/结论]实验结果显示,利用GloVe方法预训练词向量以及在训练过程中不断对词向量进行学习修正能够提高模型效果。该模型识别探索型对话的F1值为0.94,相较于传统的朴素贝叶斯方法(0.88)、逻辑斯谛回归方法(0.89)、决策树方法(0.88)以及随机森林方法(0.88)取得较大提升,具有较高的实用性和较低的学习成本。  相似文献   

7.
[目的/意义] 政府网络问政平台是政府部门知晓民意的重要途径之一,为提高问政留言分类的精度以及处理留言数据质量差、数量少等问题,对比多种基于BERT改进模型与文本增强技术结合的分类效果并探究其差异原因。[方法/过程] 设计网络问政留言分类集成对比模型,文本增强方面采用EDA技术与SimBERT文本增强技术进行对比实验,文本分类模型方面则采用多种基于BERT改进的预训练语言模型(如ALBERT、RoBERTa)进行对比实验。[结果/结论] 实验结果表明,基于RoBERTa与SimBERT文本增强的文本分类模型效果最佳,在测试集上的F1值高达92.05%,相比于未进行文本增强的BERT-base模型高出2.89%。同时,SimBERT文本增强后F1值相比未增强前平均提高0.61%。实验证明了基于RoBERTa与SimBERT文本增强模型能够有效提升多类别文本分类的效果,在解决同类问题时具有较强可借鉴性。  相似文献   

8.
[目的/意义] 旨在通过探讨学科交叉领域共词网络生成的影响因素及其作用机理,揭示学科交叉领域的微观知识连接机制。[方法/过程] 结合网络嵌入性理论,将学科交叉领域关键词共现关系建立的影响因素归纳为网络结构因素(内生变量)和关键词属性因素(外生变量),进而借助指数随机图模型,选择学科交叉领域"医学信息学"开展实证研究。[结果/结论] 研究结果表明:网络结构对共现关系生成的影响大于关键词本身属性的影响;择优连接机制和传递性机制具有显著正向作用;关键词节点倾向于与较新节点相连;医学信息学的关键词倾向于与基础学科的关键词建立共现关系,而基础学科的关键词却倾向于与自身学科关键词相连。  相似文献   

9.
[目的/意义]将体验型产品在线评论按照文本长度分为长文本在线评论和短文本在线评论,探究这两类评论的时间和内容特征,为电子商务平台掌握消费者在线评论行为规律和商品需求偏好提供情报依据。[方法/过程]利用Python爬虫语言获取电影评论网站中在线评论的相关信息,构造在线评论时间间隔序列,基于人类行为动力学相关构念,探究不同类型在线评论发布行为的时间特征规律;利用文本挖掘方法找出不同类型在线评论的文本内容特征并进行比较分析。[结果/结论]以电影评论网站在线评论为数据来源,从时间角度总结出不同类型在线评论行为的时间间隔序列符合幂率分布;从文本内容角度发现不同类型在线评论的文本内容特征既有一定的相似性,也表现出明显的差异。  相似文献   

10.
[目的 /意义]将海量学术文本观点提取工作由人工转向机器,提高效率的同时又能够保证观点提取的准确性、客观性。[方法 /过程]使用UniLM统一语言预训练模型,训练过程中对模型进行精调,以人工标注数据集进行机器学习。将学术文摘作为长度为a的文本序列,经过机器学习,生成长度为b的句子序列(a≥b),并且作为学术论文观点句输出。[结果 /结论 ]研究结果表明:UniLM模型对于规范型文摘、半规范型文摘、非规范型文摘观点生成精准度分别为94.36%、77.27%、57.43%,规范型文摘生成效果最好。将机器学习模型应用于长文本观点生成,为学术论文观点生成提供一种新方法。不足之处在于本文模型依赖文摘的结构性,对非规范型文摘观点生成效果有所欠缺。  相似文献   

11.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

12.
文本情感摘要技术的目的是以简洁的形式准确表达文章的核心情感内容。为解决不同的文档结构及内容特征等问题对摘要结果的影响,提出了一种基于主题的SE-TextRank 情感摘要方法。通过LDA 模型自动获取收敛后的文本主题,利用余弦距离算法进行主题句子分组,使用传统多特征融合以及SE-TextRank 情感摘要算法对组内中心句抽取,最终获取目的摘要。实验表明,采用此方法能够更为高效的获取新闻文本摘要结果。  相似文献   

13.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

14.
本文系统性地研究面向查询的观点摘要任务,旨在构建一种查询式观点摘要模型框架,探究不同的摘要方法对摘要效果的影响。通过综合考虑情感倾向与句子相似度,从待检文档中抽取出待摘要语句,再结合神经网络和词嵌入技术生成摘要,进而构建面向查询的观点摘要框架。从Debatepedia网站上爬取议题和论述内容构建观点摘要实验数据集,将本文方法应用到该数据集上,以检验不同模型的效果。实验结果表明,在该数据集上,仅使用基于抽取式的方法生成的观点摘要质量更高,取得了最高的平均ROUGE分数、深度语义相似度分数和情感分数,较生成式方法分别提高6.58%、1.79%和11.52%,而比组合式方法提高了8.33%、2.80%和13.86%;同时,本文提出的句子深度语义相似度和情感分数评估指标有助于更好地评估面向查询的观点摘要模型效果。研究结果对于提升面向查询的观点摘要效果,促进观点摘要模型在情报学领域的应用具有重要意义。  相似文献   

15.
[目的/意义]将从互联网大数据中无监督学习的结果迁移到目标领城,解决目标领城因学习样本有限而信息识别效果难以提升的问题。[方法/过程]使用以中文维基百科等数据预训练的RoBERTa模型进行迁移学习,将学习结果映射到目标领城后使用DPCNN对其进行聚合凝练,然后结合部分标注数据微调模型完成领域信息的精准识别。[结果/结论]在10个领城内与未进行迁移学习的模型及经典模型TextCNN对比,提出的模型均较大幅度优于对比模型,平均后的精确率绝对提高4.15%、3.43%,召回率绝对提高4.55%、3.44%,F1分数绝对提高4.52%.3.44%,表明利用网络大数据迁移学习可以显著提升目标领城的信息识别效果。  相似文献   

16.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

17.
[目的/意义]了解文本和图像在阅读心智模型建设中的作用,了解大学生阅读活动中如何处理文本和图像信息,及他们阅读心智模型建设情况,以帮助大学生修改完善阅读心智模型,更好地理解阅读内容,提高其阅读能力,增强图书馆的实用性。[方法/过程]根据阅读信息处理策略提出假设,确定文本图像阅读单位和整合项目,利用眼球追踪方法,调查肇庆学院不同学历不同年级大学生文本和图像阅读情况及其文本图像整合能力和策略使用情况。[结果/结论]文本和图像在阅读心智模型建设中扮演着不同的角色;大学生有较完善的文本阅读心智模型;图像阅读过程中能够形成简单心智模型,完成部分特定任务,但不能解决复杂问题;在使用策略回答较复杂问题时,文本图像整合能力较低,花费在图像上的阅读时间较长;学校比较重视文本阅读能力的培养,对图像阅读能力的培养不足。建议加强图像资源建设(阅读环境)、增强大学生图像相关知识(先知经验)、提高图像阅读和文本图像整合能力(认知能力)。  相似文献   

18.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

19.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号