期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

首页 | 本学科首页

官方微博 | 高级检索

相似文献

共查询到20条相似文献，搜索用时 265 毫秒

1.

面向网络虚假医疗信息的识别模型构建研究 —— 一种基于预训练的BERT模型

下载免费PDF全文

赵月华朱思成苏新宁《情报科学》2021,39(12):165-173

【目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。相似文献

2.

金融领域文本序列标注与实体关系联合抽取研究

下载免费PDF全文

唐晓波刘志源《情报科学》2021,39(5):3-11

【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列标注模式和实体关系匹配规则,在预训练语言模型BERT（Bidirectional Encoder Representations from Transformers）的基础上结合双向门控循环单元 BiGRU（Bidirectional Gated Recurrent Units）与条件随机场 CRF（Conditional Random Field）构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关系的识别。相似文献

3.

基于开放信息源的实体挖掘方法研究

下载免费PDF全文

王莉军李旭婕刘志辉翟云《情报科学》2019,37(8):139-144

【目的/意义】互联网上的信息资源日益丰富,开放信息源成为一些领域知识获取的重要渠道。本文以中医领域为例,为向本体和知识图谱的构建提供数据,提出了一种基于开放信息源的知识挖掘方法。【方法/过程】在缺乏领域训练语料的情况下,先获取一部分语料,使用规则模板、词向量结合词分类的方法获取部分领域实体词,通过回标文本语料得到训练集,再使用条件随机场进行实体的识别和抽取。【结果/结论】本文提出的规则结合 SVM-CRF实体抽取模型具有较高的有效性和通用性。在所使用的中医实体中,方剂和症型实体的抽取准确率仍待进一步提升。相似文献

4.

基于BERT的领域本体分类关系自动识别研究 总被引：1，自引：0，他引：1

下载免费PDF全文

王思丽杨恒祝忠明刘巍《情报科学》2021,39(7):75-82

【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限制,模型精度尚未达到峰值,有待进一步优化提升。相似文献

5.

融合上下文特征和BERT词嵌入的新闻标题分类研究

下载免费PDF全文

范昊何灏《情报科学》2022,40(6):90-97

【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。相似文献

6.

融合多策略的短语识别方法

下载免费PDF全文

胡小荣姚长青高影繁《情报科学》2019,37(6):49-54

【目的/意义】针对基于统计特征的短语识别方法存在的噪声问题，提出了融合多策略的短语识别方法。【方法/过程】该方法融合多统计量提取候选短语，并基于停用词表进行初步过滤，利用词向量较强的语义表达能力对候选短语进行过滤，以提高短语识别的准确率。在环保领域专利语料上进行实验，利用搜狗新闻语料与中文专利数据训练词向量库进行短语识别优化。【结果/结论】该方法对于语料规模较小以及阈值较低的结果过滤还有待进一步研究。实验结果表明，融合深度学习的方法提高了短语识别的准确率。相似文献

7.

基于细粒度评论挖掘的在线图书相似度计算研究

下载免费PDF全文

叶佳鑫熊回香孟璇《情报科学》2023,41(1):166-173

【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。相似文献

8.

基于规则和统计相结合的中文命名实体识别研究

潘正高《情报科学》2012,(5):708-712,786

介绍命名实体识别在文本信息处理领域的重要地位,分析了中文命名实体识别存在的困难,介绍中文命名实体识别的一般过程、评价标准及方法。提出了一种在构造内部规则和外部规则的同时采用概率统计的中文命名实体的识别方法,并利用这种基于规则和统计相结合的方法。实验证明该方法获得了较高的准确率和召回率,具有可行性和合理性,同时也指出了它的局限性。相似文献

9.

融合词向量语义增强和DTM模型的公共政策文本时序建模与演化分析——以“大数据领域”为例

下载免费PDF全文

闫盛枫《情报科学》2021,39(9):146-154

【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单元和语法结构。相似文献

10.

数据科学任职要求挖掘下的情报学教育及人才培养

梁媛彭秋茹王东波宋天睿《情报理论与实践》2021,(2):8-15,25

[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。相似文献

11.

基于长短时记忆网络的突发灾害事件网络舆情情感识别研究

下载免费PDF全文

金占勇田亚鹏白莽《情报科学》2019,37(5):142-147

【目的/意义】为推动深度学习在网络舆情管理中的应用,提高突发灾害事件网络舆情情感识别效率。【方法/过程】基于OCC模型建立了突发自然灾害网络舆情情感规则,并由word2vec构建文本向量作为长短期记忆网络（Long-short term memory,LSTM）的初始输入,对其训练得到突发灾害事件网络舆情多情感识别模型。【结果/结论】通过对比试验发现,OCC情感规则能够提升情感识别模型的正确率,基于LSTM和word2vec的突发灾害事件网络舆情情感识别模型在情感识别效果上优于TF-IDF文本向量化方法以及基于卷积神经网络（Convolutional neural network,CNN）和传统的机器学习方式（Support vector machine,SVM）的分类算法结果。相似文献

12.

面向科学文献的事实知识元自动抽取方法研究

下载免费PDF全文

谭荧唐亦非《情报科学》2020,38(4):23-27

【目的/意义】将知识抽取的粒度细化到知识构成的最小单元--知识元,能提高知识获取的效率和精准度。【方法/过程】本文利用命名实体识别和事件抽取技术,探索了在科学文献中自动抽取事实知识元的方法。【结果/结论】实验结果表明,该方法能有效识别科学文献中的事实知识元,自动抽取效果出色。相似文献

13.

科技文献资源中方法知识元的抽取研究

下载免费PDF全文

王忠义沈雪莹黄京《情报科学》2021,39(1):13-20

【目的/意义】为准确抽取科技文献中的方法知识元,实现科技文献更细粒度知识组织和检索。【方法/过程】本研究提出一种基于规则的方法知识元抽取方法,该方法主要分为两个阶段：方法知识元初始描述规则半自动化识别阶段和方法知识元及其描述规则自动化抽取和更新阶段。第一阶段根据方法知识元的特征,以人工—机器相结合的方法识别方法知识元的组成维度及初始描述规则。第二阶段依据第一阶段识别的方法知识元初始描述规则,自动从科技文献中提取方法知识元,并基于PreFixSpan算法从新识别的方法知识元中挖掘出新的方法知识元描述规则,以实现方法知识元及其描述规则的动态更新。【结果/结论】在对16篇科技文献的初步评估中,实验结果P、 R以及F值分别为0.71、0.80和0.73（均＞0.5）表明该方法的可行性和有效性,该抽取方法对更细粒度的知识组织和检索也有一定借鉴作用。【创新/局限】方法的局限性在于需要一定的人工参与方法知识元描述规则的提取。相似文献

14.

基于多采样双向编码表示的网络舆情主题识别研究

下载免费PDF全文

孙靖超刘为军《情报科学》2021,39(7):147-152

【目的/意义】舆情主题识别一直是舆情领域的研究热点,如今已有丰富的研究成果。现有研究对舆情信息进行表征时多采用了传统的词袋模型、主题模型或词向量模型,只能对词语进行唯一的向量表征且传统模型需对文本分词,可能会因分词错误、数据稀疏、出现集外词等情况影响识别效果。【方法/过程】本文构建了一种基于多采样双向编码表示的网络舆情主题识别模型,在训练前无需对文本进行分词,针对文本过长的情况采用头尾结合的方式进行截断,从字、段、位置三个维度提取特征嵌入,通过自注意力机制进行舆情表征,在训练过程中使用区分性微调和多采样dropout的方法增强泛化能力,提升识别效果。【结果/结论】实验结果表明构建模型在舆情主题分类任务中表现良好,可以在不对文本分词的情况下实现对舆情主题的准确识别。【创新/局限】创新之处在于构建了一种新型的网络主题识别模型,局限之处在于算法复杂,如何进一步调参优化是接下来的研究重点。相似文献

15.

基于文本情绪分类的社交网络用户传播他人隐私信息行为研究

下载免费PDF全文

马达卢嘉蓉朱侯《情报科学》2023,41(2):60-68

【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。相似文献

16.

基于支持向量机和改进粒子群算法的科学前沿预测模型研究

下载免费PDF全文

徐路路王芳《情报科学》2019,37(8):22-28

【目的/意义】识别科学研究前沿主题,预测未来发展趋势。【方法/过程】首先利用主题概率模型识别出论文、专利及基金项目多源数据中的科学前沿主题;考虑研究前沿主题演化的复杂性和非线性的特点,利用机器学习算法和支持向量机模型预测主题发展趋势,并采用改进后的粒子群算法对模型参数进行优化,以提高传统支持向量机模型在处理非线性、小样本等数据上的预测准确度。【结果/结论】实验对比发现,本方法对于研究前沿主题的预测准确度较高,准确识别出石墨烯领域未来发展趋势。相似文献

17.

基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例

下载免费PDF全文

唐晓波王琼赋牟昊《情报科学》2022,40(10):3-11

【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标签确定的方法比较简单,可以进一步探究。相似文献

18.

面向南海叙事的事件要素自动抽取方法研究

程为司徒凌云郑德俊王燕红石进《情报科学》2023,(3):155-163

【目的/意义】对南海历史事件中具有标识意义的事件要素进行提炼与梳理，是构建南海大事记、讲好中国南海故事的基础。【方法/过程】首先总结南海历史事件的特殊性，进而论述南海叙事的具体维度，在此基础上定义事件要素划分标准实现对南海历史事件的规范建模，接着提出了一种结合规则与深度学习的事件要素自动抽取方法，最后以南海相关学术论文为对象，通过实证研究验证了该方法的有效性及效率。【结果/结论】研究表明，BERT+BiLSTM+CRF模型表现优于其它对比模型，宏观F1值达到87.73%；通过规则约束优化BERT+BiLSTM+CRF模型后，宏观F1值达到88.76%，取得了不错的效果，在面向泛化南海历史事件文本时能快速、有效地抽取出各类型事件要素实例。【创新/局限】结合南海历史事件的特征，探索了面向多维度南海叙事的事件要素自动抽取方法，实现学术论文中各类型事件要素的抽取，后续有待在更多文献资料类型上进行泛化实验。相似文献

19.

基于本体和Word2Vec的文本知识片段语义标引

下载免费PDF全文

唐晓波翟夏普《情报科学》2019,37(4):97-102

【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知识的文本信息组织提供了有益的参考。相似文献

20.

学术文献致谢功能数据集构建与识别方法研究

下载免费PDF全文

王佳敏吴乐艳李鹏程熊资陆伟杜佳《情报科学》2021,39(11):173-179

【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的考虑和融合。相似文献

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司京ICP备09084417号