首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 898 毫秒
1.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

2.
[目的/意义]从刑事二审案件裁判文书中挖掘上诉理由和相关影响因素,给法院和智慧量刑系统提供相关数据。[方法/过程]以北大法宝网近一年的刑事二审案件裁判文书作为基础数据,用信息抽取、word2vec训练词向量和聚类等文本挖掘方法对文本内容进行挖掘。[结果/结论]在传统的上诉理由之外,发现了基于上诉人自身态度的上诉理由。信息抽取、word2vec训练词向量和聚类等文本挖掘方法可用于裁判文书相关内容挖掘。  相似文献   

3.
面对自由无序的网络舆情信息,对舆情组织方式的研究体现出重要研究意义。文章提出一种网络舆情信息的组织方法,采用域加权的方式,通过一种single-pass增量算法聚类实现面向主题的舆情信息组织,即对新闻主题或新闻事件有较强表达能力的域进行加权处理以突出该主题或事件,再以无监督自动化的方式对无序的网络舆情信息进行聚类,进而发现热点话题,达到话题探测的目的。实验结果显示,聚类类簇均基于主题或事件,可以代表一个话题,F-measure评价值在85%以上,也进一步表明了本研究方法的有效性。  相似文献   

4.
张晗  赵玉虹 《图书情报工作》2016,60(11):135-142
[目的/意义]针对共词分析存在的普遍问题,提出一种基于细粒度语义分析的共词网络构建与分析方法。[方法/过程]借助SemRep实现源文本主题概念及其语义关系的规范化抽取并由此构建语义共词网络,然后以节点的中心度和边的频次为指标对内容特征词进行抽取,利用UMLS语义网络规定的语义搭配模式,通过概念-语义类型-语义类型组的两级映射,对语义述谓项进行类团划分。[结果/结论]通过与常规共词分析方法比较,发现基于细粒度语义关系的共词分析能有效地揭示文本主题内容,利用UMLS语义网络资源能从语义学角度清晰准确地对语义共词网络进行类团划分。  相似文献   

5.
杜慧平 《图书情报工作》2016,60(21):122-127
[目的/意义] 提出一种新的词族识别方法,用于构建语义工具和辅助检索扩展,以降低编表专家的认知负担,提高语义工具构建和更新的效率。[方法/过程] 首先通过同现统计和相似度计算建立学科领域的概念语义网络,再利用社会网络分析中的Island算法进一步识别该网络中的词族。并以金融学科为例,比较该方法与层次聚类算法、“词素后方一致”方法识别词族的效果。[结果/结论] 结果发现,Island算法的效果优于层次聚类算法,并与“词素后方一致”方法各具优势,可以结合使用,取长补短。  相似文献   

6.
介绍对Web空间和现实社会空间中的新闻事件演变进行可视化是一个新的研究热点。总结归纳文本可视化基本方法,并且结合成功的应用,提出应用在单个新闻事件、同时发生的新闻事件和先后发生的新闻事件上的新闻事件演变的可视化形式。指出综合利用基于词频、语义、聚类、时间序列的可视化技术是对新闻事件演变过程进行可视化展示的关键  相似文献   

7.
闫璐  杨刚  赵江元 《图书情报工作》2021,65(23):106-115
[目的/意义]提出和构建网络舆情观点团簇演化等级,以描述网络舆情受众的群体性观点的状态随时间与事态变化的演化程度,对于网络舆情导控与精准引导具有重要的理论及实践意义。[方法/过程]基于LDA与CNN神经网络构建网络舆情观点团簇演化等级测度模型,并以"翟天临知网事件"为实验对象,验证演化等级这一指标的有效性。[结果/结论]网络舆情观点团簇演化等级能够很好地体现网络热点事件群体观点状态的演化,在展现3个维度的属性数值同时也能反映观点团簇较前一时间节点状态的演化程度,提出的观点团簇演化等级测度结果精准地体现事件观点的各个演化高峰,为有关部门对网络舆情群体观点的靶向引导提供新的指导方向。  相似文献   

8.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

9.
[目的/意义] 探索微博舆情传播周期中不同传播者关注的舆情热点和传播内容的主要观点,进而发现舆情传播的特点和规律,为舆情分析与决策提供依据。[方法/过程] 以特定舆情事件的事实文本数据为来源,以生命周期理论和LDA方法为指导,设计研究流程与构建研究模型,对微博舆情事件中不同传播者的话题进行主题研究,其中包括主题抽取和结果语义标注、各阶段的不同传播者主题的语义分析、基于时间维度的舆情主题观点识别与刻画。[结果/结论] 研究发现,论文所提出的研究模型能够挖掘出舆情传播周期中不同传播者的主题结构、观点脉络以及特征,研判出分布在文字当中有关联性的、代表性的、重要的词语。同时,结论中还发现微博中的官媒、大众媒体发布信息中的话题和用户谈论的热点话题具有明显的差异性。  相似文献   

10.
[目的/意义] 针对现有弱信号全自动识别研究尚不完善的问题,提出基于LDA-BERT融合模型的弱信号全自动识别方法。[方法/过程] 基于无监督的LDA主题模型对文本数据集进行主题分类,构建主题和术语双层过滤函数从主题分类的结果中提取早期预警信号,通过紧密中心度、主题权重以及主题自相关性三大度量函数评价主题的弱性,并基于主题内术语的归一化频率和概率提取出弱信号。最后,运用BERT深度学习模型从语义层面对弱信号上下文及其类似词进行扩展。[结果/结论] 以2021年1月初疫情重爆发事件为例,使用爆发前三月的社交媒体新闻数据集对构建的系统模型进行验证。实验结果表明,该方法可有效检测出相关弱信号,并挖掘出弱信号随时间推移逐渐增强的演化特性。此外,该融合模型在实现弱信号全自动识别的同时,也表现出较单一模型更强的结果可解释能力。  相似文献   

11.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

12.
[目的/意义]针对目前基于网络的话题识别与分析方法的局限性,提出针对网络问答社区的话题识别与分析方法,为此类网站的话题识别与分析提供参考。[方法/过程]以改进的中文分词技术为基础,构建网络问答社区的话题识别指标,通过线性加权方式计算权重,结合关键词提取方法确定话题关键词,对话题关注焦点进行提取,对分布情况进行测度。依据所提出的改进方法,以知乎网站为数据来源,从话题关键词、关键词分布以及热点子话题3个角度对"老年人"话题焦点进行识别与分析。[结果/结论]研究表明,该方法具有科学性和可行性,不仅拓展了社会问题的分析数据源,也为"积极开展应对人口老龄化行动"提供了决策依据。  相似文献   

13.
[目的/意义] 快速、准确地从突发网络舆情文本中识别事件。[方法/过程] 提出一种融合句法特征和句法相似度的网络舆情突发事件识别方法。结合句法特征提出面向事件的句法特征提取方法,利用事件语义标注和句法特征提取方法构造事件句法特征库,通过计算待测文本与句法库的句法相似度来识别网络舆情突发事件。[结果/结论] 以新型冠状病毒肺炎疫情为例,所提出网络舆情突发事件识别方法在该舆情下的最优相似度为0.93,在此相似度下从一段新的文本中识别出160个事件和30个非事件,F1值达到了0.848。通过方法测评证明网络舆情突发事件识别方法在利用句法相似度识别事件和进行相同相邻词性合并等方面创新的有效性。  相似文献   

14.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

15.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

16.
[目的/意义] 为有效探测科技文献中潜在的研究热点,研究文献中关键词突发的特征条件,构建突发词识别模型对促进科研人员精确把握研究方向具有重要意义。[方法/过程] 获取各年度内关键词及词频,构建关键词-年度矩阵,将分析时间段划分为标准窗口、观察窗口和表现窗口,在观察窗口内利用多测度突发词探测模型识别具有突发特征的关键词;在表现窗口内利用LDA挖掘主题词汇作为热点词集合。设计突发词覆盖率指标,辅助滑动时间窗口法,计算不同时间窗口内突发词集合和热点词集合的覆盖率,验证模型识别准确性。[结果/结论] 3次滑动时间窗口,计算得到3次突发词覆盖率都在70%以上;与Citespace突发词的对照试验中,本模型3次覆盖率均大于前者,表明设计的突发词探测模型性能良好。  相似文献   

17.
[目的/意义] 通过量化计量指标对研究主题的知识扩散进行测度与分析,客观地展现研究主题所包含的知识单元的扩散路径及其扩散规律。[方法/过程] 以Web of Science(SCI-E&SSCI)数据库核心合集为数据来源,通过被引参考文献检索方法,以J.E. Hirsch 2005年首次提出H指数概念的文献为被引文献,检索2005-2015间引用该文献的施引文献,得到样本数据。借助信息可视化分析工具CiteSpace分别进行关键词共现与文献共被引分析。将分析结果通过本文所提出的双阶知识扩散度指标Q算法进行计算,得到指标Q量变情况,并进一步分析H指数研究领域的演化扩散状况。[结果/结论] H指数研究主题的知识扩散的相关性随着流动阶层的增加而降低;H指数研究主题一、二阶知识扩散文献的主要研究方向不同,二阶文献更侧重于应用领域的拓展,这也是该研究邻域知识流动的新增长点;通过对H指数研究主题的分析,证明了本文所提出的双阶知识扩散度指标Q的准确性及科学性。  相似文献   

18.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

19.
[目的/意义] 提出一种融合评论主题识别与技术属性多维度分析的技术机会发现方法,从技术需求驱动视角识别技术机会,为企业前瞻布局研发方向与进行科研管理规划提供决策建议支持。[方法/过程] 以产品在线评论为研究数据源,首先,利用LDA主题模型识别出评论技术主题,提出技术评论主题强度和主题新颖度两个指标,筛选出新兴重点技术评论主题。然后,从学术论文、技术专利中人工选取技术属性词,通过TF-IDF值计算得到评论高频词,结合专家知识进一步筛选出技术特征词,构建产品技术属性词-技术特征词表。通过相关性计算分别得到与评论相关和与新兴重点技术评论主题相关的技术属性。最后,提出一种产品重要技术属性识别指标模型并设计一种多维度分析方法,分析产品重要技术属性的特征情况,最终识别出蕴含在评论文本中的新兴技术机会。[结果/结论] 实验结果表明该方法能够有效地识别技术机会,为企业产品技术研发管理提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号