首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
[目的/意义]系统归纳梳理LDA模型的应用过程与应用领域,为图情领域LDA模型研究提供参考。[研究设计/方法]以Web of Science核心集、LISA、Google Scholar、中国知网、维普和万方等为数据源,检索图情领域LDA模型的研究文献,通过内容分析构建了LDA模型应用研究分析框架,从模型应用过程的视角对国内外研究现状进行系统地总结归纳。[结论/发现]LDA主题模型研究已经形成较为成熟的分析流程,已应用在主题探索、知识组织、学术评价、情感分析等很多领域,但是在应对大数据、多模态数据等复杂处理任务,提升建模结果的语义质量,扩展模型应用等方面还亟待加强。[创新/价值]基于LDA模型的应用过程,细致揭示了图情领域LDA模型应用研究存在的问题和发展方向。  相似文献   

2.
3.
为研究社会公众对档案的关注度和认同度,分析档案社交媒体形象,论文采集新浪微博的档案主题文本,通过高频词分析、LDA主题聚类和情感分析,揭示档案主题内容和用户情感倾向.研究结果表明:社会公众对档案的关注度较高,档案价值主体不断扩展;多数档案主题微博具有积极情感,社会公众对档案的认同度较高;少数档案主题微博具有消极情感,档案社交媒体形象有待优化.  相似文献   

4.
从主题模型的视角出发,以文本挖掘的手段分析我国十年来有关共享科研数据的文献研究主题演化情况以及热点主题,促进在突发公共事件过程中科研数据共享行为更加合理,让科研数据最大化发挥自身的价值,为今后国内共享科研数据的研究提供借鉴和参考。结合本文的实际研究需求,在中国知网中选取2010到2019年涉及共享科研数据的文献作为研究数据集。使用LDA主题模型对其中的摘要部分进行文本挖掘,在对文本进行预处理的基础上识别出其中所包含的若干主题,分别测定不同主题在不同时间段内的强度,识别出热点主题,并根据强度的变化对主题进行分析。近十年来相关文献共计有32个研究主题,其中14个热点主题,"数据出版""数据共享能力""国内积极促进"3个主题呈现上升趋势,11个主题呈现出下降趋势。对于国内共享科研数据的规范性、国际交流之间的频繁性有所上升,高校图书馆也在其中起到了巨大的推动作用。但是也应该注意在共享科研数据过程中客观存在技术上的障碍、整体社会环境的发生变化要求科研数据共享程度进一步加深、不同数据主体之间共享意愿的巨大差异,如何弥补差异、克服障碍、让科研数据的共享与社会环境的变化结合起来是今后应当重点研究的主题...  相似文献   

5.
管雨翔  王娟  张鹏 《情报工程》2023,(6):105-116
[目的/意义]研究涉警网络舆情主题特点及网民情感变化,可以为构建良好的警民关系和警察形象提供参考,具有重要的社会意义和实际价值。[方法/过程]获取微博平台涉警网络舆情数据,使用LDA主题模型及TF-IDF算法对网络舆情数据进行主题发现研究,基于Word2Vec模型构建涉警网络舆情领域情感词典,进而对网民情感进行分析。[局限]在案例选取及分析方面不够全面。[结果/结论]通过LDA主题模型及TF-IDF算法可以使主题划分更为明显,基于领域情感词典的情感分析也较为准确,更好地反映出舆情传播过程中热点话题及网民情感的变化。  相似文献   

6.
[目的/意义]突破性创新对科技发展具有关键作用。大数据环境下,科学技术发展本身所具有的复杂、多维、不断进化等特征越发凸显。以动态视角进行突破性创新主题识别,对于为国家、企业及高校详析突破性创新领域、合理配置创新资源以及提供创新升级解决方案具有重要意义。[方法/过程]综合运用主题模型、词嵌入算法以及复杂网络分析等方法构建动态主题网络,全面考量主题在时间窗口内的结构特性以及时间窗口间的演化状态,并以其为基础结合突破性创新的新颖性、突变性、影响力和学科交叉性特征识别突破性创新主题。[结果/结论]面向区块链领域展开实证研究,识别出神经网络(Neural Network)和边缘计算(Edge Computing)两个主题的突破性创新特征最为显著。结合区块链现有研究及美国国家科学技术委员会发布的关键和新兴技术清单,验证了本文方法的可行性和有效性。但有关结果的定量验证,以及融合多源数据的突破性创新主题识别有待进一步研究。  相似文献   

7.
在中国知网中以“智慧阅读”或“智能阅读”为检索词进行主题词检索,将得到的313篇文献的摘要作为LDA主题模型的原始语料,通过模型训练得到国内智慧阅读研究热点,即智慧阅读技术研究、智慧阅读平台、智慧阅读用户服务、智慧化读物供给、智慧图书馆建设、智慧阅读评价、智慧阅读推广。LDA模型在热点主题识别方面具有准确性,有利于研究者把握该领域的发展状态,确定未来研究方向。今后,智慧阅读研究应在智慧阅读技术研究、智慧阅读平台研究、智慧阅读用户服务研究、智慧化读物供给研究、智慧图书馆建设研究、智慧阅读评价研究、智慧阅读推广研究给予足够关注。  相似文献   

8.
[目的/意义]梳理LDA主题模型提出以来的国内研究现状,总结其研究趋势和发展情况,为进一步在情报学领域利用该模型进行研究提供参考和借鉴。[方法/过程]在CNKI中进行相关检索,得到符合要求的文献作为数据集,从年度发文量、高产出作者、高产出机构、作者之间的合著情况、高产科研机构之间的合作情况、文献来源情况以及相关文献的关键词之间的共现情况等方面进行分析,并通过可视化软件进行结果展示。[结果/结论]从年度发文量来看,LDA主题模型的研究论文呈现出数量逐步上升的趋势,说明进行该模型的有关研究具有一定的可行性;结合高产出作者和作者之间的合著情况来看,LDA主题模型的有关研究更加趋向于计算机相关领域;从高产出机构的情况来看,地理位置在东部和南部的相关科研机构更容易在LDA主题模型的有关领域占据领先位置,985、211以及双一流高校凭借自身优势更容易获得科研资源,产生出大量成果;从关键词之间的共现情况来分析,以LDA为主要出发点开展相关研究,主要涉及到主题模型和主题挖掘内容,这一点可以和大数据背景下的情报领域相关发展结合起来。  相似文献   

9.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

10.
阮剑  杨海霞  黄瑱 《情报工程》2017,3(4):039-047
大数据时代下,运用文本挖掘技术自动从海量科技文献中提取研究主题并探测研究趋势十分重要。基于LDA 主题模型,考虑科技文献的发表时间信息,对优秀“综合性科学技术”类大学学报2006-2014 期间刊载的计算机科学类文献进行主题内容和主题强度分析;同时基于计算机专业期刊文献,进行研究趋势探测。本文从25 个研究主题中得到7 个强度增强的研究主题和6 个强度减弱的研究主题,揭示大学学报文献中我国高等院校对计算机科学领域的研究状态。通过对数据进行挖掘和分析,了解我国高等院校在计算机科学研究领域的研究趋势,帮助从事该领域研究的学者寻找新兴研究主题,有助于大学学报在定向组稿和学术专辑出版中,把握学术热点与前沿方向,进而提高学报的影响力。  相似文献   

11.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

12.
《新闻界》2021,(9):4-13
数字新闻学正在成为新闻学的主流范畴,研究文献也与日俱增,时至今日,有必要对数字新闻学的整体发展状况和知识脉络进行梳理、总结与反思。本研究以Webof Science核心数据集作为数据来源,借助Python工具训练LDA主题模型,使用困惑度评价指标确定主题数量,并使用主题强度分析研究热点和变化趋势。具体来说,本研究根据主题-词项概率分布,对获得的1325条文献摘要进行主题标识,抽取出了数字新闻学研究在1998-2021年的18个重要研究主题;根据文档-主题概率分布,引入时间维度计算主题强度分布。研究发现,包括数字技术的角色、新闻用户的主动行为、传统新闻理念的变迁、新闻学学科发展等研究主题都保持了相对稳定和上升的趋势,新闻职业身份、新闻学研究方法等少量主题呈下降趋势,但也仅仅是一种弱下降。具体而言,有7个主题的强度呈上升趋势,有5个主题的强度呈弱下降趋势,有6个主题的强度趋于平稳状态。数字新闻学在2021年及未来的研究中正呈现出主题越来越综合化的趋势。  相似文献   

13.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

14.
15.
张培晶  宋蕾 《图书情报工作》2012,56(24):120-126
在介绍概率主题模型发展过程以及概率主题模型的代表性模型LDA基本原理的基础上,分析LDA模型的特征及其用于微博类网络文本挖掘的优势;介绍和评述微博环境下现有的基于LDA模型的文本主题建模方法,并对其扩展方式和建模效果进行总结和比较;最后对微博文本主题建模的发展方向进行展望。  相似文献   

16.
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。  相似文献   

17.
基于LDA模型和微博热度的热点挖掘   总被引:3,自引:0,他引:3  
分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。  相似文献   

18.
[目的/意义]改善现有专利技术主题分析方法主题辨识度低、主题词二义性、无法识别技术信息中的"问题"与相应"解决方案"等问题。[方法/过程]本文通过抽取专利文本中的SAO结构,并从SAO结构中识别"问题和解决方案"(P&S)模式,基于"bag of P&S"假设,构建基于"主语-行为-宾语"(subject-action-object,SAO)结构的LDA主题模型,实现对专利文献主题结构的识别和分析。[结果/结论]案例研究表明,该方法能够有效识别主题分布,并在主题辨识度和语义消岐方面较传统LDA模型具有较大优势。  相似文献   

19.
本文探究网络舆论对伊朗突发新闻的关注热点,进而透过社交媒体分析网络舆论对国际热点事件的关注倾向.以含有关键词"伊朗少将遇袭"、"伊朗导弹袭击"和"伊朗"的所有微博作为研究数据,基于词频统计和LDA主题模型提取主题,从文本特征角度分析网络舆论对伊朗局势的关注热点.本研究对基于新浪微博数据检索到的文本内容进行分析发现,网络...  相似文献   

20.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号