首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
提出一种研究话题演化的方法,利用LDA话题模型抽取科技文献的话题,通过计算话题的强度和特征词,研究话题的演化趋势。对NIPS论文集与ACL论文集进行实验,结果显示了机器学习领域以及计算语言学领域的一些发展状况,从而验证该方法的可行性。  相似文献   

2.
基于动态LDA主题模型的内容主题挖掘与演化   总被引:1,自引:0,他引:1  
指出文本内容主题的挖掘和演化研究对于文本建模和分类及推荐效果提升具有重要作用。从分析基于LDA主题模型的文本内容主题挖掘原理入手,针对当前网络环境下的文本内容特点,构建适用于动态文内容本主题挖掘的LDA模型,并通过改进的Gibbs抽样估计提高主题挖掘的准确性,进而从主题相似度和强度两个方面研究内容主题随时间的演化问题。实验表明,所提方法可行且有效,对后续有关文本语义建模和分类研究等具有重要的实践意义。  相似文献   

3.
随着互联网的发展,信息呈现指数级增长,随着微博等新闻自媒体的出现,新闻的数据量出现爆炸性增长。面对海量的文本信息,发现其中的话题特征并依据特征进行文本分类,可以有效提升用户性信息获取效率。本文通过采用LDA算法构建基础话题树,并在此基础进行话题的实时扩充和话题树的结构优化,可以有效地提升海量稿件话题聚类效率和效果。  相似文献   

4.
设计基于网络数据的时序主题演化系统Hot Topics Analysis System(HTAS),实现网络热点话题数据源自动定制、自动获取和自动存储。针对中文话题分析,HTAS集成了Google的开源分词系统IKAnalyzer,批量处理中文文档。采用LDA模型对网络热点话题主题进行提取,并利用时间标签发现热点话题,通过图标形式可视化展示其演化规律。通过"钓鱼岛事件"的实验证明,HTAS系统能快速获取、存储网络热点话题,并能有效地分析其演化趋势。  相似文献   

5.
社交平台是网民传达观点和情感的重要途径,分析社交平台话题分布及演化过程能够揭示舆情热点及传播发展过程,对引导公众舆论具有重要的参考作用。本研究利用网络社团演化的方法检测社交平台话题并分析其演化过程。首先,对用户发布的文本内容进行时间切片,构建时序共词网络并提取各时间切片的主干网络,利用Leiden算法检测社团来表示话题。其次,提出基于社团正向和反向转移概率及社团规模的话题演化事件检测方法,识别话题演化中的持续、增长、收缩、合并、分裂、新生以及消亡等事件。以新浪微博平台新冠肺炎疫情相关微博为例,在话题检测中发现,主干网络相较于原始网络能够检测到更多话题,话题内容区分粒度更细。在话题演化分析中,发现了公众情绪由消极转积极、防控和医疗工作专业化、国际疫情蔓延态势及疫情对经济的影响逐步扩大等演化路径。  相似文献   

6.
微博主题的演化分析会帮助用户快速准确地理解主题脉络结构、跟踪主题发展情况,并根据主题演化做出相应的预测.本文对概率主题模型LDA (Latent Dirichlet Allocation)进行了扩展,使其适合中文微博短文本的处理,并利用LDA建模结果对微博主题进行演化分析.为了体现不同时间片中主题演化的动态性,本文在使用LDA建模之前首先对每个时间片内最优主题数目进行确定,再通过LDA主题抽取结果,追踪不同时间片内主题的变化趋势,实现主题在内容和强度两个方面的演化分析.通过在真实微博语料库上进行实验,结果表明该方法不但可以较好地分析出同一微博主题随时间的强度演化规律,还可以描述主题内容的演化趋势.  相似文献   

7.
网络社区有影响力话题度量识别方法研究   总被引:2,自引:0,他引:2  
识别网络社区有影响力焦点话题是监测与引导网络舆情的基础。依据演化理论,构建网络社区话题演化分析模型,将话题贴及其回复关系视为话题贴吸收他人言论营养、聚集能量发挥作用的过程。主要通过筛选话题影响力测度指标,计算话题的营养值,将营养值转换为能量值,籍此发现有影响力的焦点话题,以形成网络社区有影响力话题度量识别方法,并采用实验法验证本文方法的有效性和合理性。  相似文献   

8.
[目的/意义]探究中国政府网"一带一路"相关新闻的话题内容及热度变化,呈现"一带一路"倡议主题及动态,明确不同时期的倡议重点,为相关研究提供参考。[方法/过程]构建基于LDA模型的新闻话题内容的基本框架,限定2015-2017年"一带一路"相关新闻数据,利用LDA模型进行话题抽取,根据文档与话题的概率分布计算,分析各主题在不同时间段的热度演化。[结果/结论]抽取得出30个细分话题,归纳为政策沟通、设施联通、贸易畅通、资金融通、民心相通、"一带一路"对我国经济的影响和政府工作7大类。其中,政策沟通类在全时间段上热度最高,贸易畅通和"一带一路"对我国经济的影响两类话题紧随其后。"进出口"等细分话题的热度不断上升,"改革与转型"等细分话题的热度则有下降,体现了官方媒体新闻内容及其关注度随时间而变化的特点。  相似文献   

9.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

10.
在海量数据背景下,针对社交网站中队成员关系、话题热度及内涵的价值倾向等评价问题,提出一个基于LDA的两阶段社交网站自动量化评价模型。首先通过LDA方法将文本内容映射到主题空间,依据文本所属主题和用户特征来剔除垃圾信息;对于筛选出的信息,从用户、话题和社区三个角度提出一个新的社交网站的量化分析方法。最后,通过对西祠胡同的实验分析验证该模型的有效性和可行性。  相似文献   

11.
基于主题地图的文献组织方法研究   总被引:3,自引:1,他引:2  
吴江宁  田海燕 《情报学报》2007,26(3):323-331
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。  相似文献   

12.
黎楠  杜永萍  何明 《情报工程》2015,1(3):090-097
LDA 主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA 建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档- 主题-词的三层LDA 模型变为专利数据中的发明人- 主题- 词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。  相似文献   

13.
王平 《图书情报工作》2014,58(22):70-77
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用.针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型hLDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词.最后,利用先/后离散分析方法研究主题随时间的演化问题.实验结果验证了主题发现及演化方法的可行性及有效性.  相似文献   

14.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

15.
[目的/意义]分析中国国内基于主题模型的科技文献主题发现及演化研究进展,以期为相关研究人员提供参考借鉴及研究思路。[方法/过程]选取中国知网(CNKI)数据库及万方数据知识服务平台作为文献来源,检索并筛选相关文献,通过人工判读提炼出基于主题模型的科技文献主题发现及演化研究的分析流程,并采用文献分析法对流程中国内研究人员所使用到的策略、方法、分析手段等进行归纳和总结。[结果/结论]研究已初具规模,形成较为完整的分析流程,同时各个流程环节上所涉及到的策略、方法和分析手段较为多样化。另外,也存在着一些问题:主题模型方法在科技文献领域的应用尚且不成熟,主题数目固定,缺少对主题模型应用效果的评价方法与准则。  相似文献   

16.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号