首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 13 毫秒
1.
基于聚类的网络舆情热点发现及分析*   总被引:9,自引:0,他引:9  
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。  相似文献   

2.
微博主题发现研究方法述评   总被引:1,自引:1,他引:1  
[目的/意义]对现有微博主题发现的研究文献进行全面的梳理和评述,为研究人员深入开展相关研究提供借鉴。[方法/过程]针对传统的主题发现的基本原理和主要研究方法,分析微博文本的组织特征,从基于短文本特征和基于非文本特征的这两个角度对微博主题发现方法进行梳理,并对两类方法进行详细的阐述及特点分析,最后对微博主题发现研究的发展趋势进行展望。[结果/结论]目前微博主题发现的研究还处于探索阶段,未来应该继续深化理论探索、创新研究方法。  相似文献   

3.
常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题.因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性.本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势.实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善.  相似文献   

4.
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Allocation)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。  相似文献   

5.
为了有效处理文本中的复杂语义问题,提出了一种基于领域本体的SOM文本逐层聚类方法.该方法基于领域本体的概念及其逻辑语义关系,将文本向量的表示从词的层面上升到主题概念层面,大大消减了文本向量的维数,提高了聚类效率.基于领域本体的概念层次关系,采用SOM算法实现文本的逐层聚类,以分层方式组织文档,方便用户由粗到精、由总体到局部地查阅文本集.通过无人机领域的Web文本聚类实验,验证了该方法的有效性.  相似文献   

6.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

7.
[目的/意义]作为城市化进程中的"顽疾",群租房屡禁不止,群租房引发的社会问题层出不穷。这一系列问题引发了微博热议,群租房微博舆情文本分析有助于获悉群租房存在的问题,从受众角度探讨政府群租房治理成效。[方法/过程]利用网络大数据爬取与分析技术,以群租房为研究对象,通过文本聚类分析与情感分析,进行热点评估,补充现有文献中忽视的群租房治理舆论研究。[结果/结论]研究发现,微博网民对群租房话题的关注明显呈波动趋势,讨论话题主要包括群租房产生的社会问题、政府对群租房的整治行动评价以及透过群租房现象折射出的中低收入群体的焦虑感。大多数微博网民在舆论场中的情感趋势为负面,认为有必要对群租房展开治理。本文的创新之处在于分析政府治理群租房所面对的舆论环境,并将其可视化呈现,为政府深入了解民情,制定适应民意的政策作铺垫。  相似文献   

8.
基于主题地图的文献组织方法研究   总被引:3,自引:1,他引:2  
吴江宁  田海燕 《情报学报》2007,26(3):323-331
网络信息的膨胀导致了文献检索的困难,而检索效率的提高则依赖于其组织方法的改善。主题地图是适应信息资源的网络化而出现的一种新的组织技术,可以较好地解决大量无序、非结构化信息的组织问题。本文提出一个基于主题地图的多层文献组织模型(TMDOM),通过从文献内容中概化出主题并定义主题之间的关联,将领域内主要的概念及其关联以合理的层次结构体现出来,以实现对文献资源的有效组织。试验结果证明了这种组织方法的优越性,通过主题之间的各种关联,实现了有效的信息导航。  相似文献   

9.
搜索引擎发展阶段研究及热点发现   总被引:4,自引:0,他引:4  
随着信息检索、数据挖掘、自然语言处理和机器学习等多领域的理论和技术的发展,搜索引擎技术得到了迅猛的发展和广泛的应用。本文旨在对搜索引擎的发展阶段进行分析,给出搜索引擎技术的发展概貌。基本思想是,一方面利用文本的有序聚类方法对搜索引擎的发展过程进行有序划分,并在此基础上对各个发展阶段的主要特点进行分析;另一方面通过基于词频的统计分析,深入挖掘搜索引擎技术和信息检索技术方面的研究热点,并对其进行分析和总结。  相似文献   

10.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。  相似文献   

11.
基于Single-Pass算法思想,研究网络话题的在线聚类方法,以期及时捕捉网络信息的动态变化在分析该方法聚类流程的基础上,重点研究网络动态信息流的文本特征抽取和权重计算方法,以及话题类表示和更新等关键问题,设计实验对比分析不同的标题中特征加权系数、特征权重计算和标准化方法以及话题类向量维度对话题聚类质量和时间效率的影响。  相似文献   

12.
信誉管理系统在促进顾客对电子零售商的信任过程中起着越来越重要的作用,它是电子零售商取得成功的重要因素和保证。顾客的文本评论是信誉管理系统的一个重要组成部分,其中蕴含了大量的零售商的实际交易和信誉信息。本文从顾客文本评论的视角,采用文本挖掘技术对大量的顾客评论进行文本聚类,通过分类整理和知识提取,以期找出顾客最关注的电子零售商的信誉维度。本研究选取国内最大的IT专业网站——中关村在线作为研究对象,通过一个应用实例详细说明了通过文本聚类发现电子零售商信誉维度的方法和过程。本研究对电子零售商的信誉维度知识发现具有重要意义,也能为电子零售商提高服务质量提供参考。  相似文献   

13.
基于信息可视化技术的文本聚类方法研究   总被引:4,自引:0,他引:4  
杨峰  周宁  吴佳鑫 《情报学报》2005,24(6):679-683
信息可视化是信息管理和信息系统的热点研究问题。随着网络技术的发展,充分有效地利用丰富的文本资源成为人们关注的焦点。文本聚类是处理文本的重要方法之一。本文在分析现有文本聚类方法的基础上,结合可视化技术解决该类问题的一般过程,给出了一个基于非线性映射实现的可视化技术进行文本聚类的方法,并通过案例说明该方法的特点,指出它与目前流行方法的不同以及其优势所在。  相似文献   

14.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

15.
自动文本摘要中一个关键的步骤是确定文章的主旨并将反映文章主旨的句子提取出来.在讨论分析k-means, k-medoids等聚类算法的基础上,根据对文本摘要的实际要求以及文档自身的特点,提出一种基于聚类算法的主旨句提取方法.实验结果表明,在提高聚类准确性的基础上,新方法较其他聚类算法能够更加有效地避免遗漏主题的问题,能较全方位地反映全文的主旨,提取出的摘要既覆盖全面又突出重点.  相似文献   

16.
网络舆情衍进指数构建与实证分析   总被引:1,自引:0,他引:1  
[目的/意义]提出和构建网络舆情衍进指数,以描述网络舆情演化过程中常衍生出新的子话题的现象,对于舆情预警、预测具有重要的理论及实践意义。[方法/过程]以文本聚类结果和文本聚类有效性为依据,提出网络舆情衍进的判别标准和舆情衍进指数的构建过程,并以"教科书老赖"这一事件作为样本数据进行实证分析。[结果/结论]所构建的舆情衍进速率指数可以用于描述舆情衍进。在突发期阶段话题舆情衍进指数最高,此后逐渐下降,这一阶段的舆情衍进最为剧烈,子话题的出现呈现爆发性增长;舆情衍进指数在舆情蔓延期内出现阶梯式下降,此后保持为负值,舆情的子话题开始逐渐减少,舆情内容本身由发散转为收敛;进入消散期后,子话题数量趋于稳定。作为舆情衍进速率的测度和舆情衍进的判别方式,舆情衍进指数为舆情监管和舆情预警提供了全新的角度。  相似文献   

17.
基于链接网络图的互联网舆情话题跟踪方法   总被引:1,自引:1,他引:0  
互联网舆情演化具有的衍生性和动态性特点,使得舆情话题的跟踪分析相当复杂.为了及时、准确地跟踪舆情的衍生话题,本文在分析网页间的链接关系与网页内容关联性的基础上,提出了舆情演化的链接网络图概念,以及网络图中节点与舆情话题的相关度计量和更新方法,基于此提出了基于链接网络图的舆情话题跟踪方法.实验结果表明,基于链接网络图的舆情话题跟踪方法能够在保持较高准确率的前提下,显著地提高舆情话题跟踪的召回率,并能够从网页的链接中发掘出与舆情话题相关的网页.  相似文献   

18.
由于微博简单迅捷、互动性强的特点,使其成为信息沟通的桥梁和纽带,成为突发事件的重要信息源头,也成为虚假信息滋生的温床。因此,加强微博舆情监测、分析、预警具有十分重要的意义。本文阐述了基于Web文本信息抽取方法,以及基于文本抽取的舆情分析技术,为用户掌握舆情动向、趋势强弱变化,进行热点、敏感信息预警与决策提供支持。  相似文献   

19.
随着互联网的发展,信息呈现指数级增长,随着微博等新闻自媒体的出现,新闻的数据量出现爆炸性增长。面对海量的文本信息,发现其中的话题特征并依据特征进行文本分类,可以有效提升用户性信息获取效率。本文通过采用LDA算法构建基础话题树,并在此基础进行话题的实时扩充和话题树的结构优化,可以有效地提升海量稿件话题聚类效率和效果。  相似文献   

20.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号