首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Spark的旅游舆情热点发现方法研究
引用本文:黄凌子.基于Spark的旅游舆情热点发现方法研究[J].信息系统工程,2023(1):14-17.
作者姓名:黄凌子
作者单位:三峡大学计算机与信息学院
摘    要:传统的基于BTM的话题发现方法未考虑大数据条件下,海量短文本中热点话题发现存在的时效性限制问题。基于Spark计算框架、BTM模型和K-means算法,提出了并行旅游舆情热点话题发现算法,通过对旅游评论、微博短文本集的词对生成、文档-话题分布矩阵、文档相似度计算及聚类过程进行基于Spark框架的并行化,缩短了热点话题的发现时间,提高了实时性。实验结果显示本算法加速比和扩展性相比单一BTM模型能进一步提升,适用于旅游舆情热点话题发现的应用需求。

关 键 词:并行计算  话题模型  短文本  聚类  NLP
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号