基于Spark的旅游舆情热点发现方法研究 |
| |
引用本文: | 黄凌子.基于Spark的旅游舆情热点发现方法研究[J].信息系统工程,2023(1):14-17. |
| |
作者姓名: | 黄凌子 |
| |
作者单位: | 三峡大学计算机与信息学院 |
| |
摘 要: | 传统的基于BTM的话题发现方法未考虑大数据条件下,海量短文本中热点话题发现存在的时效性限制问题。基于Spark计算框架、BTM模型和K-means算法,提出了并行旅游舆情热点话题发现算法,通过对旅游评论、微博短文本集的词对生成、文档-话题分布矩阵、文档相似度计算及聚类过程进行基于Spark框架的并行化,缩短了热点话题的发现时间,提高了实时性。实验结果显示本算法加速比和扩展性相比单一BTM模型能进一步提升,适用于旅游舆情热点话题发现的应用需求。
|
关 键 词: | 并行计算 话题模型 短文本 聚类 NLP |
|
|