基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 |
| |
引用本文: | 吴树芳,杨强,侯晓舟,尹萌.基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究[J].情报杂志,2023(11):119-125. |
| |
作者姓名: | 吴树芳 杨强 侯晓舟 尹萌 |
| |
作者单位: | 1. 河北大学管理学院;2. 河北大学外国语学院 |
| |
摘 要: | 研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F1值上均有一定提高。
|
关 键 词: | 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 GuidedLDA Word2Vec |
|
|