摘 要: | 当前,政府从各层面采取了一系列措施推进政务信息公开,已经取得了阶段性成果。实践工作中,政府网站平台发布的开放公文缺少主题分类、标注不一致间题成为阻碍政务信息开放利用的技术瓶颈。如何精准地、一致地对现有政府平台的海量政务公文进行主题分类标注,使其能为深度检索、推荐服务提供支撑,是函待解决的关键问题。在深入调研的基础上,一套自动化的针对政府开放公文的主题分类方法被提出,该方法以CNN-LSTM模型为基础,融合预训练BERT模型的语义特征,能精准的对政府开放公文进行主题分类。模型针对主题分类预测的整体准确度(Accuracy)为63.52%,最佳的F1-value可达到63.59%,为解决政务公文主题分类标注缺失问题提供了可行方案。该方法可以与信息检索、推荐结合,为公众提供更具精准度的政府公文服务。
|