首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

2.
主题模型在机器学习领域已成为研究的一大热点问题.本文系统阐述LDA(Latent Dirichlet Allocation)主题模型参数估计和Gibbs抽样算法,介绍常见的LDA改进和扩展模型,最后分析LDA模型在文本挖掘领域的应用情况.  相似文献   

3.
在短文本聚类模型中,传统LDA模型没有考虑文本与主题之间的联系.提出一种具有判别学习能力的LDA模型,在LDA-λ模型中将二项分布引入LDA基础模型,增加词项的判别能力.对模型进行理论分析与对比试验,结果表明,基于改进的LDA模型精确度(ACC)、归一化互信息(NMI)和成对F测度值(PWF)比较高,分别达到0.738...  相似文献   

4.
结合用户兴趣与新闻时效性的特点,对传统推荐算法和标准LDA主题模型进行思考,提出一种基于LDA(Latent Dirichlet Allocation)的文档-主题-词的三层贝叶斯概率模型结合时间函数的推荐算法,采用Gibbs Sampling进行超参数推导,提升推荐效果.实验结果表明,该算法在适当参数设定下的推荐结果...  相似文献   

5.
为确定歌词隐含的情感主题对音乐分类的作用,在传统主题模型中融入情感、语义元素,定义基于情感主题的音乐分类标准并进行音乐分类。结合文本情感词典、Word2vec词向量空间,将主题模型的基础主题进一步归类为情感主题,并通过爬取网易云音乐歌曲信息进行模型训练及测试。实验证明,该模型具有较好的分类效果,对音乐情感分类平均准确率达到80%。  相似文献   

6.
构建切实有效的产业创新生态系统,对国家创新能力建设具有重要的实践意义。文章以“产业创新生态系统”作为关键词在知网上检索,以2005—2021年作为研究区间,运用LDA主题模型抽取文献中隐藏的主题结构,计算主题强度值,在此基础之上绘制主题热度图和主题强度演化折线图,最后结合国内产业创新生态系统研究的实际情况和相关政策,进行主题语义深度挖掘,分析该领域未来研究趋势。研究发现:1.协同创新成为国内产业创新生态系统研究的热点主题;2.产业创新生态系统研究逐渐从理论维度向应用维度转移;3.生态学理论与模型相结合的实证分析成为新的研究方向。研究结论对于国内产业创新生态系统相关研究具有一定的参考价值。  相似文献   

7.
教育元宇宙作为元宇宙的教育应用前景广阔,对相关文献进行系统分析有助于推进其应用向纵深发展。基于LDA主题模型和人工内容分析对关于教育元宇宙的130篇核心期刊文献进行系统梳理后发现,我国教育元宇宙研究主要围绕基本理论、批判审视、思政教育应用、学习赋能、场景创设、技术支撑、模型构建等7个主题展开,为教育元宇宙建构学理支撑、凝聚理性共识、铺筑可为进路、筑牢技术基座和汇聚多维创想积淀了丰硕成果。基于此,未来教育元宇宙还应从顶层设计、关系廓清、伦理规约、技术向善、场景拓展等5个方面着力:探赜教育元宇宙顶层设计研究,统筹教育元宇宙系统构建;完善教育数字化转型与教育元宇宙逻辑关系研究,驱动两大领域协同演进;深入教育元宇宙伦理规范研究,促进教育元宇宙健康发展;夯实教育元宇宙意识形态属性研究,保障教育元宇宙向善属性;拓展教育元宇宙应用场景研究,牵引教育元宇宙实践落地。  相似文献   

8.
为改善传统个性化推荐算法精准度不高的问题,使用评论数据作为数据集,先对评论数据作文本预处理和特征提取,然后使用LDA主题模型对文本特征数据建模,得到主题词分布,将其作为标签,同时使用LSTM网络作文本分类,通过计算得到好评率。最后把用户需求和标签利用潜在语义标引计算相似度,根据相似度和好评率大小向用户推荐结果。实验结果表明,该方法能够向用户推荐符合其兴趣的个性化需求信息,且准确率高于96%,证明了该推荐算法的有效性。  相似文献   

9.
为解决中药材相关专利分类粗泛性、热点研究领域不明确的问题,提高其主题分类时效性和科学性,分析明确中药相关热点领域。通过引入LDA主题模型对中药材相关专利内容进行分析,对中药专利主题进行划分,以中药材“三七”为例,使用1万条专利数据进行实验。实验结果表明,专利主体得到明确划分,实现了热门研究领域分类。基于LDA主题模型方法分析中药相关专利,实现中药专利领域主题细分、热点子领域判断,揭示了中药专利热门研究领域,实现了中药相关产业未来发展趋势的预测。  相似文献   

10.
大数据时代信息量急剧增长,伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息,提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型,得到句子的概率模型即文档中句子的重要性,然后考虑运算节点权重时的主题概率,得到新的迭代公式,通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明,该方法生成的文摘较单一算法效果显著。  相似文献   

11.
12.
13.
14.
高等学校具有人口密度大、社会关注度高、突发事件发生风险高的特点,这对突发事件处置背景下的高校管理决策提出了新的要求。以新冠肺炎疫情为例,文章通过网络爬虫技术爬取N大学新闻网上的疫情相关文本,利用LDA主题模型挖掘出文本数据的9个锚点——师生投身抗疫、服务学生、心理健康保障、国内外学术交流、反馈社会、高校智库、学科建设和学术研究、线上线下融合教学、组织建设,分析突发公共卫生事件处置背景下每个锚点的现状和演化趋势,并据此勾勒出面向突发事件的高校管理体系,这对于提升高校突发事件应对管理水平具有重要意义。  相似文献   

15.
近年来,随着深度学习技术在自然语言处理任务中的广泛应用,语言模型规模越来越大.然而,大规模模型推理速度慢、资源消耗成本高,难以在工业上进行应用,小规模模型又难以达到大规模模型效果.因此提出一种基于教师—学生框架的知识蒸馏模型,以预训练模型BERT作为教师模型,以长短时记忆网络(BiLSTM)等小模型作为学生模型,通过教...  相似文献   

16.
评论文本中的词符合幂律分布,使LDA模型词的分布偏向高频词,导致主题相似度大,表达能力下降。提出幂函数加权LDA(Latent Dirichlet Allocation)模型以提高低频词的表达能力。使用iForest算法,选择出与众不同且具有价值的评论集合。实验结果表明,选择的评论子集特征覆盖率较高,且有较高的平均信息量。  相似文献   

17.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

18.
职业教育法是规范与调整职业教育活动的基本行动准则。面对社会阶层固化、职业教育发展不均衡及企业差异化制约办学质量的困境,德国于2019年颁布了新版《职业教育法》。此研究以德国《职业教育法》(2019版)为研究对象,运用LDA模型对德国职业教育法案主题关键词、热度、强度、聚合程度及它们之间的关系结构进行深入分析。研究发现,该法案围绕着职业教育考试、职业教育规划、职业教育管理与监督机制开展、职业教育学习者以及职业教育保障与决策五大维度展开,主题热度与强度聚焦于解释职业教育中学习者与提供者之间的关系,主题关联性则紧扣职业、教育、主管与考试四方面。德国《职业教育法》(2019版)对我国职业教育未来发展的启示:培养具有生命自觉的职业人,建立知识与实践相统一的职业教育。  相似文献   

19.
LDA模型对长文本聚类有优势。将微博文本按一定规则构建长文本,根据文本中隐含的丰富语义信息,将SVM模型与LDA模型相结合,利用K Means算法聚类。实验结果表明,SVM和LDA相结合的模型,明显提高了聚类质量和稳定性。  相似文献   

20.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号