首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

2.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

3.
林丽丽  马秀峰 《情报科学》2019,37(12):87-92
【目的/意义】为了解近年来图书情报研究的热门主题及其演化趋势,利用LDA模型进行文本挖掘。【方法/ 过程】选取CNKI作为检索数据库,以2006年至2017年图书情报学领域10本核心期刊中的论文摘要作为研究数 据,借助开源工具JGibbLDA构建LDA模型,运用困惑度来确定模型主题数目,根据主题-词项分布文件进行主题 标识,根据文档-主题分布文件计算主题强度。【结果/结论】2006年至2017年图书情报学领域有20个研究主题,其 中比较热门的主题有7个; 8个主题的强度呈上升趋势, 9个主题的强度呈下降趋势, 3个主题的强度变化幅度较小。  相似文献   

4.
张雷  谭慧雯  张璇  韩龙 《情报科学》2022,40(3):144-151
【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传 播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造 假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最 优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演 变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要 主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创 新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、 分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究 内容。  相似文献   

5.
【目的/意义】由于信息总量的巨大和用户矩阵的稀疏,LDA模型在微博信息推荐过程中短文本处理能力 差的缺点被放大。【方法/过程】本文利用大数据技术处理海量信息的优势,探讨大数据与 LDA主题模型融合的可行 性,构建出了大数据技术与 LDA融合的推荐模型,实现在利用大数据技术对海量文本预处理的基础上基于 LDA模 型的微博信息推荐,解决微博信息推荐查全率和查准率差的问题。【结果/结论】通过 Hadoop平台上的实证分析表 明,融合模型可有效的降低混淆度和提升微博信息推荐精度,有利于实现信息的个性化和定制化推荐。  相似文献   

6.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

7.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网 络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对 措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用 SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别 模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为: 经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用 LDA主题模型和 Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新 闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态 文本数据库,对分类算法进行改进和深化。  相似文献   

8.
【目的/意义】随着LDA模型成为微博信息推荐的主要工具,众多的LDA演化模型的使用问题成为研究者 亟待解决地问题。【方法/过程】首先,从演化发展角度对LDA模型运行机理进行了解析,揭示了模型使用的先决条 件和算法内涵;其次,从不同需求的视角揭示了RB-LDA、RT-LDA、C-LDA、MB-LDA等扩展模型对LDA模型的 功能性补充;最后,提出LDA模型的技术演化方向。【结果/结论】结果表明可利用微型本体来提升语义性、利用多种 模型融合来提升精度、利用大数据来提升数据质量是LDA模型未来的演化方向,可使LDA模型信息推荐能力的更 具个性化和精准化。  相似文献   

9.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

10.
梁珊  邱明涛  马静 《情报科学》2017,35(7):44-49
【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结 构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的 位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真 实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词 可读性更强,可弥补传统LDA模型在话题可解释性上的不足。  相似文献   

11.
李莉  林雨蓝  姚瑞波 《情报科学》2018,36(10):64-70
【目的/意义】挖掘出客服聊天记录中蕴含的主题,为客服自动问答系统的设计及优化提供指导方案。【方 法/过程】本文针对保险网站客服聊天记录这类交互式短文本,利用会话切分、分词提取以及词汇过滤等方法进行 文本预处理,通过名词短语提取、高频词汇提取以及外部数据集引入等方法进行特征选择,最终应用 LDA建模方法 获取交互式文本主题。【结果/结论】模型结果显示:用户主要关注保险详情、保险金额以及保险险种等主题。不同 主题之间的话题具有一定的独立性,主题和话题之间存在很强的相关性。LDA模型结果成功挖掘出用户关注的主 题,这为电子商务网站运营方进行自动问答系统的设计和优化提供了指导方案。  相似文献   

12.
【目的/意义】构建主题-主题关联的学科知识网络,从主题之间语义关联角度度量主题在学科知识网络中 的影响力,分析学科知识结构演化规律,为热点、前沿主题探测提供方法支撑。【方法/过程】基于 LDA主题模型抽取 学科领域研究主题,利用主题在科学文献中的共现关系构建主题-主题关联的学科知识网络,并提出主题影响力概 念和度量方法;基于复杂网络结构分析方法对学科领域生命周期内主题-主题关联的学科知识网络进行演化分 析。【结果/结论】实证分析表明主题的网络影响力是主题强度、被学者关注度等外部特征指标的有力补充,可用来 探测热点、前沿主题。同时,学科知识结构随着学科领域的发展表现出较强的小世界网络特征。  相似文献   

13.
【目的/意义】为在线医疗问诊平台中的医生自动生成高质量标签,更好地服务于对医生资源的分类、检索和管理。【方法/过程】基于在线问诊文本信息,提出了结合时间周期特征与文本主题特征的医生标签自动生成算法。首先根据医生相关文本信息提取关键词生成候选标签,然后从患者问题文本和医生回答文本两个方面进行LDA主题模型训练,按时间周期挖掘出问题文本和回答文本的主题特征,对候选标签进行质量控制;最后经标签加权混合后得到最终的医生标签。【结果/结论】实验结果表明,该标签自动生成算法能够反映出医生标签生成的动态性,能够准确生成符合医生专业知识特征的高质量标签,具有较好的标签生成效果。  相似文献   

14.
【目的/意义】提出融合深层演化特征的情感分析方法,以提升公共安全事件微博情感分析精度。【方法/过 程】以红黄蓝幼儿园涉嫌虐童事件为例,使用LDA与爬虫软件提取演化特征中的主题特征、时间特征,结合传统浅 层文本词性特征与情感特征,应用于XGBoost以生成微博情感分析集成模型。【结果/结论】演化特征的融入使得 情感识别准确度Auc值提高4%,且XGBoost分类精度均优于SVM、随机森林。本文提出的情感识别模型能够在公 共安全事件微博情感分析方面取得较好效果  相似文献   

15.
田亚丹 《情报科学》2021,39(6):123-133
【目的/意义】针对现有主题演化方法难以满足预测目的的需求,本文从知识动态发展的角度出发,构建知 识主题演化预测模型,为探究科学领域发展脉络与研究趋势提供方法。【方法/过程】通过Lda模型抽取知识主题,利 用马尔可夫和隐马尔可夫构建主题稳态与主题热度的演化预测模型。【结果/结论】以云计算领域的科学文献作为 实证分析对象,结果表明本模型可以根据历史数据来预测知识主题稳态分布情况与未来热度趋势,且在热度预测 精度上较灰色模型更高。【创新/局限】本文只考虑了横向主题内部的热度高低变化,没有进行纵向维度上各知识主 题间的对比。  相似文献   

16.
潘晓  段鑫星 《情报科学》2021,39(7):131-135
【目的/意义】针对当前中小企业情报收集系统模型收集情报的准确性、信息检索查全率以及情报分类管理 效率较低的问题,提出基于LDA及模糊VIKOR法的中小企业情报收集系统模型构建。【方法/过程】根据LDA模型 设计并构建中小企业情报收集系统模型架构,通过企业管理架构采集知识资源,将获取的知识分别划分至管理架 构相应模块中,实现企业知识整合管理。根据模糊VIKOR法设计了中小企业情报分类步骤,引入贝叶斯统计的标 准法,获取最佳主题数量,采用Gibbs抽样算法得出分类隐含层主题集合概率整体分布的向量,实现中小企业情报 收集系统分类管理。【结果/结论】实验结果表明,该系统的准确性较高,能够有效提高情报分类管理效率以及信息 检索查全率。【创新/局限】本文采用LDA模型整合管理企业知识,结合模糊VIKOR法分类管理企业情报收集,构建 准确高效的系统模型,但本文构建的系统模型未应用于实际企业中进行反馈与完善。  相似文献   

17.
【目的/意义】旨在从网络舆情用户信息及文本内容视角出发,构建不同维度的网络舆情主题图谱,结合主 题图谱对网络舆情进行特征演化及可视化分析,为舆情管理提供参考。【方法/过程】本文以实体抽取和关系构建技 术为基础,构建了网络舆情主题图谱模型,并以“台风利奇马”事件为例,建立了三个不同维度的主题图谱,结合用 户和文本等多维度微观数据,对网络舆情特征演化进行分析。【结果/结论】在该事件中,用户影响力节点具备多元 化、相关性、官方主导性等特点;网络舆情演化对应台风事件发展存在一定的滞后性;PC终端存在传播媒介种类少、 发博数量多且用户集中等特点,移动终端存在传播媒介种类多、发博数量少且用户分布均匀等特点。【创新/局限】 本文借助主题图谱,构建了网络舆情用户节点和文本节点及其关联关系,从用户、账户、内容三个维度系统且全面 的展示了网络舆情特征的演化规律。  相似文献   

18.
卢恒  张向先  闫伟 《情报科学》2022,39(1):158-165
【目的/意义】探索重大疫情中网络舆情的多属性演化规律,为重大疫情防控中的网络舆情治理实践提供参 考。【方法/过程】基于社会学视角构建了重大疫情中网络舆情多属性演化分析模型,选取湖北红十字会事件微博舆 情数据为研究对象,采用意见领袖影响力评价、LDA主题模型和Snownlp情感分析方法对重大疫情中网络舆情意见 领袖、主题分布和情感走势进行分析,从人群、内容和情绪三种社会属性揭示重大疫情中网络舆情多属性演化规 律。【结果/结论】结果表明,重大疫情网络舆情可以分为突发期、爆发期、降温期和失焦期四个阶段,各个阶段在意 见领袖、主题讨论内容和情感倾向上均有较为明显的区别,网民的情感阶段变化与舆情的主题属性演化规律相吻 合。【创新/局限】本研究提出的模型能够有效满足重大疫情网络舆情演化特征深度挖掘的要求,为重大疫情网络舆 情的治理实践提供参考。后续研究可选取更广泛的舆情事件和数据源验证该模型。  相似文献   

19.
王曦  陈铎 《情报科学》2022,40(7):55-60
【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对 考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用 Python采集数 据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结 论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做 为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但 同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。  相似文献   

20.
高楠  高嘉骐  陈洪璞 《情报科学》2023,(3):127-135+172
【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号