首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
【目的/意义】由于信息总量的巨大和用户矩阵的稀疏,LDA模型在微博信息推荐过程中短文本处理能力 差的缺点被放大。【方法/过程】本文利用大数据技术处理海量信息的优势,探讨大数据与 LDA主题模型融合的可行 性,构建出了大数据技术与 LDA融合的推荐模型,实现在利用大数据技术对海量文本预处理的基础上基于 LDA模 型的微博信息推荐,解决微博信息推荐查全率和查准率差的问题。【结果/结论】通过 Hadoop平台上的实证分析表 明,融合模型可有效的降低混淆度和提升微博信息推荐精度,有利于实现信息的个性化和定制化推荐。  相似文献   

2.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

3.
【目的/意义】云计算的普及使得MI学科受到学术界的持续关注,对MI主题识别与演化的分析可以揭示历史演化,有助于发现人们关注的问题,预见该领域的未来发展。【方法/过程】本文利用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型对web of science(WOS)数据库中与MI相关的主题进行识别和挖掘,并利用生命周期理论、变异系数法、Kullback-Leibler divergence(KL)等理论和方法绘制出MI研究主题的演化路径。【结果/结论】研究结果表明,MI的研究主题正逐渐向方法、技术和实践的研究方向发展,医疗数据分析、临床数据挖掘、健康信息技术等新兴技术和应用方向将成为未来MI学科的研究热点。【创新/局限】本文从生命周期视角对全球范围内医学信息学学科的主题演化进行挖掘和分析,为该学科未来的发展提供借鉴,但并没对各地区分别进行分析,因此存在一定的局限性。  相似文献   

4.
孟秋晴  熊回香 《情报科学》2021,39(6):152-160
【目的/意义】为了向在线医疗社区中的用户自动推荐符合其自身实际需求的医生,本文基于在线问诊文本 信息,提出了基于相似用户与相似医生的混合医生推荐算法。【方法/过程】首先从用户咨询问题出发,找到具有相 似咨询问题的用户,将其所选择的医生作为基于相似用户的推荐集合;然后从医生回答从发,通过LDA主题模型训 练,从医生回答文本集中挖掘出隐含的疾病主题,按主题查找具有相似疾病诊治经验的医生作为推荐集合;最后通 过混合相似度计算融合基于相似用户和相似医生的推荐结果,得到最终推荐列表。【结果/结论】通过对在线医疗社 区“39健康网”进行实证研究,结果表明,利用本文提出的方法进行推荐,能够有效降低数据维度,挖掘文本间的潜 在语义关联,有效缩小语义鸿沟,提升推荐质量,具有较好的推荐效果。【创新/局限】本文仅选取了针对科室的小样 本数据进行实验,且部分参数使用经验值,未来可深入探讨该方法在大规模医疗数据集上的应用。  相似文献   

5.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

6.
王静茹  陈震 《情报科学》2018,36(1):102-107
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。 为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数 据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事 件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数 据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。  相似文献   

7.
【目的/意义】为提升主流融媒体意识形态建设和舆论引导能力,解决大数据时代背景下主流融媒体多模态 信息资源管理的困境,构建高效的热点发现机制。【方法/过程】笔者着眼于主流融媒体热点发现需求构建需求体 系,然后利用Scrapy-Redis框架、HBase数据库和MapReduce实现了数据的精准采集、有序存储和高效处理,再基于 多模态信息融合的理念,借助 NLP技术对信息资源的特征进行提取,最后利用 LDA2vec模型和 Single-Pass算法实 现了信息归集和热点的发现与更新。【结果/结论】仿真实验结果表明,本研究所使用的方法,能够较好地实现多模 态信息的归集和热点的提取,效果较同类模型有明显提升。【创新/局限】但是在运用NLP技术处理多模态信息时各 处理环节的衔接尚不够流畅,后续仍需进行改进提升。  相似文献   

8.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

9.
【目的/意义】研究从用户节点和网络全局两个视角出发,基于用户相似度与信任度对虚拟学术社区中学者 进行推荐,提高学者推荐的质量。【方法/过程】首先,利用 LDA 主题模型挖掘学者发表的博文主题,计算博文相似 度;通过学者共同好友比例计算好友相似度;然后将博文相似度和好友相似度融合计算用户相似度;最后,融合用 户相似度和信任度进行学者推荐。【结果/结论】提出虚拟学术社区中基于用户相似度与信任度的学者推荐方法,综 合利用用户节点和网络全局信息,为虚拟学术社区用户进行学者推荐。【创新/局限】从用户节点和网络全局两个角 度进行学者信息融合,有效提高了虚拟学术社区中学者推荐的质量。局限在于本文主要考虑的是学者在网络全局 中的信任度,用户节点间的交互信任关系还有待进一步研究。  相似文献   

10.
周国韬  龚栩  邓胜利 《情报科学》2022,40(4):118-126
【目的/意义】研究旨在揭示社会化问答平台用户的养生健康信息需求分布特征,并深入探究需求产生的动 机及演化趋势。【方法/过程】本文以社会化问答平台“知乎”中13万条养生问答数据作为研究对象,通过LDA模型提 取需求话题,在离散时间序列基础上结合马斯洛需求层次理论对话题的关注度与关注热点进行演化分析。【结果/ 结论】用户养生信息需求涵盖 20个话题;相比传统健康信息需求对疾病的聚焦,养生健康信息需求在内容上更多 样,需求层次更高。需求的关注度演化上,安全需求与尊重需求成为热点,新冠疫情加强了用户对养生健康信息需 求的关注。话题间的内在联系上,用户对尊重需求话题的关注度以“商品化”的形式转移至安全需求话题。【创新/ 局限】本文首次聚焦养生健康信息需求,通过话题与演化分析细粒度地挖掘用户养生健康信息需求的变化趋势。 此外,本文数据源来自同一平台,后续研究可分析多平台用户的养生健康信息需求并对动机进行深化。  相似文献   

11.
【目的/意义】数字经济时代,信息价值属性是知识产权保护的重要内容,信息如何定价、如何合理定价伴随着大数据时代的到来而愈发突出,成为融媒体产业发展道路上的堵点问题。【方法/过程】基于国内外学者研究成果的梳理,分析了各个节点媒体信息的定价模型,从传统静态定价的成本法、收益法、市场法,到衍生出来的AHP法、顾客感知价值法、信息质量定价法,再到动态的多情境协议定价法,分析各种定价模型的优缺点;同时,通过分析大数据时代融媒体信息定价依据,设计出更加合理的融媒体信息定价模型。【结果/结论】以模型演化的角度分析了媒体信息定价方法的发展脉络,提出了大数据时代融媒体信息定价模型及利益分配机制,为融媒体信息定价提出了参考的有效方案。【创新/局限】整合了融媒体信息定价的演化过程,分析了各个阶段的不足和需求,揭示了大数据时代定价所需考虑的问题,但在具体方法上需要进一步研究。  相似文献   

12.
朱晓峰  葛锐  蒋勋 《情报科学》2022,39(1):109-120
【目的/意义】数字时代“开放政府数据”热潮产出了丰硕成果,对其研究主题结构和演化脉络进行全面、精 准的可视化揭示,有助于进一步丰富和完善该领域研究,科学地指导我国实践开展。【方法/过程】以 2000-2019 年 WOS数据库中“开放政府数据”主题文献为基础,借助新型SLM算法探测主题社区,梳理研究主题分布;同时嵌入 SNA方法,引入“传导率”指标定量评估主题社区成熟度和内外部关联,并利用Cortext平台构建时序演进过程。【结 果/结论】国外开放政府数据研究已形成四类主题社区:健康社区、开放数据社区、管理社区以及安全社区,目前仍 存在“主题遍布粒度不够细化、新兴主题社区亟需成长、演化脉络断续明显”等问题。【创新/局限】嵌入新型算法 SLM 划分主题社区,结合 LDA 模型对国外 OGD 研究主题关联与演化进行了完整阐释。但本文仅选取 WOS核心 库的相关主题文献作为数据源,存在进一步扩充的空间。  相似文献   

13.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

14.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

15.
李慧  王丽婷 《情报科学》2019,37(1):30-36
【目的/意义】掌握微博热点话题演化规律有利于让公众了解正确的话题演化方向,也便于有关部门对舆情 监控和引导,使得舆论朝着正能量的方向发展。【过程/方法】利用OLDA(On-line Latent Dirichlet Allocation)可以实 时地追踪热点话题演化的优势以及微博的“话题标签”的特性提出适合微博的热点话题演化模型LOLDA(Label On-line Latent Dirichlet Allocation),然后通过Python编程爬取了新浪微博的数据,从话题内容和强度两方面分析 了话题演化规律,并对话题内容演化规律进行了可视化展示。【结果/结论】改进的LOLDA模型可以准确地发现微 博话题演化规律,通过实验验证了本文提出的模型较传统模型具有更好地泛化能力.  相似文献   

16.
【目的/意义】提出融合深层演化特征的情感分析方法,以提升公共安全事件微博情感分析精度。【方法/过 程】以红黄蓝幼儿园涉嫌虐童事件为例,使用LDA与爬虫软件提取演化特征中的主题特征、时间特征,结合传统浅 层文本词性特征与情感特征,应用于XGBoost以生成微博情感分析集成模型。【结果/结论】演化特征的融入使得 情感识别准确度Auc值提高4%,且XGBoost分类精度均优于SVM、随机森林。本文提出的情感识别模型能够在公 共安全事件微博情感分析方面取得较好效果  相似文献   

17.
高海涛  邢哲  赵丹 《情报科学》2021,39(8):37-43
【目的/意义】挖掘大学生知识获取行为影响因素,有助于树立大学生知识获取主动性意识、提升知识需求 表达和信息资源利用能力、提高大学生信息素养。【方法/过程】本文基于信息素养视角,从信息意识、信息搜寻能 力、信息应用能力、信息环境四个维度构建了大学生知识获取行为影响因素模型,应用结构方程对模型进行了验 证。【结果/结论】结果表明信息应用能力、信息环境对知识获取意愿有正向影响,信息意识与知识获取意愿对知识 获取行为有正向影响;信息搜寻能力对知识获取意愿的影响不显著。【创新/局限】首次基于信息素养视角揭示了大 学生知识获取行为影响因素,但数据样本较为单一,对策研究还有待进一步深入。  相似文献   

18.
高楠  高嘉骐  陈洪璞 《情报科学》2023,(3):127-135+172
【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要...  相似文献   

19.
曲靖野 《情报科学》2017,35(10):120-124
【目的/意义】从时间分布、期刊分布、学科分布、研究机构分布、核心作者、高频作者合著网络以及高频关键 词共现网络等多个维度对国内“主题模型”研究领域的相关文献进行了可视化分析。【方法/过程】以国内CNKI数据 库收录的从2000年到2017年7月间有关主题模型的相关文献作为数据源,基于社会网络分析法,使用SATI软件 — —科技文本题录信息统计工具来构建共词矩阵,利用Ucinet 工具实现知识图谱的绘制。【结果/结论】通过对国内 主题模型研究领域的合作网络和研究热点的揭示,促进相关领域的理论创新和实践融合。  相似文献   

20.
【目的/意义】面对网络时代数据的海量性和无序性,为用户推荐个性化资源有利于增强用户间合作、提高 知识的共享速度,对新知识的发现具有深远意义。【方法/过程】基于具有相同兴趣用户的聚合优于单纯的信息聚 合,构建基于社会化标注系统的个性化推荐模型。通过引入社会网络中用户使用标签的频次来选择与用户关联显 著的标签,并通过加权派系发现和聚合“小众”凝聚组群和相似标签集,进而为用户推荐优质资源,使其真正契合用 户的个性化需求偏好。【结果/结论】结果表明模型能够有效实现信息的个性化推荐,消除单独聚类带来的粗糙数据 集,并通过抓取豆瓣上的数据进行实证分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号