期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

首页 | 本学科首页

官方微博 | 高级检索

相似文献

共查询到20条相似文献，搜索用时 31 毫秒

1.

基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例

下载免费PDF全文

唐晓波王琼赋牟昊《情报科学》2022,40(10):3-11

【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标签确定的方法比较简单,可以进一步探究。相似文献

2.

关键词词频及语义特征对科技文献聚类的影响研究

下载免费PDF全文

叶佳鑫熊回香杨滋荣童兆莉《情报科学》2021,39(8):156-163

【目的/意义】针对基于关键词的科技文献聚类研究进行了一些探讨,包括：使用具有不同特征的关键词来实现文献聚类在效果上有何差异;如何按特征对关键词进行选择来提高文献聚类效果。【方法/过程】按照关键词词频与语义类型特征设置对照组进行实证研究,观察其对文献聚类密度及文献语义表示效果的影响。【结果/结论】单独使用具有超高频、次高频、研究主题或限定范围特征的关键词进行文献聚类能使聚类密度较为合适;超高频特征通常在其他频次中都具有体现,次高频词能同时反映不同频次的关键词特征,但次高频词对中频词特征的表示不够全面;将语义类型不同的关键词分开来实现文献聚类,其效果好于将关键词进行组配,语义类型不同的关键词间存在互斥性。【创新/局限】本文发现了在以关键词间的共现关系为基础来进行文献聚类时单独选择次高频或某一语义类别的关键词来实现文献聚类具有较好效果,但缺少对关键词间语义结构关系的进一步研究。相似文献

3.

融合词向量语义增强和DTM模型的公共政策文本时序建模与演化分析——以“大数据领域”为例

下载免费PDF全文

闫盛枫《情报科学》2021,39(9):146-154

【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单元和语法结构。相似文献

4.

共词分析与LDA 模型分析在文本主题挖掘中的比较研究

下载免费PDF全文

曲靖野陈震胡轶楠《情报科学》2018,36(2):18-23

【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理数据提供一定的参考。【方法/过程】本文分两种情况对比研究：第一、两者挖掘不同时段同一种类文本数据的主题分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词分析。相似文献

5.

基于潜在语义标引的文本聚类研究

马晓佳《情报探索》2010,(7):3-5

文本聚类是文本数据挖掘的一个重要内容,同时也广泛应用于文本挖掘和信息检索领域。为了克服目前常用的向量空间模型中词条独立性假设的缺点,提出了基于潜在语义标引（LSI）的文本聚类方法,并详细阐述了其基本流程和各步骤的具体实现。相似文献

6.

基于语义聚类的关键词抽取方法

下载免费PDF全文

李旭晖周怡《情报科学》2022,40(3):99-108

【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法依赖知网信息,只适用于中文文本抽取。相似文献

7.

基于BTM模型的教育舆情热点主题演化研究——以研究生招生考试为例

下载免费PDF全文

王曦陈铎《情报科学》2022,40(7):55-60

【目的/意义】为把握招生考试过程中网络舆论的基本特点和发展规律,及时发现潜在舆情隐患,本研究对考研复试期间国内主流网络社交平台的相关话题讨论文本进行了主题演化研究。【方法/过程】使用 Python采集数据,BTM模型对数据中的词对建模来进行主题挖掘和聚类,对各主题强度和内容随时间的演化进行分析。【结果/结论】主题强度和内容演化结果显示,公众的关注点与招生录取进程密切相关,并呈现一定的周期和规律性,能够做为网络舆情预测的依据。【创新/局限】BTM模型克服了短文本语料中的数据稀疏问题,能够有效进行主题挖掘,但同时也存在语义理解不足,需要人工辅助解读的问题,需要在后续研究中进一步改进。相似文献

8.

基于词向量的话题焦点识别方法

下载免费PDF全文

张佩瑶刘东苏《情报科学》2019,37(7):61-64

【目的/意义】移动互联网时代,微博以其快速、便捷的优点迅速成为信息传播与共享的平台之一。在互联网信息传播过程中,话题内容焦点会随着时间推动发生动态迁移,及时准确的发现话题内容焦点的迁移有助于了解网络舆情的演化趋势。【方法/过程】首先,定义基于焦点特征词分布的焦点词提取公式,构造焦点特征词集合;然后,使用Skip-gram模型在大规模语料上训练得到词向量,再通过BTM对文本建模,直接在BTM主题维上结合焦点特征词集合构造主题词向量;最后,计算主题特征词间的相似度,将其应用到聚类算法中实现话题焦点识别。【结果/结论】通过对新浪微博数据集上的实验结果表明,本方法能够充分利用词向量引入的语义信息,提高文本聚类效果,有效的获取各阶段的话题焦点。相似文献

9.

基于潜在语义空间的文本检索问题研究 总被引：6，自引：0，他引：6

刘海峰王元元张学仁《情报科学》2007,25(5):748-753

本文针对潜在语义空间模型下文本检索存在的问题进行了研究；对LSI／SVD方法的理论及问题进行探讨，对文本一特征项矩阵加权方式进行了改进，对文本的聚类提出了k—means截尾算法，对原始向量空间降秩后的语义空间维数的确定提出了解决方法。相似文献

10.

基于隐含狄利克雷分布的文本主题提取对比研究

下载免费PDF全文

王静茹陈震《情报科学》2018,36(1):102-107

【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/ 过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。相似文献

11.

基于CNN和SOM的评论主题发现

下载免费PDF全文

谢宗彦黎巎周纯洁《情报科学》2018,36(6):30-34

【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题发现。相似文献

12.

LDA模型在专利文本分类中的应用 总被引：1，自引：0，他引：1

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献

13.

网络用户在线评论的主题图谱构建及可视化研究——以酒店用户评论为例

下载免费PDF全文

邢云菲曹高辉陶然《情报科学》2021,39(9):101-109

【目的/意义】网络用户在线评论是用户对某产品或服务机构体验感知的反馈,对网络用户在线评论的文本挖掘是情报分析的重要内容。【方法/过程】为了更有效从海量网络用户在线评论文本中挖掘用户感兴趣的信息, 本研究爬取TripAdvisor网站四大城市的酒店用户在线评论,基于主题图谱理论和文本聚类算法构建网络用户在线评论的聚类模型,通过图谱可视化揭示不同地区酒店用户观点差异,并分析不同图谱的社会网络特征。【结果/结论】研究发现酒店用户最关注的是服务,其次是酒店的环境和位置。本研究能够快速挖掘酒店用户关注内容,对帮助酒店管理者了解用户住宿需求并以此提高用户满意度具有重要价值。【创新/局限】本文结合主题图谱和文本挖掘技术构建酒店用户在线评论主题图谱,在大数据文本主题聚类上显示出优越性。但本文仅分析TripAdvisor网站四个城市中部分酒店的用户在线评论,数据面覆盖不够广泛。相似文献

14.

基于BERT-BiLSTM模型的舆情监测方法及实证研究——以研究生招生考试为例

下载免费PDF全文

郝彦辉王曦陈铎《情报科学》2021,39(8):78-85

【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。相似文献

15.

基于本体图的文本聚类模型研究

明均仁《情报科学》2013,(2):29-33

为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。相似文献

16.

基于本体和Word2Vec的文本知识片段语义标引

下载免费PDF全文

唐晓波翟夏普《情报科学》2019,37(4):97-102

【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知识的文本信息组织提供了有益的参考。相似文献

17.

融合去噪技术和动态主题数的新闻话题分析框架研究

下载免费PDF全文

李湘东阮涛潘练《情报科学》2018,36(4):14-21

【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。相似文献

18.

基于深度学习的文本表示方法

下载免费PDF全文

李枫林柯佳《情报科学》2019,37(1):156-164

【目的/意义】文本表示是自然语言处理的基础工作，是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法，按照文本不同的粒度，回顾了近五年国内外基于神经网络模型的词表示、句子表示、篇章（段落）表示的方法，并提出了未来的研究方向。【结果/结论】实验发现，通过在神经网络模型中融入更多的特征能得到更优的词向量，但词向量还缺乏统一的评价标准，句子向量表示通常根据具体NLP任务建模，不同结构的模型在特征表示、运算速度上各有优劣势，篇章表示通常使用层次组合模型。相似文献

19.

时序关联与结构表征视角下的信息隐私研究主题演化研究

下载免费PDF全文

朱光潘高枝李凤景《情报科学》2022,40(4):127-137

【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA（Latent Dirichlet Allocation）模型识别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。相似文献

20.

学术APP用户在线评论主题语义关联研究

下载免费PDF全文

王欣研张向先张莉曼《情报科学》2020,38(6):25-31

【目的/意义】针对学术APP评论数据特征，挖掘用户评论语义关联关系，为平台运营者和开发者高效获取用户需求和关注点提供思路和指导方法。【方法/过程】首先，基于LDA主题模型和GloVe 词向量模型构建学术APP 用户在线评论主题语义关联研究框架，然后，采集超星移动图书馆APP在线评论作为样本数据，通过主题识别获取用户评论主题并基于词向量相似性得到主题语义关联，最后构建出语义关联主题图谱。【结果/结论】实验结果表明运用文章提出的思路方法能够有效发现用户评论主题和主题间关联关系并得到主题关联图谱，从而为学术APP平台运营者完善平台功能提供参考和借鉴。相似文献

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司京ICP备09084417号