共查询到18条相似文献,搜索用时 250 毫秒
1.
2.
3.
4.
5.
6.
【目的/意义】鉴于参考文献在期刊论文发表过程中的重要性以及引证文献对期刊论文的影响力,提出基于 时间序列数据聚类的期刊参考文献与引证文献来源分析研究。【方法/过程】以图书情报类某重要核心期刊 2010-2017年期间刊发的3500篇论文作为样本数据,利用正则表达式对非结构化的样本数据进行结构化处理,将参 考文献来源期刊和引证文献来源期刊的均篇引用均值转化为时间序列数据,结合时间序列数据聚类方法分别从数 值和趋势两个方面展开研究,探究发现期刊参考文献与引证文献两种来源期刊各自之间隐含的相关关系。【结果/ 结论】研究发现:新方法可以从时间变化的角度对来源期刊实现聚类划分,自适应地找到中心来源期刊作为簇的特 征对象,其获得的结论可为目标期刊编辑部,论文读者与创作者对期刊文献的质量管理提供决策参考和理论依据。 相似文献
7.
【目的/意义】为了对学科交叉宏观态势进一步把握,基于ESI已有的学科分类,提出一种简单有效的测度
方法。【方法/过程】借鉴相关研究,本文以ESI高被引论文为研究对象,以学科论文标题建立的标题词表为入口,提
取词表之间的重叠词序列并计算其相关关系,提出测度方法并对测度结果进行详细分析,从而分析学科交叉宏观
态势。【结果/结论】根据得到的学科交叉矩阵和学科交叉趋势图显示学科交叉整体呈上升趋势,但各学科交叉情况
又有很大差异且出现学科交叉集群现象。本文所提测度方法从横纵两个角度分析从而得到计量结果,该方法可以
精确对比各学科交叉程度,准确把握学科交叉整体态势。【创新/局限】在标题词表重叠词序列提取的基础上,结合
词频分析方法计算重叠词序列的相关性,并以此来表示不同学科的交叉程度,从而在宏观层面对学科交叉态势进
行测度。不足之处在于,仅选取ESI高被引数据进行分析,有可能会对学科内新兴的研究方向有所忽视。 相似文献
8.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分,
为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇
章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者
用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度
矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层
次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】
本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标
签确定的方法比较简单,可以进一步探究。 相似文献
9.
10.
【目的/意义】学术文本关键词抽取是从文本中自动抽取具有主题性、代表性的词或短语,是学术信息服务 的重要环节。传统的方法大多仅依靠候选关键词有限的词频、文档频率等统计信息,没有考虑学术文本内候选关 键词在对应学术领域的使用情况,使得关键词抽取的准确率受到限制。针对这一问题,本文提出一种基于先验知 识TextRank的学术文本关键词抽取算法。【方法/过程】首先计算候选关键词的使用情况作为先验概率特征值,然 后运用基于图排序的关键词抽取算法TextRank计算候选关键词的文本内特征值,最后结合以上两个特征计算得到 候选关键词的综合权值并对关键词进行排序。【结果/结论】在计算机科学领域的多个文献集上进行了实验评估,其 结果相较于传统的关键词抽取方法有了明显的提高,证明了基于先验知识TextRank的学术文本关键词抽取算法的 有效性。 相似文献
11.
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率R以及F值上分别提升了12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法依赖知网信息,只适用于中文文本抽取。 相似文献
12.
【目的/意义】针对基于关键词的科技文献聚类研究进行了一些探讨,包括:使用具有不同特征的关键词来
实现文献聚类在效果上有何差异;如何按特征对关键词进行选择来提高文献聚类效果。【方法/过程】按照关键词词
频与语义类型特征设置对照组进行实证研究,观察其对文献聚类密度及文献语义表示效果的影响。【结果/结论】单
独使用具有超高频、次高频、研究主题或限定范围特征的关键词进行文献聚类能使聚类密度较为合适;超高频特征
通常在其他频次中都具有体现,次高频词能同时反映不同频次的关键词特征,但次高频词对中频词特征的表示不
够全面;将语义类型不同的关键词分开来实现文献聚类,其效果好于将关键词进行组配,语义类型不同的关键词间
存在互斥性。【创新/局限】本文发现了在以关键词间的共现关系为基础来进行文献聚类时单独选择次高频或某一
语义类别的关键词来实现文献聚类具有较好效果,但缺少对关键词间语义结构关系的进一步研究。 相似文献
13.
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分
词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后
的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、
副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异
词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字
词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词
歧义的问题,但缺少与旧语料的对比分析。 相似文献
14.
【目的/意义】以主题聚类的方法揭示国内图情领域区块链研究热点,为区块链在图情领域的研究工作提供
参考。【方法/过程】利用中国知网数据库检索区块链在图情领域应用的全部期刊论文、会议论文与学位论文,提取
了470个关键词,并利用杰卡德系数计算文献的相似程度,形成10个主题聚类,之后利用IG(信息增益法)计算所有
关键词在主题聚类中的重要程度,通过前10位核心关键词阐述各主题聚类中研究论文的主要研究内容,并通过主
题聚类下的年度发文趋势分析区块链在图情领域未来的发展趋势。【结果/结论】文章共提取出区块链技术、智慧图
书馆、资源建设、信息服务、阅读推广、隐私保护、借阅服务、科学数据、版权保护、情报分析十大主题聚类,并将其归
纳出包含基础层、技术层、应用层、拓展层的研究框架,分析了未来研究趋势将更加集中于情报分析、智慧图书馆、
阅读推广、科学数据、版权保护、隐私保护六大主题中。【创新/局限】对研究主题的分析还可以采用更多的视角进行
分析,如知识图谱等。 相似文献
15.
【目的/意义】从海量自助餐用户评论数据中抽取有效关键词构建主题和主题词,协助商家了解用户口碑,
进而更好的改善餐饮行业的管理水平。【方法/过程】通过融合TF-IDF、TextRank和LMKE三种不同的关键词抽取
方法获取最优关键词,再对抽取的关键词进行语义聚类、主题识别、主题词挖掘和主题权重计算,最后在采集的美
团数据集上进行验证方法的有效性。【结果/结论】实验结果表明,三种关键词抽取方法的融合比单个关键词算法效
要好,文本评论聚类后的主题分别是:味道、菜品、环境、服务、价格,主题的重要程度依次是:味道 36.2%、服务
22.9%、价格15.1%、环境13.6%、菜品12.2%。实验结果证实,通过该方法能够有效识别和构建主题及主题词,并计算
出用户对于不同主题关注的重点内容,同时为餐饮行业主题及主题词挖掘和应用研究提供了一定的理论和技术基
础。【创新/局限】提出一种半监督语义聚类的主题识别、主题词构建和主题权重评估方法;不足之处在于本次实验
仅以武汉地区的美食自助餐评论为主,其构建的主题适用性范围有限。 相似文献
16.
【目的/意义】从海量微博信息中提取准确的主题词,以期为政府和企业进行舆情分析提供有价值的参考。
【方法/过程】通过分析传统微博主题词提取方法的特点及不足,提出了基于语义概念和词共现的微博主题词提取
方法,该方法利用文本扩充策略将微博从短文本扩充为较长文本,借助于语义词典对微博文本中的词汇进行语义
概念扩展,结合微博文本结构特点分配词汇权重,再综合考虑词汇的共现度来提取微博主题词。【结果/结论】实验
结果表明本文提出的微博主题词提取算法优于传统方法,它能够有效提高微博主题词提取的性能。【创新/局限】利
用语义概念结合词共现思想进行微博主题词提取是一种新的探索,由于算法中的分词方法对个别网络新词切分可
能不合适,会对关键词提取准确性造成微小影响。 相似文献
17.
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出
一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时
序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强
其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法
对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具
有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提
升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单
元和语法结构。 相似文献
18.
【目的/意义】学术社交网络为科研成果交互分享提供了平台支撑,针对平台中高影响力成果的特征分析,
有助于拓展高影响力成果研究维度,为平台优化及用户合理利用提供参考。【方法/过程】本文选择学术社交网络中
iSchool成员的8449篇高影响力成果作为研究样本,从年份、刊物、作者3个视角探究其分布特征,并应用时间序列
聚类方法归纳影响力变化模式及规律。【结果/结论】来源年代近、刊物质量好、合作意愿强为多数学术社交网络中
高影响力成果的共有特点,虽存在部分高质高产的核心作者但作者来源整体分散,经典成果同样能在平台中保持
并延续其高关注度。高影响力成果影响力变化呈现出线性增长型、趋向饱和型、趋向衰退型和热点猛增型4种模
式,主要体现了科研成果借助学术社交网络提升和发挥持续影响力的整体趋势。【创新/局限】本文创新点为分多维
度揭示科研成果特征,利用时间序列聚类分析方法归纳指标变化规律,丰富基于资源层面的学术社交网络用户行
为研究。 相似文献