首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

2.
李锋 《情报科学》2017,35(8):68-71
【目的/意义】反思共词分析中存在的问题,提出核心关键词人工聚类分析的研究方法。【方法/过程】梳理 了共词分析的一般方法和存在的问题,并以图书情报界阅读研究文献为例证实了共词聚类效果确实不是很理想。 提出了在计算机统计关键词频次之后,选择具备一定频次的表意性较强的核心关键词进行人工聚类分析的研究方 法。【结果/结论】实践证明这种研究方法能避免共词分析的弱点,有效揭示研究领域的主题结构。  相似文献   

3.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

4.
李旭晖  周怡 《情报科学》2022,40(3):99-108
【目的/意义】关键词抽取的本质是找到能够表达文档核心语义信息的关键词汇,因此使用语义代替词语进 行分析更加符合实际需求。本文基于TextRank词图模型,利用语义代替词语进行分析,提出了一种基于语义聚类 的关键词抽取方法。【方法/过程】首先,将融合知网(HowNet)义原信息训练的词向量聚类,把词义相近的词语聚集 在一起,为各个词语获取相应的语义类别。然后,将词语所属语义类别的窗口共现频率作为词语间的转移概率计 算节点得分。最后,将TF-IDF值与节点得分进行加权求和,对关键词抽取结果进行修正。【结果/结论】从整体的关 键词抽取结果看,本文提出的关键词抽取方法在抽取效果上有一定提升,相比于TextRank算法在准确率P,召回率 R以及 F值上分别提升了 12.66%、13.77%、13.16%。【创新/局限】本文的创新性在于使用语义代替词语,从语义层面 对相关性网络进行分析。同时,首次引入融合知网义原信息的词向量用于关键词抽取工作。局限性在于抽取方法 依赖知网信息,只适用于中文文本抽取。  相似文献   

5.
【目的/意义】共词分析法是文献情报分析的重要方法,对促进学科领域等的研究和发展具有重要作用。针 对共词分析法中存在的文献层面和词层面“同量不同质”问题、高频孤立词问题等,提出一种基于文献多属性加权 的共词分析方法。【方法/过程】该方法利用文献发表时间、被引次数和下载量等属性来度量文献时效性和被关注 度,以表征文献层面的权重;利用文献标题和摘要等属性对文献关键词的差异性进行度量;综合文献权重和词差异 性权重对共词分析词频次及共词对频次进行加权处理,然后依据二者加权后的频次确定共词分析用词集合及构建 共词矩阵。【结果/结论】以CNKI数据库有关主题模型研究的核心期刊论文为数据源,对该领域的研究主题热点进 行分析,从共词分析用词选择和聚类分析等方面与一般共词分析法进行对比,验证了本文所提加权方法具有一定 的合理性和有效性。  相似文献   

6.
【目的/意义】本文从文献发文量、关键词频次、关键词聚类等方面,研究我国图书馆空间的研究热点、主题 演进情况,为今后该方向的科学研究与实际工作提供借鉴。【方法/过程】以中国知网期刊数据库为数据来源,以图 书馆空间期刊论文为研究对象,利用文献计量学方法与可视化方法对论文进行分析。【结果/结论】我国图书馆空间 的研究热点层次较为分明,宏观主题与微观主题并存,主题演进阶段性特征明显。图书馆空间研究热点主题偏向 于具体空间类型的实践类借鉴与总结,应进一步加强基础性理论的研究和思考。  相似文献   

7.
【目的/意义】随着数字文本数量的增加,题名与关键词作为文本表示方式之一,对文本的揭示作用日益突 显。【方法/过程】基于我国农产品品牌评价领域的相关文献,对文章的题名与关键词分别进行了聚类分析,并对两 者的聚类结果进行了对比,发现基于题名与基于关键词的聚类结果不完全一致,但存在交集,进而将题名与关键词 叠加后进行聚类,经过分析认为聚类结果得到了改善。【结果/结论】发现题名与关键词对文献内容的揭示程度不 同,且均不能良好地概括农产品品牌评价领域的文献内容,二者融合后结果得到改善;同时对今后研究中论文题名 与关键词的选取提出了一些建议。  相似文献   

8.
赵文娟  刘忠宝  郭慧 《情报科学》2019,37(5):108-114
【目的/意义】传统的信息检索技术主要是基于关键词匹配的信息推送,该方法容易出现漏检和误检的情 况。语义检索通过语义分析获得用户真正的检索意图,实现精准检索。【方法/过程】本文在对语义检索的原理和模 型进行描述的基础上,提出了基于本体概念树模型的词元扩展算法,通过对词元的语义相似性、语义相关性进行计 算,得出词元的语义关联度,关联度超过一定阈值的词元的集合即为扩展后的词元集。【结果/结论】该方法既考虑 了具有继承关系的词元间的语义相似性,也考虑了具有相同属性词元间的语义关联度,结论更具参考价值。  相似文献   

9.
【目的】 探索英文科技论文标题撰写规范,提升国内学者英文标题写译质量。【方法】以SCI百篇高被引论文标题为语料,利用SPSS17.0统计软件与文本检索工具Antconc3.4.4对英文科技论文标题的长度、高频词、词块及结构类型进行多维度特征分析。【结果】 英文科技论文标题长度不一,但以5~13个词为主;科技论文标题的高频词既包括使用于所有语域的功能词,亦包括彰显学科与文体属性的名词、形容词等实义词;科技论文标题中的高频词块与研究程序、方法、论题等要素相关;科技论文标题结构包括四种类型,尤以名词短语结构最为常用,这其中名词短语+介词短语是使用最为高频次的类型。【结论】 SCI百篇高被引论文标题的多维特征分析结果可为英文科技论文标题写作及我国期刊论文标题英译提供借鉴。  相似文献   

10.
杨婧  常春 《情报科学》2017,35(8):15-18
【目的/意义】针对叙词表概念遴选与词间关系构建的现状,以交叉学科方法研究概念在不同时间节点的变 化规律。【方法/过程】假设学科领域内概念的词频随时间变化规律遵循生态学中Logistic种群增长规律,对专业领域 文献中概念出现的频次进行统计,依据单个概念的成熟周期给出选词判断标准与词间关系的强弱判断依据。【结 果/结论】发现在跨学科视角下,可以通过词频关系为新文献环境词表词间关系的构建提出参考意见。  相似文献   

11.
胡静  李璐 《情报科学》2017,35(10):75-78
【目的/意义】为发掘阅读推广研究的潜在领域和新方向奠定基础。【方法/过程】基于CNKI数据库中收录的 关于阅读推广的文献数据,借助可视化软件CiteSpace中的突变检测功能,对文献中词频突变的关键词进行检测,从 突变词、聚类和突变词时间频率变化趋势三个维度挖掘分析我国阅读推广研究的前沿领域及主题。【结果/结论】目 前国内阅读推广研究呈现四个前沿领域,每个领域中又有若干前沿主题,有些还保持着研究热度,有些已过时。  相似文献   

12.
【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是 一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数 有限,会存在缺失或者不能充分表达主题等情况,从而导致丢失一些重要的共现关系。【方法/过程】本文采用组块 分析的方法从文章标题中提取短语或词作为作者给定关键词的有益补充。【结果/结论】以中文句法分析领域的文 献作为研究对象进行实验,结果证明增补后的关键词列表增加了共现关系,优化了聚类结果。最后对中文句法分 析领域发展趋势及研究热点进行了分析。  相似文献   

13.
温芳芳 《情报科学》2017,35(11):121-125
【目的/意义】分类号与关键词对应关系的研究不仅能够推动计算机自动分类技术的发展,而且有助于改进 共类分析和共词分析的效果。【方法/过程】以国内9种图书馆学期刊近五年发表的论文为例,构建中图分类号-关键 词隶属关系网络及多重共现网络,对分类号和关键词的对应关系进行计量分析和可视化展示。【结果/结论】研究表 明高频共现关系能够直接判定中图分类号与关键词之间的隶属关系,此外还证实分类号-关键词多重共现分析较 之传统的单一共现分析方法更具优势。  相似文献   

14.
王国华  石国良 《情报科学》2019,37(8):152-157
【目的/意义】本文通过对国外舆情研究文献进行可视化分析,了解国外相关领域研究进展,以期为我国舆 情研究提供参考。【方法/过程】本文以Web of Science数据库近十年舆情研究文献为对象,利用CiteSpace可视化 分析软件,通过作者、机构、国家合作网络来分析国外舆情研究的时空分布,通过关键词聚类视图来阐释近十年 舆情研究热点,通过突变词分析来判断当前研究趋势。【结果/结论】通过文献计量和可视化,发现近十年国外舆 情研究以特殊专题、理论与传播、新方法应用为研究热点,呈现出聚焦国际时政、注重网络媒介、强调大数据分 析三大趋势。  相似文献   

15.
李枫林  柯佳 《情报科学》2019,37(5):155-165
【目的/意义】词是语言的最小单元,词的向量表示决定了机器学习模型的构建方法。深度学习的神经网络 训练得到的词向量,通过无监督的机器学习方法从海量数据中自动学习词汇的语义特征,无需人工标注和复杂繁 琐的特征工程,端到端的完成各种自然语言处理任务,带来了一种新的研究范式,成为学术界的研究热点。【方法/ 过程】介绍了词向量语义表示及优化方法,存在的问题及解决方法,最后指出了词向量未来的研究方向。【结果/结 论】将句法特征、词形特征、(知识库)先验语义知识融入到神经网络模型能增强词向量的语义表示能力,针对词向 量存在的一词多义、解释性差等问题,总结了最新的研究成果。  相似文献   

16.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

17.
文章以2003—2012年情报学的研究文献为样本,运用TF*IDF方法识别情报学近10年来持续研究的经典关键词和能代表历年不同阶段研究特点的特征关键词;使用聚类效果更好的Linkcomm边聚类算法,对经典关键词与特征关键词的共词网络进行聚类,以分析情报学学科主题的层次性与重叠性结构,并分析得出结论。为探索学科结构的静态特征研究提供新的思路与方法。  相似文献   

18.
【目的/意义】从海量自助餐用户评论数据中抽取有效关键词构建主题和主题词,协助商家了解用户口碑, 进而更好的改善餐饮行业的管理水平。【方法/过程】通过融合TF-IDF、TextRank和LMKE三种不同的关键词抽取 方法获取最优关键词,再对抽取的关键词进行语义聚类、主题识别、主题词挖掘和主题权重计算,最后在采集的美 团数据集上进行验证方法的有效性。【结果/结论】实验结果表明,三种关键词抽取方法的融合比单个关键词算法效 要好,文本评论聚类后的主题分别是:味道、菜品、环境、服务、价格,主题的重要程度依次是:味道 36.2%、服务 22.9%、价格15.1%、环境13.6%、菜品12.2%。实验结果证实,通过该方法能够有效识别和构建主题及主题词,并计算 出用户对于不同主题关注的重点内容,同时为餐饮行业主题及主题词挖掘和应用研究提供了一定的理论和技术基 础。【创新/局限】提出一种半监督语义聚类的主题识别、主题词构建和主题权重评估方法;不足之处在于本次实验 仅以武汉地区的美食自助餐评论为主,其构建的主题适用性范围有限。  相似文献   

19.
余本功  王胡燕 《情报科学》2021,39(7):99-107
【目的/意义】对互联网产生的大量文本数据进行有效分类,提高文本处理效率,为企业用户决策提供建 议。【方法/过程】针对传统的词向量特征嵌入无法获取一词多义,特征稀疏、特征提取困难等问题,本文提出了一种 基于句子特征的多通道层次特征文本分类模型(SFM-DCNN)。首先,该模型通过Bert句向量建模,将特征嵌入从 传统的词特征嵌入升级为句特征嵌入,有效获取一词多义、词语位置及词间联系等语义特征。其次,通过构建多通 道深度卷积模型,将句特征从多层级来获取隐藏特征,获取更接近原语义的特征。【结果/结论】采用三种不同的数 据对模型进行验证分析,采用对比相关的分类方法,SFM-DCNN模型准确率较其他模型分类性能有所提高,这说 明该模型具有一定的借鉴意义。【创新/局限】基于文本分类中存在的一词多义、特征稀疏问题,创新性地利用Bert来 抽取全局语义信息,并结合多通道深层卷积来获取局部层次特征,但限于时间和设备条件,模型没有进行进一步的 预训练,实验数据集不够充分。  相似文献   

20.
【目的/意义】随着旅游网站的增加,游客的网络评论日益增多。针对传统方法在旅游短文本评论主题分类 时出现特征维度过高和数据稀疏等问题,本文提出一种基于卷积神经网络和 SOM的旅游评论主题发现方法。【方 法/过程】首先采用词向量来进行文本表示,降低了特征维度过高问题;其次,通过卷积神经网络对评论文本提取高 阶的抽象特征;最后在通过 SOM 模型基于提取到的抽象特征对主题进行聚类。【结果/结论】实验结果表明, CNN-SOM算法较传统文本聚类算法在准确率、召回率和 F值上都有显著提高,能够更好的进行旅游评论的主题 发现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号