首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
钟伟金 《图书情报工作》2012,56(18):122-126
以科技文献中的共现关键词—叙词词对(以下简称共现词对)为研究对象,运用互信息法、概率法计算方法,以准确率和召回率为衡量指标,通过绝对值方式和相对最高值方式,分析这两种统计方法在不同区间内对同义共现词对的自动识别效果及特点。研究发现,概率法的相对最高值方式具有最佳的同义共现词对识别效果。最后,探讨互信息法、概率法与共现频率的关系,揭示这两种统计方法在同义共现词对的识别上存在互补的特性。  相似文献   

2.
中文文本关键词自动抽取方法研究   总被引:5,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

3.
概念间关系是本体的重要组成部分,概念间关系的细化可以消除概念的歧义性。基于叙词表构建本体时,需要对叙词表中的语义关系进行细化调整。在研究中文叙词词间关系的基础上,对叙词词间关系细化提出了一套完整的调整方案,并对此细化方案进行了具体的描述和举例说明。  相似文献   

4.
[目的/意义]《史记》是我国第一部纪传体史书,几乎囊括黄帝时代到汉武帝元狩元年3 000多年的重大历史事件。如何快速准确地发现这些历史事件及其之间的内在联系,对于透过历史现象、揭示历史实质以及发现历史规律具有重要意义。[方法/过程]在BERT模型和LSTM-CRF模型的基础上,提出面向《史记》的历史事件及其组成元素抽取方法,并基于此构建《史记》事理图谱。[结果/结论]实验结果表明,利用所提方法抽取历史事件及其组成元素的F1值分别达到0.823和0.760。通过事理图谱能够发现蕴含在《史记》中鲜为人知的知识,这为文献学、历史学、社会学等领域专家开展研究提供必要的资料准备。  相似文献   

5.
电子政务主题词表自动构建研究   总被引:4,自引:0,他引:4  
电子政务主题词表是电子政务信息组织和检索的重要语义工具。传统手工编制叙词表的方法已不再适用于网络环境。电子政务词表的自动构建技术主要有基于N-gram方法的词汇收集和选择词间关系的自动识别。要想编制一部性能优越且容易应用的词表,应将计算机自动构建与传统方式编制结合起来,取长补短。表7。参考文献10。  相似文献   

6.
基于蚁群优化的贝叶斯网络学习与知识概念图构建   总被引:2,自引:0,他引:2  
针对现有贝叶斯网络学习搜索效率不高、易陷入局部最优解问题,提出一种利用互信息熵作为启发式信息的蚁群优化搜索算法--ACOMI.该算法依据节点之间的互信息熵、交叉信息熵和网络的MDL评分进行贝叶斯网络最佳结构搜索.提出了多种搜索空间限制的策略,加速了问题的求解过程.实验表明,ACOMI算法得到的结果准确性高,搜索效率比同类算法(ACOB)有大幅提高.作者将其应用到e-learning中知识概念图的搜索和构建中,得到了很好的结果.  相似文献   

7.
领域本体自动构建研究   总被引:3,自引:1,他引:3  
本体作为语义基础被广泛应用于信息检索、人工智能、语义网络和知识管理等领域.然而本体的构建和维护工作费时费力,影响了本体的广泛应用.因此,研究者们尝试利用机器学习、数据挖掘等技术自动构建本体,提出诸多本体自动构建的理论和方法.本文在总结现存本体自动构建方法的同时深入研究了基于FCA(Formal Concept Analysis)的本体自动构建方法,主要包括:基于PAT-Tree的统计分词,文档特征选择,基于文档-关键词的形式背景生成,最后用FCA构建本体.实验表明,基于FCA的本体构建方法明显提高了本体自动化的程度,构建的本体具有较好的可信度.  相似文献   

8.
李达  李军纪 《编辑学报》2021,33(1):9-14
为研究红点指标与其他期刊科学计量指标的相关性,探讨它的合理使用范围,分析其在期刊出版和评价中的应用,本文选取《中国科技期刊引证报告(核心版)》(2018年)收录的56种医药大学学报的24项科学计量指标进行统计分析.同时,选取相关学报的关键词生成词云图,进一步探究红点指标的应用.通过分析发现,24项期刊科学计量指标中红点指标与核心被引半衰期、文献选出率、地区分布数、机构分布数、海外论文比、引用半衰期6项指标具有相关性,与其他18项指标没有相关性.医药大学学报的高频关键词中含有很多不具备体现期刊定位特点的医学常用词汇,如影响因素、治疗结果、学报等.因此可以认为,红点指标与其他期刊评价指标的相关性结果不具有广泛使用性,只有在同类期刊进行比较时才有意义.  相似文献   

9.
基于概率神经网络的文本自动分类研究   总被引:10,自引:2,他引:10  
施洁斌 《情报学报》2004,23(2):147-151
本文提出了将一种径向基网络的重要变形———概率神经网络应用于文本自动分类的研究 ,与常用的K 最邻近法相比 ,具有一定的优势 ,特别是在训练集中各类的训练样本数很不平衡时 ;与BP等其他神经网络相比 ,其特点是需调节的参数少 ,不需确定隐层数、隐层中的神经元数量等网络结构 ,比较容易使用。此外 ,从研究中的不同特征选择的评价函数来看 ,它们对分类有一定的影响 ,应用X2 统计进行特征选择的分类正确率最高 ,其次是文本证据权 ,而期望交叉熵的效果最差 ,说明特征选择在文本自动分类中也是非常重要的。  相似文献   

10.
识别领域知识演变转折点对于把握领域知识扩散规律具有重要意义。以主路径为桥梁,阐明领域知识扩散中的知识继承机制和知识改写机制,以及其中的知识演变现象。以直接引用文献间的信息传递关系为基础,利用互信息构建了反映领域知识演变的两个计量指标:RTP 和 RPT 。以 Web of Science 中太阳能领域文献为例,利用 Pajek 识别出该领域主路径;以主路径文献中的关键词为对象,统计全文中关键词出现的频次,计算演变转折指标并识别出了太阳能领域的知识演变转折点,通过文献分析证明了该方法的有效性。  相似文献   

11.
主要对化学结构情报线性标记法中的4 种方法, 即国际纯化学与应用化学联合会标记法、威斯韦塞尔标记法、置换- 节点- 键价标记法和简易分子线性条目输入系统进行比较研究, 由此提出一个理想的化学结构情报线性标记所应具备的特征。  相似文献   

12.
自动标引是现代信息检索研究工作的重点之一,论述了自动标引的整个过程中所应该注意的问题,并描绘了自动标引的流程图。  相似文献   

13.
国家珍贵古籍名录已经评审并公布了三批,笔者作为评审组工作人员,对评审概况作了简要回顾,较详尽地叙述了评审过程,并提出在填写申报书及参考《中国古籍善本书目》著录时应注意的问题,供业界同仁参考,以利今后更好的申报。  相似文献   

14.
网络环境中汉语叙词表的自动构建研究   总被引:2,自引:0,他引:2  
为解决网络信息检索效率低的问题,需要把叙词表等控制机制引入到网络检索系统中,但传统词表编制方式已经不能满足网络信息检索的需要.本文制定了一种汉语叙词表自动构建方案,以财税领域为例,采用模式识别、词聚类、同现分析等自然语言处理技术实现自动识别词间等同关系、等级关系和相关关系,从而构建一部财税领域叙词表,最后对所构建的叙词表进行测评.相比传统叙词表编制方法,自动构建叙词表能降低编表专家的智力负担,而且编表时间短,费用低,时效性强,符合普通用户的检索习惯.但对词间关系的识别不如人工编表时精当可靠,所以需要人工辅助判定.  相似文献   

15.
中医药本体概念描述体系的自动构建研究   总被引:3,自引:0,他引:3  
对中医药本体概念描述体系自动构建所需要的数据基础进行深入研究,在全面阐述数据加工方法及技术的基础上,利用自然语言处理(NLP)理论与方法对中医药领域中已有的公认领域知识进行重构与利用。成功实现中医药学知识描述体系的自动构建与获取,从而为中医药知识的挖掘与发现、利用奠定数据基础,并对领域本体的构建与进化进行有益的探索,为专业领域本体的自动构建提供理论依据及技术支持。  相似文献   

16.
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。  相似文献   

17.
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。  相似文献   

18.
汉语自动分词模式自动机构造研究   总被引:1,自引:2,他引:1  
基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。  相似文献   

19.
文章论述了字面相似聚类法的原理、实现方法、应用、并对该法作了评价。  相似文献   

20.
本文比较了中韩两国政府信息公开制度在立法进程、义务主体和权利主体的界定、信息公开的内容、公开程序和救济途径等五个方面的异同,并提出几点相关启示.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号