首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
专利技术术语的抽取方法   总被引:2,自引:0,他引:2  
针对专利中缺少技术关键词的问题,在对主要的术语抽取方法研究的基础上,引入C-value方法,修改了术语构词规则和术语度(termhood)计算公式,用PC-value值测量一个词语的术语度,提出了专利技术术语抽取的流程模型,实现了从专利中抽取技术术语.该模型分为四个阶段:①分词和词性标注; ②运用语言学规则取得可能术语列表; ③计算词语的术语度值,取得候选术语列表; ④领域专家评估并确定术语.实验结果证明,提出的方法能很好地抽取中文专利技术术语,在长术语的抽取和抽取精度上比C-value方法更具有优势.  相似文献   

2.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

3.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性.  相似文献   

4.
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。  相似文献   

5.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

6.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

7.
随着国家科技战略规划发展的进一步深化,知识产权战略已经提升到国家层面,未来国家重点产业持续发 展和新兴产业创新开拓都与知识产权战略息息相关。本文以电动汽车领域专利文献为基础,从专利文献加工和解决专 利文献术语抽取的研究问题入手,提出专利文献再处理的基本流程以及一种基于专利术语语言特点和统计计算相结合 的专刊文献术语抽取识别方法,并在电动汽车专利文献数据集上进行了验证和测试。测试结果表明,本文提出的方法 是有效的。  相似文献   

8.
[目的/意义]提出利用丰富的论文关键词知识获取专利文本之外的有效特征,以弥补因专利文本集自身信息不足而制约专利术语抽取效果这一缺陷,提高专利术语抽取准确率。[方法/过程]根据相关论文的关键词知识,分别提出领域相关度和首尾度两个特征,以衡量候选术语成为术语的可能性,并将这些特征融入到专利术语抽取的传统方法之中。[结果/结论]实验结果表明,利用论文关键词得到的候选术语领域相关度和首尾度信息,可使结合论文关键词知识的方法比传统的术语抽取方法的准确率有了明显的提升。  相似文献   

9.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

10.
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。  相似文献   

11.
高水平满意度不一定就会导致高水平忠诚度,其间存在着高满意度、低忠诚度现象,这就是所谓的"满意度陷阱"。从读者满意与忠诚的内涵及其重要性入手,运用双因素理论,以读者心理和行为研究的视角,对这一现象的成因进行分析。将稳抓保健因素、开发激励因素作为读者服务工作的突破点,并就如何避免满意度陷阱、提高高校图书馆读者忠诚度提出几点建议。  相似文献   

12.
The present study examined frames and second-level agenda-setting attributes used by national and local newspapers to cover the 2012 Aurora, Colorado shootings. Unlike research examining coverage of school shootings, this study examined a mass shooting that did not occur at a school. Both newspaper types published a similar number of articles—though national articles tended to be longer—and virtually stopped coverage after 18 days. While previous coverage tended to focus on shootings’ societal implications, Aurora coverage focused more on individuals involved in the time immediately surrounding the shootings. National papers focused on the gunman, while the local press tended to focus on victims. Mass shootings in general tend to be salient news items, but the present study further shows news outlets may now focus on incidents’ specifics instead of common characteristics they might share, perhaps because audiences have an existing understanding of them. The shootings were framed in terms of gun control; national newspapers used this frame more often than did local newspapers. Both newspaper types tended to discuss gun control as directly related to the Aurora shootings, rather than as a societal or continuing need. Results offer further evidence that second-level agenda-setting and framing are distinct concepts.  相似文献   

13.
社会学分析框架下的图书馆学学科属性与学科建设   总被引:1,自引:0,他引:1  
利用社会学中学科属性定位的扩展分析框架,对图书馆学的学科属性进行深入分析。从学科的认知维度看,图书馆学是一门"应用"性的"软"科学;从学科的组织维度来看,图书馆学是一门"分野度"较高而"城市化度"较低的学科。因此,在图书馆学学科建设发展中,应注意整合资源促进主流范式及学派的形成,重视图书馆学理论体系的构建与完善,并着力培育弘扬图书馆学研究的科学精神。  相似文献   

14.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

15.
科技文献全文主题识别方法实证研究   总被引:1,自引:0,他引:1  
利用基于多词短语词频分析和短语邻近分析的DT方法,结合学科领域术语识别内容,对美国国家航空航天局2011-2020年战略规划做全文主题识别。实验证明,改进的DT方法可以有效地识别全文文献主题,一定程度上能够简化情报研究人员的工作。  相似文献   

16.
文章对国内外少年儿童阅读服务工作的现状特点进行了一定层面的研究,阐述了内地少年儿童图书馆发展中存在的现实问题,提出了改进措施。  相似文献   

17.
论学术期刊的固有特性   总被引:3,自引:0,他引:3  
学术期刊与其他连续出版物相比,除了在本质属性方面有其共性,如文献内容的连续性、新颖性,信息的大容量性,文献题名的统一性,期(册)编号的系统性,出版时间的周期性,撰文作者的众多性等,还有其固有的特性,即学术研究中的探索性、研究成果中的系统性、使用和存贮...  相似文献   

18.
作为一种经济产品,数字保存具有基本经济属性和核心经济属性。数字保存的基本经济属性是供给与需求,影响数字保存基本经济属性的因素有数字资源的保存价值、保存决策者的保存动机以及数字保存利益相关方承担的保存职责。数字保存的核心经济属性包括数字保存是一种派生需求、数字保存对象是一种价值递减产品、数字保存对象是一种非排斥性消费产品、数字保存是一种路径依赖性过程。  相似文献   

19.
韩国司书培养体系及资格制度,是随着图书馆的环境变化和1963年韩国《图书馆法》的制定修订而发展至今的。本文不仅考察了司书及其资格制度的变迁过程,而且考察了司书资格条件及制度的实施效果;探讨了现行的韩国司书培养制度存在的问题,并提出了解决问题的方案。  相似文献   

20.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号