首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
[目的/意义]提出利用丰富的论文关键词知识获取专利文本之外的有效特征,以弥补因专利文本集自身信息不足而制约专利术语抽取效果这一缺陷,提高专利术语抽取准确率。[方法/过程]根据相关论文的关键词知识,分别提出领域相关度和首尾度两个特征,以衡量候选术语成为术语的可能性,并将这些特征融入到专利术语抽取的传统方法之中。[结果/结论]实验结果表明,利用论文关键词得到的候选术语领域相关度和首尾度信息,可使结合论文关键词知识的方法比传统的术语抽取方法的准确率有了明显的提升。  相似文献   

2.
随着国家科技战略规划发展的进一步深化,知识产权战略已经提升到国家层面,未来国家重点产业持续发 展和新兴产业创新开拓都与知识产权战略息息相关。本文以电动汽车领域专利文献为基础,从专利文献加工和解决专 利文献术语抽取的研究问题入手,提出专利文献再处理的基本流程以及一种基于专利术语语言特点和统计计算相结合 的专刊文献术语抽取识别方法,并在电动汽车专利文献数据集上进行了验证和测试。测试结果表明,本文提出的方法 是有效的。  相似文献   

3.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

4.
杨雅娜  刘胜奇 《情报工程》2015,1(5):025-031
提出 ATValue(Advanced TValue and Fieldhood Integration) 术语抽取法。为提高术语抽取质量,在 TValue 五属性的基础上,提出领域度。通过相关性分析获得六属性组合值 AValue,最后识别AValue 高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue 术语抽取法的F值约比 TValue 术语抽取法高出 2 个百分点,原因在于 ATValue 的领域度测算了词串中各种单词对领域的贡献。  相似文献   

5.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性.  相似文献   

6.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

7.
科技术语属性抽取方法研究*   总被引:3,自引:0,他引:3  
使用共现分析的方法从术语定义抽取术语属性,然后使用对应分析的方法对科技术语和术语属性之间的关系进行分析,并使用图形作为表达方式。最后利用市场营销学科领域的科技文献进行实证研究,对市场营销的概念进行深入挖掘,发现市场营销领域学科研究重点和研究内容等有价值的信息。  相似文献   

8.
基于词形规则模板的术语层次关系抽取方法   总被引:1,自引:0,他引:1  
术语层次关系抽取是领域概念关系体系构建的重要基础.针对目前术语关系抽取中手工实现的问题,提出了基于词形规则模板匹配的术语层次关系抽取方法,实现从科技论文文本中抽取类属关系(IS-A)和整体部分关系(PART-OF)关系.利用复合术语的head和modifier特征,比较两个术语之间存在的边缘共用词汇,构造模板来确定它们之间的IS-A和PART-OF关系;提出泛化度指标,用于测量两个术语在概念层次树上的相对位置;提出相关度概念,用于测量两个术语之间在语义上的相关性.对不存在共用词汇和不匹配模板的术语采用泛化度差值和相关度来判断它们之间是否存在层次关系.实验从信息资源管理领域的论文文本中提取层次关系术语对1306对,准确率达到92.5%,证明提出的方法是有效的.  相似文献   

9.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

10.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

11.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

12.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

13.
鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。  相似文献   

14.
科技报告、专利文献和标准文献资源检索与利用   总被引:4,自引:0,他引:4  
本文着重叙述中外文的科技报告、专利文献和标准文献这三种文献检索与获取方法,旨在为科技工作者提供快速、准确地检索和获取这三类文献资源的途径.  相似文献   

15.
[目的/意义]对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型.[方法/过程]以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对...  相似文献   

16.
通过对专利文献的类型、特点及搜集途径的论述,探讨了网络环境下如何利用专利文献资源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号