首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作.  相似文献   

2.
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。  相似文献   

3.
计算机自动语义分析是当前制约自然语言信息检索、信息抽取与机器翻译等应用技术发展的一个瓶颈问题.语义角色标注是语义分析的一种主要实现方式,而目前语义角色的自动标注主要采用基于统计的方法,由于训练数据的规模有限、语义角色类型多,面临严重的数据稀疏问题,处理结果一致性差.本文则采取基于规则的方法,选择汉语框架语义知识库(CFN)所提供的框架和框架元素作为语义标注体系,利用CFN的语义标注句子库,根据短语类型、句法功能以及短语内部构成和外部语境等其他句法语义特征分析框架元素的实现规律,构建语义标注规则,经测试取得了令人满意的结果,为解决语义分析问题探索了一条可行的路线.  相似文献   

4.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

5.
文章针对大规模政府开放公文的主题分类标注问题,提出一种基于多分类模型的政府开放公文主题分类自动标注方法。第一,公文主题分类标注的需求。针对主题分类标注不一致问题。开放公文所涉领域广泛,可以采用预训练模型(如BE RT)对公文提取词向量,从而保证文本分类的一致性。针对主题分类标注深度问题。自动主题分类方法需要针对公文全文,但考虑不同公文的全文长度存在极大差异,需要能够在全文本中抓住中心句以及中心词,并经过提炼后对其进行归类。  相似文献   

6.
在现有文献中语义标注描述的基础上,对语义标注的内涵和特征进行阐述,给出了语义标注的定义,论述了语义标注与网络标注的差异,分析了语义标注的主要特点;通过文献计量分析法分别从文献的年代分布、期刊来源分布、关键词分布三个方面的统计结果出发进行语义标注的研究现状分析,进而发现当前语义标注研究的侧重点;最后探讨了语义标注未来研究的发展趋势。  相似文献   

7.
自动图像标注技术是图像检索技术的最新发展,已经成为机器学习、图像语义理解和信息检索研究领域的热点.本文对自动图像标注目前国内外的研究概貌进行了分析,按照自动图像标注中的关键要点--语义学习的不同,将现有文献中的自动图像标注技术分为三个类别,并对这三个类别分别进行描述,同时总结了自动图像标注派生出的两个新的研究方向.最后对目前研究中存在的问题进行了讨论,并探讨了自动图像标注领域的进一步研究方向.  相似文献   

8.
随着电子商务的飞速发展,用户评论信息对潜在顾客、商家和商品生产商的影响越来越大.由于在线的评论信息十分海量,所以很难通过人工浏览方式进行全面获取.评论句子往往具有很强的主观性,本文提出了整体方案帮助解决评论信息的获取、处理和可视化显示.通过利用词语的相似性计算方法和字的情感倾向分布概率计算方法,实现了极性词典的倾向值量化计算和极性词典的自动扩展.通过利用语义角色标注实现对评论句子的浅层语义分析,并利用统计结果设计出计算句子细粒度情感倾向值的方法.实验结果证明,基于语义角色标注方法比基于词性标注方法在句子细粒度情感倾向值计算中更有效.  相似文献   

9.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

10.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

11.
[目的/意义]传统的文献主题提取方法主要是通过关键词、摘要、全文等提取文献的主题内容,使得主题内容不全面或存在"噪音",而从文献内容语义出发,结合引用内容提取文献的主题,能够更加准确地提取出多文档的主题内容。[方法/过程]提出一种面向多文档的基于语义和引用加权的科技文献主题提取算法,利用文献的引用内容和关键词构建Labeled-LDA主题模型,形成文档-主题概率向量,再根据K-means聚类方法聚类文档,提取每类文档集的主题内容。[结果/结论]以PubMed生物医学数据库中的数据作为实验数据,测试该方法的可靠性,结果证明该方法能够准确、全面地提取出多文档的主题内容。  相似文献   

12.
在对目前异构数据集成研究成果进行比较研究的基础上,引入语义处理与控制技术,对国防专利情报系统异构数据集成语义控制以及专利系统数据模式转换与结构冲突消解方法进行研究,提出消除专利数据命名冲突和实现专利数据语义映射的机制,实现国防专利情报系统之间的信息交互和共享.国防专利情报系统对其他特殊类型的图书馆专利文献系统具有一定的借鉴意义.参考文献12.  相似文献   

13.
个性化语义TRIZ构建研究   总被引:2,自引:1,他引:1  
[目的/意义]研究构建个性化语义TRIZ的方法、流程与关键技术.该语义TRIZ可对专利中隐性技术信息进行深度揭示与语义关联.[方法/过程]设计一个开放性语义TRIZ框架.该框架从概念空间、索引空间、应用空间3个维度构建语义TRIZ;从微观层SAO、中观层技术主题、宏观层技术范畴3个层面描述语义TRIZ索引结构.基于该框架,以大口径光学元件专利为例构建领域个性化语义TRIZ.[结果/结论]针对中等规模专利数据集(数千条),本方法能有效地半自动构建领域个性化语义TRIZ,支持专利深度技术挖掘应用.  相似文献   

14.
俞琰  赵乃瑄 《图书情报工作》2018,62(21):118-126
[目的/意义]针对专利主题分析中以词为基本单位会造成专利中的多词术语难以被识别、主题模型结果不佳的问题,提出融入术语的专利主题发现模型,以解决该问题。[方法/过程]模型首先引入类别熵,有效地识别出专利文献中的术语;然后利用泛化波利亚瓮模型增加语义相似术语分配到同一主题的概率,以缓解术语作为基本主题模型分析单位所带来的数据稀疏性问题。[结果/结论]实验结果表明本文提出的模型包含的术语信息提高了主题生成的质量,使主题表示具有更强的可读性和主题判别性。  相似文献   

15.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

16.
17.
The deep learning has become an important technique for semantic relation classification in patent texts. Previous studies just borrowed the relevant models from generic texts to patent texts while keeping structure of the models unchanged. Due to significant distinctions between patent texts and generic ones, this enables the performance of these models in the patent texts to be reduced dramatically. To highlight these distinct characteristics in patent texts, seven annotated corpora from different fields are comprehensively compared in terms of several indicators for linguistic characteristics. Then, a deep learning based method is proposed to benefit from these characteristics. Our method exploits the information from other similar entity pairs as well as that from the sentences mentioning a focal entity pair. The latter stems from the conventional practices, and the former from our meaningful observation: the stronger the connection between two entity pairs is, the more likely they belong to the same relation type. To measure quantitatively the connection between two entity pairs, a similarity indicator on the basis of association rules is raised. Extensive experiments on the corpora of TFH-2020 and ChemProt demonstrate that our method for semantic relation classification is capable of benefiting from characteristic of patent texts.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号