首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
文章提出了一种基于本体的用户建模方法。首先,基于用户兴趣概念集合,分别从同主题源本体的RDFS闭包中抽取子本体,然后采用多策略映射方法将其合并形成初始用户本体;其次,基于各类用户Web使用数据,挖掘高频关键词,追踪用户兴趣变化,构建增量本体;然后,利用衰减函数和相关阈值,将增量本体与初始用户本体合并,在增加新概念及其关系的同时,剔除不再感兴趣的概念,以实现用户本体的自动优化。  相似文献   

2.
针对目前本体集成领域相关概念和集成工具较多、集成过程不一、集成方法介绍过少等问题,简要辨析本体集成的概念,给出本体集成的基本过程。对比分析国内外流行的本体集成工具,对目前本体集成领域新出现的方法,如形式化概念分析法、范畴论法、RDFS闭包图法等理论基础和实现过程进行详细分析,以便为国内学者在该领域的研究提供启发和指导。  相似文献   

3.
蒋婷  孙建军 《图书情报工作》2016,60(20):112-122
[目的/意义] 概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取。[方法/过程] 首先,在本体概念抽取的基础上,对文献中概念的类型进行分类,以便于后期关系动词搭配的概念类型来排除不符合条件的三元组;其次,确定学术文献中的关系类型,并采用C-value方法抽取表示关系的动词,进行本体关系的表示;再次,评价概念对的关联性,利用互信息法对概念对进行排序并去除非相关概念对,实验表明该方法非常有效;最后评价概念对与关系动词的关联,分析影响三元组关联的因素,再采用实验确定模型挖掘三元组,实验比较现有的关联规则挖掘的方法。[结果/结论] 结果表明本文提出的三元组选择模型效果明显超过现有的关联规则挖掘方法,并且在语料集扩大的情况下这种优势更为明显。  相似文献   

4.
基于本体的计算机语义分析方法可以有效的解决纪传中时间、人物、事件的提取分析问题.文章首先描述了时间和人物在纪传中的表述方式,然后基于本体对纪传研究领域内概念的描述,研究分析了如何构建纪传中时间和人物本体,以及如何利用这些本体为纪传研究服务.理论和实验证明,基于本体的信息抽取相比其它方式能够获取更高的覆盖率和精确度.  相似文献   

5.
领域本体的关系抽取研究   总被引:3,自引:0,他引:3  
利用机器学习和自然语言处理技术中的有关方法,研究从语料中抽取概念关系为领域本体构建服务。对等级关系以及领域关系的抽取方法作详细阐述,并通过实验证明该方法是有效的。  相似文献   

6.
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。  相似文献   

7.
基于本体的专利摘要知识抽取*   总被引:4,自引:0,他引:4  
采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出了一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库的进行尝试,验证了基于本体对专利摘要进行知识抽取的可行性。  相似文献   

8.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

9.
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。  相似文献   

10.
随着信息抽取技术的日益发展,信息抽取的准确性、效率、覆盖率以及维护成本等综合性能的提高成为有待突破的核心问题.提升信息抽取系统在运行过程中的自我优化能力是解决这个问题的关键.本文针对目前信息抽取系统优化中存在的人工参与过多、训练集要求过高等问题,提出一种基于本体学习与动态内容识别相结合的自优化方式,即通过动态内容识别结构化抽取结果,借助发掘的新概念促进本体学习,之后用新本体生成新抽取模式,循环迭代,最终实现信息抽取系统不断自优化.最后设计了系统实验方案并进行实验,实验结果证明在该自优化方案下抽取的准确性与覆盖率得到显著提升.  相似文献   

11.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

12.
13.
一种从WEB上抽取信息的方法   总被引:1,自引:0,他引:1  
韩立新  谢立 《情报学报》2004,23(1):45-51
由于WWW上的信息很多存储在HTML页面上 ,因此如何从HTML文档中抽取有用信息是一个迫切需要解决的问题。文中提出一种从HTML文档中抽取信息的方法。该方法综合运用关联规则法、模式匹配、语法规则、聚类法等技术来抽取信息 ,从而较好地解决了现有的抽取方法准确性较差、通用性较差、人工干预较多的问题。  相似文献   

14.
Web页面中文文本主题的自动提取研究   总被引:13,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

15.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

16.
This paper was presented on March 29, 1995, at thePublishers Weekly Multimedia Seminar.  相似文献   

17.
近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一.  相似文献   

18.
ABSTRACT

Moral Foundations Theory (MFT) and the Model of Intuitive Morality and Exemplars (MIME) contend that moral judgments are built on a universal set of basic moral intuitions. A large body of research has supported many of MFT’s and the MIME’s central hypotheses. Yet, an important prerequisite of this research—the ability to extract latent moral content represented in media stimuli with a reliable procedure—has not been systematically studied. In this article, we subject different extraction procedures to rigorous tests, underscore challenges by identifying a range of reliabilities, develop new reliability test and coding procedures employing computational methods, and provide solutions that maximize the reliability and validity of moral intuition extraction. In six content analytical studies, including a large crowd-based study, we demonstrate that: (1) traditional content analytical approaches lead to rather low reliabilities; (2) variation in coding reliabilities can be predicted by both text features and characteristics of the human coders; and (3) reliability is largely unaffected by the detail of coder training. We show that a coding task with simplified training and a coding technique that treats moral foundations as fast, spontaneous intuitions leads to acceptable inter-rater agreement, and potentially to more valid moral intuition extractions. While this study was motivated by issues related to MFT and MIME research, the methods and findings in this study have implications for extracting latent content from text narratives that go beyond moral information. Accordingly, we provide a tool for researchers interested in applying this new approach in their own work.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号