首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
本文介绍了数字图书馆的含义和特征,分析了信息抽取的概念、类型和技术,同时介绍了目前信息抽取技术在数字图书馆中的一些具体应用.  相似文献   

2.
国外Web信息抽取研究综述   总被引:3,自引:0,他引:3  
Web信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Web信息抽取基本理论的基础之上,评述了Web信息抽取主要研究内容的现状,并着重对Web信息抽取的评价研究和应用研究进行了介绍,以期有助于本研究继续向前发展。  相似文献   

3.
随着信息抽取技术的日益发展,信息抽取的准确性、效率、覆盖率以及维护成本等综合性能的提高成为有待突破的核心问题.提升信息抽取系统在运行过程中的自我优化能力是解决这个问题的关键.本文针对目前信息抽取系统优化中存在的人工参与过多、训练集要求过高等问题,提出一种基于本体学习与动态内容识别相结合的自优化方式,即通过动态内容识别结构化抽取结果,借助发掘的新概念促进本体学习,之后用新本体生成新抽取模式,循环迭代,最终实现信息抽取系统不断自优化.最后设计了系统实验方案并进行实验,实验结果证明在该自优化方案下抽取的准确性与覆盖率得到显著提升.  相似文献   

4.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

5.
基于领域本体的信息抽取模式生成与系统实现   总被引:1,自引:0,他引:1  
马静  吴一占  刘思峰 《情报学报》2008,27(2):193-198
面对情报工作者日益增长的从Internet中及时获取特定信息或知识的需求,本文展开了web信息抽取技术在情报领域的应用研究.目前,信息抽取模式的自动获取成为一个技术难点,本文尝试引入基于领域本体的半自动抽取模式获取算法,该方法在领域本体的概念层次关系、属性特征和实例的结构本体指导下,选择其主要特征属性为匹配目标,自动学习并获取抽取模式.利用该算法到直升机产品信息抽取,运行结果验证:该算法简单有效,获得了较高的抽取效率和较准确的抽取结果.  相似文献   

6.
本文研究了通过信息抽取提取用户兴趣和需求来实现信息推送服务的课题.根据信息抽取过程,将基于信息抽取的信息推送系统划分为用户管理、资源管理、信息推送三个模块.  相似文献   

7.
详细介绍信息抽取开源软件Web-Harvest,并在其基础之上进行功能扩展和改进,设计一个通用性强的Web信息抽取系统,重点阐述开发系统的设计思想和系统流程,并简单介绍系统的数据库表设计。最后,介绍该Web信息抽取系统的应用。  相似文献   

8.
针对目前Web信息的混乱的特点,本文提出了利用信息抽取技术来处理Web信息的方案。  相似文献   

9.
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

10.
应用文献计量学的方法对1997-2005年国内外关于信息抽取的研究论文进行统计,并分别从论文的年代分布、期刊分布、著者及合著情况、主题分布4个方面进行分析,以期揭示国内外信息抽取研究的现状和主要发展趋势,为国内信息抽取研究提供一些借鉴。  相似文献   

11.
从ACE会议看信息抽取技术的发展趋势*   总被引:2,自引:1,他引:1  
介绍ACE测评会议的概况及其发展轨迹。在此基础上,结合ACE测评会议的测评任务、参加队伍、测评语料、测评结果等变化,分析信息抽取的发展现状,并对信息抽取的发展趋势进行探讨。  相似文献   

12.
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。  相似文献   

13.
Web表格信息抽取研究综述   总被引:4,自引:0,他引:4  
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。  相似文献   

14.
许琦 《图书情报工作》2011,55(3):106-124
阐述网络信息提取系统的研究现状。从信息提取技术和自动化程度两方面对现有网络信息提取系统进行对比,由此将网络信息提取系统分为非自动化、半自动化和全自动化三类。综合考虑标记方法、提取规则类型和特征、学习算法、用户参与度、适用性以及输出接口等因素,对三类系统的性能优劣进行评估。最后对网络信息提取系统进一步的研究工作进行了展望。  相似文献   

15.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。  相似文献   

16.
研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By Words)和从表格排列方式(By Structure)划分相结合的方法,以Ontology思想为支撑,融合支持向量机算法(SVM)和隐马尔可夫模型(HMM)等一系列成熟模型。最后通过测试并将该技术应用于TBT预警信息动态采集子系统中,收到良好效果。  相似文献   

17.
复杂网络为我们研究复杂性问题提供了一个新的视角和方法,激起了对于不同的实际网络特性的研究热潮。同时,信息抽取作为一门逐渐成熟的技术,在信息处理自动化中具有基础性的地位。将信息抽取和复杂网络研究相融合,通过信息抽取技术,可以抽取到节点信息、边的信息,为复杂网络的构建提供基本的数据准备,大大扩展了复杂网络的应用。文章首先介绍了信息抽取的基本概念和类型等,随后对复杂网络构建中主要的信息抽取技术作了简单的描述和分析。  相似文献   

18.
 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。  相似文献   

19.
论信息资源整合   总被引:41,自引:0,他引:41  
信息资源整合的目标是将分散的资源集中起来,把无序的资源变为有序,使之方便用户查找信息、方便信息服务于用户。如何提高信息资源的整合效率,满足用户对信息日益增长的需求,提升资源整合实施者的素质,使他们了解信息资源整合的概念、整合的理论基础、整合的方法和途径、整合涉及的技术、资源整合后引发的信息服务变革等知识是当前信息资源整合急待解决的关键问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号