共查询到19条相似文献,搜索用时 62 毫秒
1.
本文介绍了数字图书馆的含义和特征,分析了信息抽取的概念、类型和技术,同时介绍了目前信息抽取技术在数字图书馆中的一些具体应用. 相似文献
2.
国外Web信息抽取研究综述 总被引:3,自引:0,他引:3
Web信息抽取旨在为人们提供获取网络知识单元的有力工具,以应对信息爆炸带来的严峻挑战。在回顾Web信息抽取基本理论的基础之上,评述了Web信息抽取主要研究内容的现状,并着重对Web信息抽取的评价研究和应用研究进行了介绍,以期有助于本研究继续向前发展。 相似文献
3.
随着信息抽取技术的日益发展,信息抽取的准确性、效率、覆盖率以及维护成本等综合性能的提高成为有待突破的核心问题.提升信息抽取系统在运行过程中的自我优化能力是解决这个问题的关键.本文针对目前信息抽取系统优化中存在的人工参与过多、训练集要求过高等问题,提出一种基于本体学习与动态内容识别相结合的自优化方式,即通过动态内容识别结构化抽取结果,借助发掘的新概念促进本体学习,之后用新本体生成新抽取模式,循环迭代,最终实现信息抽取系统不断自优化.最后设计了系统实验方案并进行实验,实验结果证明在该自优化方案下抽取的准确性与覆盖率得到显著提升. 相似文献
4.
基于XML的PDF文档信息抽取系统的研究* 总被引:3,自引:0,他引:3
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。 相似文献
5.
6.
邱亚娜 《图书馆工作与研究》2011,(1)
本文研究了通过信息抽取提取用户兴趣和需求来实现信息推送服务的课题.根据信息抽取过程,将基于信息抽取的信息推送系统划分为用户管理、资源管理、信息推送三个模块. 相似文献
7.
詹佳佳 《现代图书情报技术》2010,26(3):76-81
详细介绍信息抽取开源软件Web-Harvest,并在其基础之上进行功能扩展和改进,设计一个通用性强的Web信息抽取系统,重点阐述开发系统的设计思想和系统流程,并简单介绍系统的数据库表设计。最后,介绍该Web信息抽取系统的应用。 相似文献
8.
9.
10.
应用文献计量学的方法对1997-2005年国内外关于信息抽取的研究论文进行统计,并分别从论文的年代分布、期刊分布、著者及合著情况、主题分布4个方面进行分析,以期揭示国内外信息抽取研究的现状和主要发展趋势,为国内信息抽取研究提供一些借鉴。 相似文献
11.
从ACE会议看信息抽取技术的发展趋势* 总被引:2,自引:1,他引:1
介绍ACE测评会议的概况及其发展轨迹。在此基础上,结合ACE测评会议的测评任务、参加队伍、测评语料、测评结果等变化,分析信息抽取的发展现状,并对信息抽取的发展趋势进行探讨。 相似文献
12.
高文利 《现代图书情报技术》2010,26(1):83-87
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。 相似文献
13.
Web表格信息抽取研究综述 总被引:4,自引:0,他引:4
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。 相似文献
14.
阐述网络信息提取系统的研究现状。从信息提取技术和自动化程度两方面对现有网络信息提取系统进行对比,由此将网络信息提取系统分为非自动化、半自动化和全自动化三类。综合考虑标记方法、提取规则类型和特征、学习算法、用户参与度、适用性以及输出接口等因素,对三类系统的性能优劣进行评估。最后对网络信息提取系统进一步的研究工作进行了展望。 相似文献
15.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。 相似文献
16.
研究了一种能够实现对数据型网页中信息实施实时采集的信息技术。该技术能够智能识别表格结构,自动分离数据项,在对数据项的分析判断过程中,采用从单词上分类(By Words)和从表格排列方式(By Structure)划分相结合的方法,以Ontology思想为支撑,融合支持向量机算法(SVM)和隐马尔可夫模型(HMM)等一系列成熟模型。最后通过测试并将该技术应用于TBT预警信息动态采集子系统中,收到良好效果。 相似文献
17.
18.
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。 相似文献