首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

2.
查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能.与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展.本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度.  相似文献   

3.
个性化检索是信息检索领域研究的热点。要实现个性化检索必须收集用户兴趣。用户兴趣不能一概而论,针对不同的查询,用户的兴趣应该不同。选取与当前查询相关的检索历史构建查询上下文,通过查询上下文对检索结果进行重新排序。实验证明,个性化检索性能有所提高,提高的因素来自于最临近的几次检索历史,而更长的历史数据会使系统的运行效率下降,同时还会带来嗓音。
  相似文献   

4.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。  相似文献   

5.
针对目前Web信息的混乱的特点,本文提出了利用信息抽取技术来处理Web信息的方案。  相似文献   

6.
刘洋  崔雷 《图书情报工作》2014,58(6):101-104
以引文上下文为研究对象,探讨来自于引文上下文、目标文献摘要以及目标文献自标医学主题词(下称主题词)三者间的符合程度,定量分析引文上下文在表征目标文献内容特征时的作用。以被Circulation杂志高频引证的5篇研究类论文作为目标文献,提取其施引文献的全部引文上下文,并对其进行分词及主题词匹配;将其结果与目标文献摘要提取的主题词以及文献自标的主题词进行两两比较。结果表明,引文上下文与目标文献摘要具有较高的符合度,而且在表征被引文献内容特征的效果上明显具有优势。  相似文献   

7.
董旻  方曙 《图书情报工作》2007,51(10):25-28
针对Deep Web信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用Deep Web信息资源的目的。  相似文献   

8.
从ACE会议看信息抽取技术的发展趋势*   总被引:2,自引:1,他引:1  
介绍ACE测评会议的概况及其发展轨迹。在此基础上,结合ACE测评会议的测评任务、参加队伍、测评语料、测评结果等变化,分析信息抽取的发展现状,并对信息抽取的发展趋势进行探讨。  相似文献   

9.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

10.
本介绍了因特网概况及其主要查询工具的一些情况,阐述了信息抽取、信息检索的定义及其相互关系。主要介绍了模板处理的含义、应用过程及其主要应用领域,并探讨了模板处理方法的研究及开发工作。  相似文献   

11.
基于本体的查询扩展与规范   总被引:9,自引:0,他引:9  
研究本体支持下的智能检索问题。利用语义的层次结构和蕴涵关联量化领域概念的关联程度实现查询扩展,并采用RDF的三元组方式规范检索关键词,依据本体中的关联重构用户查询需求,以匹配策略实现智能检索。经过实例计算与分析,验证该方法的合理性,可行性及特点。  相似文献   

12.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

13.
基于关联规则挖掘的查询扩展模型研究   总被引:1,自引:0,他引:1  
为了将关联规则挖掘技术更好地应用于信息检索查询扩展,通过对基于关联规则挖掘的查询扩展模型的深入研究,归纳出4类共13种查询扩展模型,理论分析和实验比较各个查询扩展模型的检索性能,试图发现一些优秀的扩展模型。  相似文献   

14.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

15.
跨语言信息检索中的查询翻译方法研究   总被引:1,自引:0,他引:1  
文章介绍了跨语言信息检索查询翻译的四种基本方法,并且对目前查询翻译过程中所遇到的问题及现阶段的研究进展进行了总结分析,最后总结出跨语言信息检索查询翻译未来的发展方向。  相似文献   

16.
Information Retrieval Systeme haben in den letzten Jahren nur geringe Verbesserungen in der Retrieval Performance erzielt. Wir arbeiten an neuen Ans?tzen, dem sogenannten Collaborativen Information Retrieval (CIR), die das Potential haben, starke Verbesserungen zu erreichen. CIR ist die Methode, mit der durch Ausnutzen von Informationen aus früheren Anfragen die Retrieval Peformance für die aktuelle Anfrage verbessert wird. Wir haben ein eingeschr?nktes Szenario, in dem nur alte Anfragen und dazu relevante Antwortdokumente zur Verfügung stehen. Neue Ans?tze für Methoden der Query Expansion führen unter diesen Bedingungen zu Verbesserungen der Retrieval Performance . The accuracy of ad-hoc document retrieval systems has reached a stable plateau in the last few years. We are working on so-called collaborative information retrieval (CIR) systems which have the potential to overcome the current limits. We define CIR as a task, where an information retrieval (IR) system uses information gathered from previous search processes from one or several users to improve retrieval performance for the current user searching for information. We focus on a restricted setting in CIR in which only old queries and correct answer documents to these queries are available for improving a new query. For this restricted setting we propose new approaches for query expansion procedures. We show how CIR methods can improve overall IR performance.
CR Subject Classification H.3.3  相似文献   

17.
对于搜索引擎返回的结果太多且较少考虑用户个性差异等缺陷,提出根据用户查询意图,实时给予多个主题的搜索建议,帮助用户更准确地描述所需信息,修正查询词与真实意图之间的差距,提高检索效率。同时运用K-means算法,对资源类别的意图特征值相似用户进行聚类,缩小查找目标对象最近邻居的范围,提高搜索建议的实时响应速度。实验结果表明,该方法是可行的。  相似文献   

18.
 针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。  相似文献   

19.
基于本体的军备情报抽取系统主要由两部分构成:知识库和处理程序。该系统基于文本分类技术实现武器类别判定,基于命名实体识别技术实现武器对象判定。依据句法语义约束所形成的信息抽取规则,实现军备情报抽取,并依据本体在一定程度上实现语义层面上的信息整合。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号