共查询到20条相似文献,搜索用时 15 毫秒
1.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。 相似文献
2.
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。 相似文献
3.
针对信息检索角度的XML的结构化检索问题,利用基于倒排文件的方法,使用NEXI作为检索语言,在基于XML的数字图书馆检索实验系统WHU-XML上对其进行实现,并具体分析查询语言的解析方法以及所采用的结构化检索算法。 相似文献
4.
5.
基于文档结构的向量空间检索模型研究 总被引:9,自引:0,他引:9
分析了传统向量空间检索模型在网络信息检索中的不足 ,给出了基于文档结构的向量空间检索模型。该模型将文档在逻辑上分成N段 ,依据特征项对文档内容代表能力的不同 ,选择有限的最能代表逻辑段内容的特征项构造文本逻辑段的特征项向量与权值向量 ,并以此为基础计算文档与提问的匹配相似度值 ,从而决定匹配文档的检出与排列顺序。进行了两种模型算法时间复杂度的比较分析 ,讨论了改进模型的可能应用前景和存在问题。 相似文献
6.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
7.
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。 相似文献
8.
新一代可扩展置标语言XML具有面向文档、面向数据和面向语义的功能,能够很好地保证文档一体化过程所产生的电子文件的凭证价值,因此,XML已经成为文档一体化过程中不可或缺的工具.本文从多层次、多角度对文档一体化领域中XML的研究现状进行了统计,并对统计的结果进行了阐述. 相似文献
9.
10.
基于Ontology的文档过滤研究 总被引:2,自引:0,他引:2
区分文档过滤、信息过滤和文本过滤并介绍文档过滤技术的研究现状;提出基于Ontology的文档过滤的设想,认为其优势在于灵活、共享性好、有利于进行个性化服务等;讨论基于Ontology的文档过滤的实施过程,包括构建准备、本体构建、本体调用,重点阐述公共本体、用户本体和文档本体的构建方法以及实施过程中涉及的技术体系;最后指出今后的努力方向。 相似文献
11.
12.
随着气象数据规模快速增长,气象预报和气候分析对数据服务时效性要求的提高,传统的气象数据存储和服务模式面临一定的挑战.本文提出了结合了hadoop技术的气象数据存储检索应用模式,并进行了实验和性能测试,以评估其实现效果.实现中针对代表性的结构化与非结构化气象业务数据,分别进行了测试,并提出优化方法.性能测试中对于自动站结构化数据的检索,大部分响应时间在毫秒级;对于大结果集的雷达基数据非结构化数据的检索响应时间也在秒级.本文认为基于hadoop的气象数据存储检索可作为应对海量气象数据增长带来的存储服务问题的有效解决途径之一. 相似文献
13.
总结了文档搜索引擎发展过程中存在的两种主要解决方案,并分析这两种解决方案在检索功能上的差异,最后提出了文档搜索引擎的发展前景. 相似文献
14.
15.
16.
17.
18.
本文针对我国文献资源建设上存在的问题,从理论上阐述了加强我国文献资源整体化建设的必然性和可行性,并对我国文献资源整体化建设的发展方向、布局模式及当前的主要工作任务提出了一些建设性意见和看法. 相似文献
19.
20.
在档案管理创新过程中,必须转变传统的思维模式,树立以利用者为中心和知识服务体系的创新目标,采取文档一体化的管理模式,突破实体档案的局限,直接对信息进行管理、加工和利用。 相似文献