首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 437 毫秒
1.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

2.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

3.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

4.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

5.
卢玲  昌磊 《传媒》2015,(5):59-60
本文围绕PDF文档转化为XML和数字图书重组等数字图书跨终端出版的关键技术,详细描述了一套跨终端数字图书出版的设计方案.文章首先分析了PDF文档的结构,再在此基础上对PDF进行版面分析和文本内容提取,形成描述文件结构和内容的XML文档,最终实现基于XML文档的跨终端出版设计.  相似文献   

6.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

7.
XML文档自动聚类研究   总被引:6,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

8.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

9.
XML文档的约束及其应用探讨   总被引:1,自引:0,他引:1  
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。  相似文献   

10.
王知津  赵洪 《图书馆杂志》2007,26(11):20-26
传统的关键词检索技术在文本检索和HTML文档检索上得到了广泛的应用,但它运用于检索XML文档时却不尽如意.为此,本文引入一种改进的遗传算法,对XML文档上的关键词检索进行了研究,提出了XML文档标记的自适应遗传训练算法与XML文档上关键词语义检索及结果排序算法.  相似文献   

11.
中文图书自动编目的实现   总被引:4,自引:0,他引:4       下载免费PDF全文
目前一些出版社运行的复合出版系统包含有ECIP软件,灵活运用XML语言、排版软件、数字文献处理、元数据研究诸方面的技术,在制作复合文件的处理过程中,真正实现了中文图书的自动编目。参考文献7。  相似文献   

12.
This study introduces a novel framework for evaluating passage and XML retrieval. The framework focuses on a user’s effort to localize relevant content in a result document. Measuring the effort is based on a system guided reading order of documents. The effort is calculated as the quantity of text the user is expected to browse through. More specifically, this study seeks evaluation metrics for retrieval methods following a specific fetch and browse approach, where in the fetch phase documents are ranked in decreasing order according to their document score, like in document retrieval. In the browse phase, for each retrieved document, a set of non-overlapping passages representing the relevant text within the document is retrieved. In other words, the passages of the document are re-organized, so that the best matching passages are read first in sequential order. We introduce an application scenario motivating the framework, and propose sample metrics based on the framework. These metrics give a basis for the comparison of effectiveness between traditional document retrieval and passage/XML retrieval and illuminate the benefit of passage/XML retrieval.  相似文献   

13.
Most recent document standards like XML rely on structured representations. On the other hand, current information retrieval systems have been developed for flat document representations and cannot be easily extended to cope with more complex document types. The design of such systems is still an open problem. We present a new model for structured document retrieval which allows computing scores of document parts. This model is based on Bayesian networks whose conditional probabilities are learnt from a labelled collection of structured documents—which is composed of documents, queries and their associated assessments. Training these models is a complex machine learning task and is not standard. This is the focus of the paper: we propose here to train the structured Bayesian Network model using a cross-entropy training criterion. Results are presented on the INEX corpus of XML documents.  相似文献   

14.
XML标记的语义   总被引:1,自引:0,他引:1  
尽管 XML 文档类型定义提供了一种机器可读形式的、能够说明 XML 语言语法的机制,但目前并没有类似的机制来指定 XML 词汇表的具体语义。这意味着没办法说明 XML 标记的意义,由 XML 形式呈现的事实和关系无法清晰、全面和规范地定义。这在实践和理论上都引起了严重的后果。从积极的方面看,XML 结构能被赋予任意语义,并可用于最初的设计者无法预见的领域。从不太积极的方面来看,内容开发者和软件工程师必须依靠乏味的文档,或者更糟的情况是,只能依靠猜测标记语言设计者的意图来开展工作。这一过程既费时费力,又易出错,还无法核实验证。即便是设计者当初的建档工作做得相当完美,不如意的情况还是会发生。另外,对标记语义本质研究的匮乏也意味着属于工程应用领域的数字文档处理根本没有什么理论。尽管目前正在进行的一些工程(XML 模式、RDF、语义网)已经取得了一些成绩,但是这些工程都没有直接全面地解决XML 标记语义的核心问题。本文回顾了标记意义这个概念的发展历史,阐明了解释 XML 正式语义的动机,并介绍了一个研究语义的科研项目——BECHAMEL 标记语义计划。  相似文献   

15.
本文在比较研究XML的DTD和Schema信息描述机制基础上 ,提出基于Schema模式的XAMC信息描述新方案 ,利用XMLSchema技术定义出MARCAMC数据的若干规则和限制 ,并将MARCAMC数据以一种XML文档XAMC的形式加以处理。最后将该研究付诸于XAMC网上信息发布与检索的实现  相似文献   

16.
XML搜索引擎研究   总被引:1,自引:0,他引:1  
首先分析传统搜索引擎查准率不高的原因,然后介绍XML以及XML搜索引擎研究现状,并对XML搜索引擎所涉及的文档存储、索引、查询等关键技术进行详尽探讨。在此基础上,设计现行网络环境下的XML搜索引擎模型。认为该模型可充分利用XML文档的DTD模式信息,并能大幅度提高查询的准确率。  相似文献   

17.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号