首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 873 毫秒
1.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

2.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

3.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

4.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

5.
宋江春  沈钧毅 《情报学报》2006,25(4):488-492
提出了一个新的基于双向近邻技术的多层文档聚类算法。使用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向。利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高。最后对算法的有效性、可伸缩性和时间复杂度进行了研究。  相似文献   

6.
XML文档的约束及其应用探讨   总被引:1,自引:0,他引:1  
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。  相似文献   

7.
常娥 《图书情报工作》2012,56(11):89-92
结合潜性语义索引(latent semantic index,LSI)理论和K-means聚类法,提出一种改进的文本自动聚类方法,即首先利用N-gram统计法抽取文档关键词,并应用潜性语义索引LSI对构建文档的向量空间模型进行降维,然后采用K-means算法进行文本聚类。实验表明,该算法进行文本聚类的准确度最高可达84.7%。  相似文献   

8.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

9.
新一代可扩展置标语言XML具有面向文档、面向数据和面向语义的功能,能够很好地保证文档一体化过程所产生的电子文件的凭证价值,因此,XML已经成为文档一体化过程中不可或缺的工具.本文从多层次、多角度对文档一体化领域中XML的研究现状进行了统计,并对统计的结果进行了阐述.  相似文献   

10.
本文在概述数据挖掘技术的基本概念、分析方法的基础上,分析与比较了文本自动聚类算法;综述了国内外面向MEDLINE文献数据库的数据挖掘、知识提取研究;简述了可扩展标识语言(XML)的基本概念、文档格式及其在数据管理及数据挖掘中的应用.  相似文献   

11.
XML搜索引擎研究   总被引:1,自引:0,他引:1  
首先分析传统搜索引擎查准率不高的原因,然后介绍XML以及XML搜索引擎研究现状,并对XML搜索引擎所涉及的文档存储、索引、查询等关键技术进行详尽探讨。在此基础上,设计现行网络环境下的XML搜索引擎模型。认为该模型可充分利用XML文档的DTD模式信息,并能大幅度提高查询的准确率。  相似文献   

12.
基于XML的Web日志挖掘研究*   总被引:2,自引:0,他引:2  
设计一个基于XML的Web日志挖掘体系结构,简要介绍XGMML和LOGML,并在此基础上讨论LOGML文档的生成方法及利用Apriori算法对日志文档进行频繁集、频繁序列和频繁子图挖掘。  相似文献   

13.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

14.
文章从发文角度和收文角度两个方面谈了作者对档案与文件的关系的认识:无论从发文角度还是从收文角度看,档案与文件的关系都可以概括为:文件是档案的一部分,档案包含文件.同时,文章针对刘东斌先生的"档案形成在前"和"收文不是档案"的观点谈了不同看法.  相似文献   

15.
《中图法》可视化研究   总被引:2,自引:0,他引:2  
首先用XML对<中图法>分类体系进行存储,利用Java与DOM实现此体系的截词检索,并且集成普通树型和双曲树模式,采用普通模式、长类名模式,以及在显示区域内的节点上停留鼠标显示其详细类目名称的方式显示检索结果,对整个分类体系及检索结果实现可视化,促进了<中图法>分类体系的方便使用.图4.参考文献13.  相似文献   

16.
XML搜索引擎探微   总被引:3,自引:0,他引:3  
在简述XML的基础上,从现有的搜索引擎的缺陷、开发XML搜索引擎的条件、XML搜索引擎的分类及其构成等方面出发,对XML搜索引擎进行比较详尽的探讨。  相似文献   

17.
网络型电子图书探析   总被引:2,自引:0,他引:2  
网络型电子图书是近年来发展迅速的一种新型图书资源。文章在探究网络电子图书内涵与特性的基础上 ,归纳了其主要信息源 ,并分析了其发展的主要问题及解决之道。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号