首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
XML文档自动聚类研究   总被引:6,自引:4,他引:6  
潘有能 《情报学报》2006,25(2):215-220
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。  相似文献   

2.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

3.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。  相似文献   

4.
新一代可扩展置标语言XML具有面向文档、面向数据和面向语义的功能,能够很好地保证文档一体化过程所产生的电子文件的凭证价值,因此,XML已经成为文档一体化过程中不可或缺的工具.本文从多层次、多角度对文档一体化领域中XML的研究现状进行了统计,并对统计的结果进行了阐述.  相似文献   

5.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

6.
基于层次分类体系的知识地图自动构建方法研究   总被引:1,自引:0,他引:1  
知识地图是组织实施知识管理的有效工具.随着组织中知识资源存储量的日益增加,手工编制知识地图的方式显得非常低效,甚至难以完成.针对组织中以文本形式大量存在的显性知识,提出了一种基于层次分类体系的知识地图结构,并提出了一个以层次分类方法为核心的知识地图自动生成方法,用来自动构建符合组织需求的知识地图.最后通过实验验证了该层次分类方法的有效性,并给出结论.  相似文献   

7.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。  相似文献   

8.
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。  相似文献   

9.
随着信息技术的飞速发展,文档自动分类成为信息组织、知识管理的重要方法.随着在线资源应用的增长以及各类应用和资源的普及,需要采用文本挖掘、机器学习和自然语言处理等技术和方法论从电子文件中获取信息,这样使得对各类信息的分类和提取成为一个新兴的探索领域.文章针对电子文件自动分类的特点,对其中采用的文档表现、分类器构造、知识提取等技术和常用的电子文件自动分类方法作了简要介绍.  相似文献   

10.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

11.
文章研究了自动化技术文献分类的三个问题:自动化技术文献的分类标准;自动化技术文献的分类体系;自动化技术文献的分类方法。  相似文献   

12.
白国应 《晋图学刊》2004,(1):14-20,34
文章研究了矿业工程文献分类的三个问题:矿业工程文献的分类标准;矿业工程文献的分类体系;矿业工程文献的分类方法。  相似文献   

13.
文章研究了矿业工程文献分类的三个问题:矿业工程文献的分类标准;矿业工程文献的分类体系;矿业工程文献的分类方法。  相似文献   

14.
基于XML技术的中国电子公文结构设计研究   总被引:1,自引:0,他引:1  
论文首先指出了研究中国电子公文结构设计的目的与意义,并明确了中国电子公文结构设计的基本概念与原理,还对XML置标语言技术进行了研究。在此基础上,分析得出了中国电子公文结构的设计步骤,进而确定了中国电子公文结构设计的具体实现需要构建中国电子公文的概念、语义与扩展语言描述,以及格式布局等四大逻辑结构模型。  相似文献   

15.
文章研究了工业技术文献的分类标准、分类体系和分类方法三个问题。  相似文献   

16.
本文分析了使用《中图法》四版法律二表时经常出现的分歧,提出了5种解决办法。  相似文献   

17.
文章研究了工业技术文献的分类标准、分类体系和分类方法三个问题。  相似文献   

18.
白国应 《图书馆论坛》2004,24(6):168-174
文章研究了数学文献分类的三个问题:数学文献的分类标准;数学文献的分类体系;数学文献的分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号