共查询到18条相似文献,搜索用时 46 毫秒
1.
XML文档自动聚类研究 总被引:6,自引:4,他引:6
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。 相似文献
2.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
3.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。 相似文献
4.
新一代可扩展置标语言XML具有面向文档、面向数据和面向语义的功能,能够很好地保证文档一体化过程所产生的电子文件的凭证价值,因此,XML已经成为文档一体化过程中不可或缺的工具.本文从多层次、多角度对文档一体化领域中XML的研究现状进行了统计,并对统计的结果进行了阐述. 相似文献
5.
基于概念向量空间的文档语义分类模型研究 总被引:1,自引:0,他引:1
6.
7.
将神经网络集成思想引入WEB文本分类领域,构造一个用于Web文本分类的多BP神经网络集成模型;详述模型的设计思路与结构框架,并分别在公有的英文数据集、实际的中文数据集上进行分类实验;与经典的SVM模型、KNN模型相比,神经网络集成模型具有更高的分类精度,且对于训练样本集规模具有更好的鲁棒性,不失为一种高效的文本分类新方法,研究其在文本分类领域的应用将是一个有前景的方向。 相似文献
8.
马芳 《现代图书情报技术》2011,(12):58-63
为减少人工分类的不确定性和分类错误,将文本分类技术引入专利自动分类系统,采用径向基函数神经网络(RBFNN)算法完成专利文本的训练和分类,并进行相关测试分析。实验结果表明,采用RBFNN分类器在专利文本自动分类中具有较理想的性能,测试平均F1值在70%以上。 相似文献
9.
随着信息技术的飞速发展,文档自动分类成为信息组织、知识管理的重要方法.随着在线资源应用的增长以及各类应用和资源的普及,需要采用文本挖掘、机器学习和自然语言处理等技术和方法论从电子文件中获取信息,这样使得对各类信息的分类和提取成为一个新兴的探索领域.文章针对电子文件自动分类的特点,对其中采用的文档表现、分类器构造、知识提取等技术和常用的电子文件自动分类方法作了简要介绍. 相似文献
10.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法. 相似文献
11.
文章研究了自动化技术文献分类的三个问题:自动化技术文献的分类标准;自动化技术文献的分类体系;自动化技术文献的分类方法。 相似文献
12.
文章研究了矿业工程文献分类的三个问题:矿业工程文献的分类标准;矿业工程文献的分类体系;矿业工程文献的分类方法。 相似文献
13.
文章研究了矿业工程文献分类的三个问题:矿业工程文献的分类标准;矿业工程文献的分类体系;矿业工程文献的分类方法。 相似文献
14.
基于XML技术的中国电子公文结构设计研究 总被引:1,自引:0,他引:1
论文首先指出了研究中国电子公文结构设计的目的与意义,并明确了中国电子公文结构设计的基本概念与原理,还对XML置标语言技术进行了研究。在此基础上,分析得出了中国电子公文结构的设计步骤,进而确定了中国电子公文结构设计的具体实现需要构建中国电子公文的概念、语义与扩展语言描述,以及格式布局等四大逻辑结构模型。 相似文献
15.
16.
17.
18.