首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜集、组织及检索利用提供良好的技术支持.本文首先介绍了目前主要的XML文档聚类算法,然后在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法.  相似文献   

2.
王知津  赵洪 《图书馆杂志》2007,26(11):20-26
传统的关键词检索技术在文本检索和HTML文档检索上得到了广泛的应用,但它运用于检索XML文档时却不尽如意.为此,本文引入一种改进的遗传算法,对XML文档上的关键词检索进行了研究,提出了XML文档标记的自适应遗传训练算法与XML文档上关键词语义检索及结果排序算法.  相似文献   

3.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

4.
文档库技术在档案信息资源共享中的应用探析   总被引:1,自引:0,他引:1  
文档库技术是对书面文档进行描述、存储、处理、管理的基础技术平台,通过公开规范的非结构化操作标记语言,统一面向书面文档处理的访问标准,为应用软件提供书面文档通用操作功能,是对文档处理软件的重大贡献。  相似文献   

5.
中国科技期刊文档格式标准化任重道远   总被引:5,自引:1,他引:4  
对于科技期刊的电子文档数据的存储和传输来说,文档格式的标准化是其基石.文章阐述XML作为科技期刊电子数据交换的统一格式的原因和历程,概述美国科技期刊电子文档化标准NISO JATS的发展历程及其组成和结构,介绍我国科技期刊文档标准化状况,并对制订有关标准提出建议.文章呼吁同行能在借鉴美国科技期刊全文标记实践的基础上,开展中文科技期刊文档格式标准化的研究,为中文科技期刊的按需出版、在线发布、全文数据库建设和数据共享打下基础.  相似文献   

6.
利用Adobe Acrobat Standard V6.0软件实现作者远程校对   总被引:13,自引:2,他引:11  
王亚新  仲崇民 《编辑学报》2007,19(3):193-195
针对目前科技期刊应用PDF文档实现远程校对过程中存在编辑意见不能在校对稿上标记、作者不能在校对稿上直接对稿件内容进行修改、编辑与作者之间的沟通不如纸质版校对稿清晰明了等问题,提出一种利用Adobe Acrobat Standard V6.0软件对PDF文档进行编辑标记,实现作者在PDF校对稿上任意标记修改,使作者的远程校对如在纸质版校对稿上校对一样方便快捷,为作者远程校对提供了一种简便的方法.  相似文献   

7.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

8.
长期以来,对数字出版的"泛化"和"窄化",主要源于对数字出版技术基础的误读.这种误读让相关各方在在中国的文化环境中完成了自己的利益诉求.真正对出版信息组织方式产生根本影响的是标记语言,因此,以标记语言作为数字出版的技术基础具有现实性,也容易让我们透析数字出版的本质.数字出版以标记语言为基础,标记语言所具有的重要特征:标记的丰富和联想性、内容和形式的分离、文档分析基础上的结构模式对数字出版的生产流程起了决定性的影响,具体表现在:成本最低廉、全媒体覆盖、个性化定制、管理一体化.因此,数字出版可以界定为:以标记语言为基础,以全媒体为显示形式,以强大的链接、搜索功能和个性化定制功能为主要特点的知识组织和生产方式.  相似文献   

9.
潘有能  丁楠 《情报学报》2007,26(3):350-355
本文首先介绍了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。  相似文献   

10.
XML标记的语义   总被引:1,自引:0,他引:1  
尽管 XML 文档类型定义提供了一种机器可读形式的、能够说明 XML 语言语法的机制,但目前并没有类似的机制来指定 XML 词汇表的具体语义。这意味着没办法说明 XML 标记的意义,由 XML 形式呈现的事实和关系无法清晰、全面和规范地定义。这在实践和理论上都引起了严重的后果。从积极的方面看,XML 结构能被赋予任意语义,并可用于最初的设计者无法预见的领域。从不太积极的方面来看,内容开发者和软件工程师必须依靠乏味的文档,或者更糟的情况是,只能依靠猜测标记语言设计者的意图来开展工作。这一过程既费时费力,又易出错,还无法核实验证。即便是设计者当初的建档工作做得相当完美,不如意的情况还是会发生。另外,对标记语义本质研究的匮乏也意味着属于工程应用领域的数字文档处理根本没有什么理论。尽管目前正在进行的一些工程(XML 模式、RDF、语义网)已经取得了一些成绩,但是这些工程都没有直接全面地解决XML 标记语义的核心问题。本文回顾了标记意义这个概念的发展历史,阐明了解释 XML 正式语义的动机,并介绍了一个研究语义的科研项目——BECHAMEL 标记语义计划。  相似文献   

11.
本文主要针对国家科技图书文献中心(NSTL)科技词表的构建特点及智能化文献服务应用方法开展研究。采 用实例剖析的方法,分析词表通用构建方法与常规应用模式,在此基础上重点研究NSTL科技词表的构建特点和应用方 式。NSTL文献服务平台从生产到服务的各个业务流中引入NSTL科技词表,提升了国家科技文献信息战略资源的有效 组织、深度揭示和知识关联,提供智能检索服务。在新的互联网应用环境下,词表规范不再是一种约束,而是一种引 导,一种知识关系汇聚方式,融入科技文献服务的方方面面,产生新的应用方式。  相似文献   

12.
文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法改善了对高维数据和大量小文档处理效率。  相似文献   

13.
高校文献检索课开设模式的新思考   总被引:7,自引:0,他引:7  
随着网络的发展与教学环境的变化,文献检索课的教学方式与教学内容发生了很大变化,采用多媒体和直接联结网络进行教学,更加重视计算机检索实践,教学过程贯穿于整个大学教育,文章结合实践对高校文献检索课的开设模式进行思考.  相似文献   

14.
文书档案连锁法并不是简单的“三个统一”,而是民国时期文书档案改革的深化,其目标设计有实现文书处理与档案管理的双重意义,不仅要满足于行政效率的提高,更要促进行政事务的发展,所以既有分类、登记、编号和归档的改变,更有档案随文附送服务的设想与努力.文书档案连锁法确立的原则、方向和价值影响深远,这种探索精神散发出永恒的魅力.  相似文献   

15.
搞好图书馆建设,一直是图书馆工作的一个重要组成部分。就地方特色文献资源的组织建设做了初步探讨;对于建立特色的文献资源体系,如何进行特色立项,收集、整理地方特色文献资源建设的思路,做出本馆的特色文献资源等进行了探讨。  相似文献   

16.
Document theory is the least explored area of study about documents. It lags significantly behind applied document research, which summarizes various document processing practices that have accumulated for thousands of years. This problem has recently been complicated by the rise of so-called general document theories. The boundaries of the document concept have become blurred due to the development of parallel areas of study and their forced differentiation into “classic” and “library” document science. In addition, knowledge about objects that are referred to as documents that can neither be properly integrated nor applied in practice is being developed. This situation is mainly due to the lack of attention that is paid by document scientists to the theoretical and methodological issues of document science. This paper reviews the origins, nature, and the social roles of documents from the perspective of a synergetic paradigm and has the goal of constructing a synergetic document theory.  相似文献   

17.
The question about the status of a document follows from the situation that has been established in modern science, where the concept of a “document” has lost any definiteness and the phenomena of the reality that it means have almost no boundaries in their diversity. What material objects are documents and what are not? This question still remains debatable. This question can be answered by introducing the concept “status of a document” into the categorical apparatus of document science. The goal of this paper is to conceptualize this idea.  相似文献   

18.
Over the past decade, there has been an increase in the application of the case study method to investigate the process used by students in secondary school and undergraduate academic settings to locate and use information through the library. The case study method has, in most recent years compared to investigations of 20 to 30 years ago, become established as the primary research technique used to document student thought processes in topic focus and in source selection. Direct observation and interviewing successful library users, two tools common to the case study method, may also lead to examination of student selection and critical use of evidence for research projects as students move beyond the traditional library collection. These tools have also proven to be useful as researchers in recent studies are more interested in an analysis of student use of information as evidence rather than conducting studies which only document student location and citation of resources. Selected studies which illustrate this evolution are drawn from the dissertations and field studies related to secondary school and undergraduate bibliographic instruction.  相似文献   

19.
受国家政治制度频繁变化的影响,民国时期公文文种一直处于不断变化和调整的过程中。从文书学的角度看,这些变化与调整也真实地反映出现代公文理念的形成过程。随着对公文认识的逐步清晰,民国时期的公文文种设置体系渐趋合理,其探索过程对我国现代文书学理论和文书工作实践也有一定贡献。  相似文献   

20.
文书档案连锁法并不是突然提出的,它的出现既有深刻的时代背景,更有在先的理论指导,同时开展的学术讨论又有助于该法的深化和科学。这场学术争鸣不仅告诉我们文书档案连锁法有着丰富的内容,而且凸显出档案界认识不足的问题,更彰显了前辈们勇于探索的科学精神。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号