排序方式: 共有10条查询结果,搜索用时 15 毫秒
1
1.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法. 相似文献
2.
文本挖掘与中文文本挖掘模型研究 总被引:5,自引:0,他引:5
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。 相似文献
3.
[目的/意义]微博是一种重要的社会媒体,微博评论反映了网民对公共事件的态度和意见,对微博评论进行即时的倾向性分析对于网络舆情管控具有重要意义。[方法/过程]针对传统语言模型在词向量表示中无法解决词语多义性的问题,提出采用BERT模型来提取微博评论文本的语义特征表示,然后将获取的词语语义特征输入到双向LSTM模型中进行倾向性分类。[结果/结论]选取新浪微博评论数据进行了对比实验。实验结果表明,提出的基于BERT和双向LSTM的微博评论倾向性分类模型的F1值达到91.45%,优于其他主流的倾向性分析模型,证明了方法的有效性。[局限]双向LSTM模型训练的计算复杂度较高,BERT模型只能依赖于谷歌发布的预训练模型。 相似文献
4.
5.
6.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
7.
8.
针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度(CAD)的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。 相似文献
9.
10.
"编译原理"是计算机专业的重要专业课之一,理论性和实践性要求均很高,在计算机本科教学体系中占有十分重要的地位。设计实现了一个面向"编译原理"实验教学的可拆卸小型编译器——SMini。详细介绍了SMini的系统结构、设计方法与实现技术。 相似文献
1