期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

谌志群王小华王荣波《情报学报》2009,28(5)

XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法. 相似文献

2.

文本挖掘与中文文本挖掘模型研究 总被引：5，自引：0，他引：5

谌志群张国煊《情报科学》2007,25(7):1046-1051

文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCTMF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。相似文献

3.

基于BERT和双向LSTM的微博评论倾向性分析研究

谌志群鞠婷《情报理论与实践》2020,43(8):173-177

[目的/意义]微博是一种重要的社会媒体,微博评论反映了网民对公共事件的态度和意见,对微博评论进行即时的倾向性分析对于网络舆情管控具有重要意义。[方法/过程]针对传统语言模型在词向量表示中无法解决词语多义性的问题,提出采用BERT模型来提取微博评论文本的语义特征表示,然后将获取的词语语义特征输入到双向LSTM模型中进行倾向性分类。[结果/结论]选取新浪微博评论数据进行了对比实验。实验结果表明,提出的基于BERT和双向LSTM的微博评论倾向性分类模型的F1值达到91.45%,优于其他主流的倾向性分析模型,证明了方法的有效性。[局限]双向LSTM模型训练的计算复杂度较高,BERT模型只能依赖于谷歌发布的预训练模型。相似文献

4.

基于共词分析的文本主题词聚类与主题发现

王小华徐宁谌志群《情报科学》2011,(11)

文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。相似文献

5.

基于主题演化图的网络论坛热点跟踪

谌志群徐宁王荣波《情报科学》2013,(3):147-150

网络热点话题检测与跟踪已成为舆情分析领域的前沿研究课题,具有广阔应用前景。本文研究基于主题演化图的网络论坛(BBS)热点跟踪问题。在采用共词分析和bisecting K-means聚类算法检测BBS热点话题基础上,提出了一个综合考虑话题帖子篇数与帖子热度的热点话题关注度计算方法。然后给出了一个基于相对熵的热点话题语义距离计算方法。最后通过构造主题演化图实现BBS热点话题的自动跟踪。在由实际BBS论坛数据构成的测试集上的实验表明,本文提出的方法是有效的。相似文献

6.

XML文档相似度计算方法研究 总被引：1，自引：0，他引：1

谌志群《情报学报》2009,28(1)

XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献

7.

互联网舆情挖掘研究述略 总被引：3，自引：0，他引：3

陆蓓程肖谌志群《情报资料工作》2010,(2)

文章首先提出互联网舆情挖掘研究的框架层次结构,详细介绍各个层次所涉及的相关研究和关键技术,为网络舆情监控和预警综合系统的构建提供参考;然后通过对现有舆情监测系统进行比较分析,从整体上了解我国的互联网舆情研究和实践应用;最后探讨互联网舆情挖掘研究中存在的问题,并对互联网舆情关键技术的研究提出解决思路. 相似文献

8.

基于改进蚁群聚类的热点主题发现算法研究*

陆蓓程肖谌志群《现代图书情报技术》2010,26(4):66-71

针对热点主题发现是在聚类算法的基础上实现的特点,将改进后的蚁群聚类算法引入到该研究中,同时提出类别关注度（CAD）的概念,以此来判定类别的热门程度并区分出热门类别和冷门类别,在此基础上抽取热点主题集。实验结果表明改进后的蚁群聚类算法对热点主题的发现有一定的效果,对其他仿生优化聚类算法的引入有借鉴意义。相似文献

9.

文本趋势挖掘综述 总被引：1，自引：0，他引：1

谌志群《情报科学》2010,(2)

文本趋势挖掘是文本挖掘新的研究热点,具有广阔应用前景。本文首先对文本趋势挖掘进行了概述,讨论了文本趋势挖掘的应用领域。然后综述了文本趋势挖掘的国内外研究现状,详细介绍了文本趋势挖掘的主流方法与技术,并分析了现有方法存在的主要问题。最后指出了文本趋势挖掘未来的发展方向。相似文献

10.

面向实验教学的可拆卸小型编译器设计

谌志群王小华《现代教育技术》2009,19(6):111-113

"编译原理"是计算机专业的重要专业课之一,理论性和实践性要求均很高,在计算机本科教学体系中占有十分重要的地位。设计实现了一个面向"编译原理"实验教学的可拆卸小型编译器——SMini。详细介绍了SMini的系统结构、设计方法与实现技术。相似文献