期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

文本聚类算法的质量评价 总被引：4，自引：0，他引：4

刘务华罗铁坚王文杰《中国科学院研究生院学报》2006,23(5):640-646

文本聚类是建立大规模文本集合的分类体系实例的有效手段之一。本文讨论了利用标准的分类测试集合进行聚类质量的量化评价的手段，选择了k-Means聚类算法、STC（后缀树聚类）算法和基于Ant的聚类算法进行了实验对比。对实验结果的分析表明，STC聚类算法由于在处理文本时充分考虑了文本的短语特性，其聚类效果较好；基于Ant的聚类算法的结果受参数输入的影响较大；在Ant聚类算法中引入文本特性可以提高聚类结果的质量。相似文献

2.

基于文本聚类与LDA相融合的微博主题检索模型研究 总被引：1，自引：0，他引：1

唐晓波房小可《情报理论与实践》2013,36(8)

伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题. 相似文献

3.

基于LDA模型的文本聚类研究 总被引：1，自引：0，他引：1

王鹏高铖陈晓美《情报科学》2015,(1):63-68

在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。相似文献

4.

文本自动聚类技术研究 总被引：1，自引：0，他引：1

王伟《情报杂志》2009,28(2)

自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述. 相似文献

5.

一种基于特征词聚类的文本分类方法

伍建军康耀红《情报理论与实践》2007,30(1):109-111

本文阐述了一种基于特征词聚类的降维方式,其主要思想就是把词在文本中的出现看成一个事件,先通过搜索算法计算每一个特征词的分布,合并对分类有相似作用的特征词,从而起到了特征降维的作用。最后通过实验测试分析,提出了一种改进的、考虑全局簇信息的相似度计算公式,将其应用到文本分类中,实验表明提高了文本分类的精度。相似文献

6.

SOM聚类算法在文本分类上的应用 总被引：2，自引：0，他引：2

丁露崔平《现代情报》2007,27(9):162-164

随着网络信息指数级的增长，如何高效地组织海量的文本信息成为众多终端信息查询的基本要求。本文利用神经网络的联想记忆原理，提出一种改进自组织映射（SOM）神经网络聚类算法来对这些信息进行索引和分类。改进SOM聚类算法通过文本的预处理和词汇权值的计算，SOM网络的训练过程以及多次聚类来细化各文本类别，最终产生概念空间。试验结果表明该算法对文本有很好的分类管理功能，便于文本检索。相似文献

7.

基于文本聚类的主题发现方法研究综述

李璐萍赵小兵《情报探索》2020,(11)

相似文献

8.

基于文本挖掘的分类与聚类技术 总被引：5，自引：0，他引：5

夏咏梅《情报探索》2005,(3):65-67

从基于文本挖掘理论和实践两方面,探讨了文本的分类与聚类的理论、技术及两者之间的区别,讨论了聚类与分类技术在文本挖掘过程中的重要作用,通过所列举的自动分类与聚类的应用实例,能给读者的实际工作以一定的借鉴。相似文献

9.

一种基于组合策略的聚类描述方法及其应用

章成志《情报科学》2009,27(7)

针对DCF聚类描述法存在的问题,提出一种基于组合策略的聚类描述方法,即综合利用"先描述、后聚类"和"先聚类、后描述"的优点,解决聚类描述的可理解性问题.实验结果表明该方法的有效性,将该方法用于搜索结果聚类这一应用中. 相似文献

10.

用于信息检索的文本聚类技术

门国尊《今日科苑》2008,(20)

文本聚类是进行文本信息检索的重要方法,被广泛应用于网络信息和档案资料的筛选和检索。分析了目前较成熟的文本聚类技术,并对文本聚类结果的评价方法进行了探讨。相似文献

11.

集成概念空间与潜在语义索引的文本聚类检索研究

韩毅张克菊金碧辉《情报理论与实践》2009,32(6)

信息环境的异构性、动态性与海量性使传统基于自然文本的信息检索方法与技术面临极大挑战,集成概念空间理论与潜在语义索引技术能为这种困境提供一些解决方案.在分析概念空间内涵与特征的基础上,利用潜在语义索引原理讨论了概念提取方法、同义词近义词处理方法及基准向量的生成方法,分析了网络条件下基于概念空间的文本分类、聚类检索基本机制,最后给出了完善概念空间的自学习机制. 相似文献

12.

基于WWW的ProQuest6.0全文数据库检索系统分析 总被引：1，自引：0，他引：1

吴丹《情报科学》2003,21(12):1331-1334

本文以美国ProQuest公司开发的ProQuest6．0全文数据库检索系统为例，主要分析了其检索性能，指出较之以前版本的新增功能所在，并对其特点进行了评价，提出对中文检索系统发展的一点建议。相似文献

13.

基于WWW的全文检索系统检索性能探讨 总被引：9，自引：2，他引：9

胡琼《情报科学》2001,19(6):639-642

本文以美国UMI公司开发的ProQuestDirect全文检索系统以及EBSCO公司开发的EBSCOhost全文检索系统为例，探讨了基于WWW的全文检索系统在检索语言、用户界面、检索功能等方面的性能。相似文献

14.

聚类在信息检索领域中的应用研究

余洋《情报理论与实践》2007,30(3):405-408

本文简要介绍了聚类算法在国外信息检索领域中的应用概况,并详细介绍了聚类算法在国内该领域的应用情况。列举了应用得较多的几种聚类算法,给出了在多种信息检索中聚类算法的应用过程。相似文献

15.

Stemming和Lemmatization对英文文本聚类的影响研究

韩普王东波路高飞《情报理论与实践》2012,35(7):109-113

词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。相似文献

16.

基于分类的VSM模式下文本检索研究 总被引：3，自引：0，他引：3

刘海峰王元元王倩《情报科学》2006,24(11):1700-1703

本文针对向量空间模型下文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法；对TF—IDF因子提出了位置参数加权模式；对信息需求表达模糊、数据稀疏等问题总结了解决的方法。相似文献

17.

基于概念语义场的文本聚类算法研究

左晓飞刘怀亮范云杰赵辉《情报杂志》2012,31(5):180-184,191

传统的基于关键词的文本聚类算法,由于难以充分利用文本的语义特征,聚类效果差强人意。笔者提出一种概念语义场的概念,并给出了基于知网构建概念语义场的算法。即首先利用知网构造义原屏蔽层,将描述能力弱的义原屏蔽,然后在分析知网结构的基础上给出抽取相关概念的规则,以及简单概念语义场和复杂概念语义场的构造方法。最后给出一种基于概念语义场的文本聚类算法。该算法可充分利用特征词的语义关系,对不规则形状的聚类也有较好效果。实验表明,该算法可以有效提高聚类的质量。相似文献

18.

一种基于词语上下文关系的文本检索算法

郭少友《情报理论与实践》2008,31(4)

在文本检索过程中充分利用词语之间的上下文关系有助于提高检索性能.首先对已有的相关工作进行综述;然后针对已有研究对词语上下文关系应用不足的现状,提出一种基于词语上下文关系的文本检索算法;最后通过实验对该算法进行验证. 相似文献

19.

全文检索研究 总被引：11，自引：0，他引：11

杨建林《情报理论与实践》2000,23(1):12-13

A new algorithm for automatic segmentation of Chinese word with the stop word list and post-controlled thesaurus, that has absorbed the ideas from the single-Chinese character method and the thesaurus method, is given. Based on this algorithm, a new full text retrieval mode is built. 相似文献

20.

文本聚类中文本表示和相似度计算研究综述 总被引：4，自引：0，他引：4

吴夙慧成颖郑彦宁潘云涛《情报科学》2012,(4):622-627

围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。相似文献