首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

2.
一种基于DASOM的两阶段中文文本聚类方法   总被引:2,自引:0,他引:2  
朱红灿  唐毅 《情报杂志》2007,26(9):101-104
研究了一种基于动态自组织神经网络(The Dynamic Adaptive Self-Organizing Map Neural Network简称:DA-SOM)的两阶段中文文档聚类方法,第一阶段对中文文本向量进行DASOM训练,第二阶段对虚拟的坐标集聚类。该算法动态地组织DASOM,由文本的内容来决定模型的结构;与直接聚类相比,降低了计算时间;与基于静态SOM文本聚类相比,减少了输出层节点数,改善了聚类效果。通过数值实验对比表明该方法对中文文本聚类具有有效性。  相似文献   

3.
基于《现代汉语语义分类词典》的文本聚类方法   总被引:1,自引:0,他引:1  
给出了一种基于语义概念的高效中文文本聚类方法,该方法是从文本的本身出发,利用<现代汉语语义分类词典>的级类主题词,在高维的文本向量集中提取概念元组,形成表示聚类结果的高层概念,最后基于这些高层概念进行样本划分,从而完成整个文本的聚类过程.试验结果表明,该聚类算法有较好的聚类结果且有较高的执行效率.  相似文献   

4.
为了提高文本聚类的质量和效率,本文提出了一种基于本体图的文本聚类模型。该模型一方面利用本体图表示文本,获取更多、更深的文本语义信息特征,提高文本表示的准确性;另一方面从语法结构和语义内容两个角度综合衡量文本间的相似程度,增强计算的精确性和全面性。实验结果表明,该模型明显优于现有的文本聚类模型,获得了很好的聚类效果,提高了文本聚类的质量和效率,降低了聚类的时间复杂度和空间复杂度。  相似文献   

5.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法。用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要。  相似文献   

6.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

7.
基于文本聚类与LDA相融合的微博主题检索模型研究   总被引:1,自引:0,他引:1  
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段.其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素.文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型.实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题.  相似文献   

8.
文本自动聚类技术研究   总被引:1,自引:0,他引:1  
自动聚类作为一种自动化程度较高的无监督机器学习技术,在信息检索和数据挖掘领域得到了广泛的应用.探讨了文本聚类的定义和步骤,依据文本自动聚类的步骤分别对文本的处理、自动聚类算法以及文本聚类结果的评价进行了阐述.  相似文献   

9.
基于LDA模型的文本聚类研究   总被引:1,自引:0,他引:1  
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。  相似文献   

10.
英汉双语文本聚类是一项非常有价值的研究。使用单语言文本聚类算法,在英汉双语新闻语料基础上,对基于中文单语、英文单语和英汉双语混合的方法进行了文本聚类比较研究,实验结果表明,基于英汉双语混合的文本聚类方法可以取得较好的聚类结果。  相似文献   

11.
基于土拱效应的筒仓土压力研究   总被引:1,自引:0,他引:1  
蒋波  应宏伟  谢康和 《科技通报》2005,21(5):624-627,632
对筒仓小主应力拱形状进行了理论分析,发现墙土摩擦角部分发挥时的小主应力拱形状较充分发挥时平缓。根据土拱形状的理论分析计算平均竖向应力,由此得到了对应不同内摩擦角和墙土摩擦角的侧土压力系数,以及筒仓侧土压力的理论公式。  相似文献   

12.
13.
对文献计量学研究的一些看法   总被引:7,自引:0,他引:7  
1文献计量学目前的状态 文献计量学存在着定义多、模型多、争论多的问题,总的说来,对文献计量学是什么,研究什么,还存在分歧,突出表现在以下3个方面.  相似文献   

14.
尹春华  周西平 《情报科学》2005,23(4):568-572
复杂科学的研究是当代科学研究的重要领域,尤其是复杂适应系统的研究更为人们所关注。本文首先论述了复杂系统的几个重要特征:开放性、复杂性、层次性及复杂适应系统的七个基本点,然后从其中的几个方面探讨了internet所呈现出的复杂适应系统特征;从而说明了internet是一个复杂适应系统。该系统所呈现的特征将为进一步研究其他复杂适应系统提供理论依据。  相似文献   

15.
本文利用网民和网站作为互联网发展的衡量指标,通过面板数据分析了影响互联网发展的因素,认为居民文化程度、电脑拥有量、信息化水平是影响互联网发展的主要因素。经济发展水平、居民收入对互联网没有影响,我国互联网正处于高速成长期。  相似文献   

16.
薛捷 《科学学研究》2016,(7):1111-1120
设计作为技术和市场之外的第三种创新驱动力已开始得到越来越多的研究重视,但从顾客感知的视角来探讨产品设计如何对渐进性创新和根本性创新产生影响的经验研究尚不多见。基于"产品设计→顾客感知质量→顾客购买意愿和口碑传播"的理论模型,通过针对渐进性创新和根本性创新分别展开调查研究,实证分析结果显示设计驱动力的美学维度和功能维度对于渐进性创新和根本性创新的顾客感知与行为的影响并不一致,对渐进性创新来说,设计的美学维度和功能维度除了对于顾客购买意愿和口碑传播具有直接的正向影响,还通过顾客感知质量对其产生间接作用;对于根本性创新来说,设计的美学维度和功能维度均要完全通过顾客感知质量来间接作用于顾客购买意愿和口碑传播。此外,设计驱动力的象征意义维度对于渐进性创新和根本性创新的顾客感知与行为的影响具有一致性,即设计的象征意义维度对于两种创新类型的顾客购买意愿和口碑传播均有着直接的正向影响,但对于顾客感知质量的影响都不显著。  相似文献   

17.
教学资源共享、信息交流、网上教学和远程教育是21世纪教育所呈现的新特点。网络教育不断发展的今天,在课程教学中如何利用网络这一媒体手段来促进教师教学和学生学习的双赢显得尤为重要。主要从为什么要建设课程资源管理平台,课程资源管理平台的研究内容、系统功能设计与分析,以及研究课程资源管理平台的意义等几个方面对艺术设计专业课程资源管理平台的设计与开发进行了研究。  相似文献   

18.
评析历年来创新联盟记分牌(IUS)及其指标体系的演化,对IUS2015中欧盟与全球主要竞争对手的创新绩效及其差距进行研究,发现我国公共部门的研发投入亟须加强,而专利创造和运用、创新合作及劳动者受教育程度虽然严重薄弱,但其增长潜力很大。最后,探索IUS对"新常态"下我国创新能力指标体系的构建及创新型国家建设方向的启示。  相似文献   

19.
基于领域工程的人力资源管理系统研究   总被引:1,自引:0,他引:1  
针对目前企业人力资源管理系统可重构性差、与企业资源计划软件集成的灵活性差等不足,在领域工程理论指导下,通过分析人力资源管理系统开发过程,建立了基于领域工程的开发模式。结合统一建模语言与领域构件的优点,提出了基于统一建模语言的领域构件的建模方法。  相似文献   

20.
基于XML的数据交换探讨   总被引:1,自引:0,他引:1  
作为数据表示和交换的工业标准,XML的应用日益广泛。本文论述了XML及XML的相关标准,对基于XML的数据交换实现原理进行了重点分析,并采用Java编程技术提供了简单的实例加以说明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号