共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
MapReduce是一种编程模型,这种编程模型编程简单,不必关心底层实现细节,可用于大规模数据集的并行计算。K-Means是一种简单、基本的数据挖掘聚类方法,它将对象组织成多个互斥的组或簇。针对K Means的特点,给出了MapReduce编程模型下K Means的实现方法。实验结果表明,MapReduce编程模型下的K Means算法部署在Hadoop集群上运行具有较好的性能。 相似文献
3.
林滨 《福建工程学院学报》2016,(1):80-85
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 相似文献
4.
K-means算法在聚类过程中随机选取k个初始聚类中心,容易造成聚类结果不稳定。针对该问题,提出PCA-TDKM算法:使用主成分分析法对数据对象集合的属性进行降维,提取出主属性,去掉无关属性,从而加速聚类过程;基于最小生成树算法及树的剪枝方法将数据对象划分为k个初始聚类簇,然后进行剪枝生成k棵子树,计算每棵子树中所有数据对象的均值,作为初始聚类中心;利用基于密度与最大最小距离的算法思想进行聚类。将PCA-TDKM算法与K-means、KNE-KM、QMC KM、CFSFDP-KM在UCI数据集上进行聚类比较,结果表明该算法聚类结果稳定、聚类准确率高。 相似文献
5.
6.
通过对ProgrammableWeb在线社区进行研究,发现网站上的API服务数量庞大且含有丰富的数据信息。讨论了网页采集、数据预处理等相关技术,利用K Means和凝聚层次聚类技术在API服务数据集上进行实验,实验结果表明,K Means算法具有更好的聚类效果。 相似文献
7.
以中药材的中红外光谱数据为聚类分析对象,通过提取影响药材类别的关键特征波数,采用主成分分析结合模糊C均值聚类建立了中药材的鉴别模型。该模型可实现对中药材样本数据的快速鉴别,为中药材鉴别问题的研究提供借鉴。 相似文献
8.
K 均值算法(K-Means)是聚类算法中最受欢迎且最健壮的一种算法,然而在实际应用中,存在真实数据集划分的类数无法提前确定及初始聚类中心点随机选择易使聚类结果陷入局部最优解的问题。因此提出一种基于最大距离中位数及误差平方和(SSE)的自适应改进算法。该算法根据计算获取初始聚类中心点,并通过 SSE 变化趋势决定终止聚类或继续簇的分裂,从而自动确定划分的类簇个数。采用 UCI 的 4 种数据集进行实验。结果表明,改进后的算法相比传统聚类算法在不增加迭代次数的情况下,聚类准确率分别提高了17.133%、22.416%、1.545%、0.238%,且聚类结果更加稳定。 相似文献
9.
聚类分析是数据挖掘技术中一种常用的分析方法.将系统聚类分析法应用到考试数据分析,既有利于教师抓住学生的知识点误区,帮助学生建立学科知识网络,也有利于教师从学生的实际情况出发,根据学生存在的知识点误区和个性特点,因材施教.广州市某中学高三联考物理考试数据的聚类分析结果表明,教师采用系统聚类分析法进行考试数据分析时,既应关注聚类题目的共性,也应关注聚类题目的个性,同时还应关注具有共性的非聚类题目的个性. 相似文献
10.
通过分析目前的聚类算法,提出了多隶属聚类的概念;提出了一种基于频繁项目集的多隶属聚类算法,该算法能产生事务型数据的多隶属聚类。 相似文献
11.
微生物是湿地生态系统中重要的生命体,其群落结构组成及其变化在一定程度上反映了湿地的质量及健全性,本研究选取黄河三门峡段青龙坝和天鹅湖采样点,采用平板培养法对湿地微生物群落结构的季节变化和空间变化进行研究,结果表明,湿地微生物物种丰富度高,细菌占绝对优势,放线菌次之,真菌最少,湿地微生物群落结构季节变化较为明显;根据平板数量优势分离出四株优势菌,初步判定Q-2菌株与芽孢杆菌属分类地位相近;四环素敏感性测定结果显示,湿地微生物在低浓度四环素暴露下生长受到明显抑制。 相似文献
12.
尚玉新 《山东商业职业技术学院学报》2015,15(1):93-95
聚类分析被广泛用于数据挖掘等领域,基于蚁群算法的聚类算法也得以应用。针对K-Means算法和蚁群聚类算法出现的缺点,利用了K-Means算法快速确定聚类中心和精英适应保留值的策略,提出了一种改进的基于K-Means的蚁群聚类算法。仿真实验表明,改进算法的性能得到有效提高。 相似文献
13.
李梅 《赤峰学院学报(自然科学版)》2013,(13):68-69
通过比较分析目前国内外流行的几种城市竞争力评价模型,结合掌握的数据资料情况,建立相应的城市竞争力指标体系,并采用主成分分析法、因子分析法,聚类分析法等多元统计分析方法,对马鞍山与长三角各城市的综合竞争力以及各分项竞争力,包括经济发展水平、经济结构与效益、全球化能力、劳动力状况、城市基础设施、城市环境质量进行比较排名,得出各个城市的相应的排名. 相似文献
14.
提出了一种基于减法聚类的聚类上限检测方法.仿真试验表明,这种方法能将聚类上限确定在一个合理的范围之内,从而加快聚类的效率. 相似文献
15.
聚类是发现数据分布和隐含模式的一项重要技术,但单一的聚类算法很难达到预期的效果.基于四种聚类算法,根据算法准确率,利用层次分析法以估计权重,构造一个基于四类算法融合的聚类器,经实验检验,该聚类器比单一聚类器的聚类效果好. 相似文献
16.
本文研究了电子信息科学技术类课程的关系结构。首先利用层次聚类方法将课程划分成若干类别,其次分析层次聚类的结果并建立起课程的内在关联,最后根据课程的关联性对学生及教学管理人员提出了建议。 相似文献
17.
本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计算相似度,找出最佳分割方案.本文通过对大量不同领域的网页进行测试,结果表明本文方法具有较高的准确率. 相似文献
18.
学生党支部是高校党的基层组织的重要组成部分,肩负着学生党员的培养、教育和管理的重要职责,学生党支部的建设情况尤为重要,直接决定了高校党的建设质量和水平.以青岛农业大学为例,文章作者通过问卷调查,运用主成分分析法(PCA)探讨党支部建设的影响因素,通过数据分析,得到影响学生党支部建设质量的三个关键因素,分别是对党章规定的... 相似文献
19.
20.
运用图论中的一系列思想对生物序列、蛋白质结构和基因芯片数据进行综合分析,将多物种的序列进行聚类,为生物基因的功能研究提供了新的思路.其算法首先根据生物序列的相似度、蛋白质结构的相似度和基因芯片数据的相似度建立一级图,然后根据一级图建立二级图,进而通过二级图的分析来挖掘基因的聚类关系.算法聚类的结果可以对各种基因的功能进行预测,可广泛应用于后基因组计划的基因和蛋白质研究. 相似文献