首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 534 毫秒
1.
云模型是云理论的核心,数据流聚类算法在云模型中有较好的应用前景,但也面临着聚类效率、聚类适应性的难题,为此本文提出了一种有抗体免疫的云模型数据流聚类算法。通过设置加权期望值、熵等参数形成云数据特有的数据概要结构,作为抗体代入人工免疫算法中;利用衰减函数和时刻权重来定量表现不同时刻的数据的重要性程度,并以抗体期望克服率为特征值以维持抗体的多样性,采用淘汰法确保最后的数据概要结构更符合云模型数据流的本质特征。实验表明,该算法在云模型数据流中的聚类处理速度和聚类效率均优于传统算法,具有一定的应用价值。  相似文献   

2.
[目的/意义] 采用企业专利大数据,构造高维云模型,预测企业成长性。[方法/过程] 选取中国股票市场创业板公司为研究对象,依据企业专利聚类结果,用逆向云模型多步式算法生成专利的云模型改造神经网络神经元,构造云模型;用因子分析计算企业的成长性并通过聚类分析分成4类;用云模型补充不平衡数据。[结果/结论] 研究表明,高维云神经网络能很好预测企业的成长性,准确性和稳定性得到提高,同时也表明企业专利对其成长性有重要作用。企业专利对成长性的影响是复杂的:专利同族数、发明专利占比、专利权利要求数对企业的成长性促进作用,而单纯专利数量有负面的影响。  相似文献   

3.
在K-均值聚类分析算法和网格聚类算法基础上,对两种算法进行整合并提出了一种新的KG.CA聚类分析算法。通过对计算密度阀值的函数的改进,本文提出了一种基于网格的K-均值聚类分析算法。最后通过详细的数据分析和计算验证KGCA聚类分析算法可以有效降低凝聚度,和提高分离度从而有效提高聚类效率。  相似文献   

4.
限制性聚类是一种试图将用户监督信息加入到已有聚类算法中的一种分类技术,目前已经被广泛应用于K-means算法和层次聚类算法中.在本文中,提出一种将限制条件加入到谱聚类算法的半监督聚类方法,利用正约束和负约束限制来构造约束矩阵,通过它们来引导聚类过程,并结合最优化技术,达到聚类的目的.数据实验验证了这种方法具有很好的精确度.  相似文献   

5.
二阶锥规划是在有限个二次锥的笛卡尔空间仿射变换交集上的极小化和极大化线性函数,采用修正的二阶锥规划模型,结合二阶锥的凸优化条件,进行大数据聚类算法改进,提高数据的聚敛性。传统方法中对大数据聚类的二阶锥规划模型采用线性对偶锥规划方法,对数据聚类的路径跟踪性能不好。提出一种基于修正的齐次二阶锥规划模型的大数据聚类算法。进行数据的特征挖掘和信息流模型构建,从大量的、有噪声的、模糊的数据中进行大数据的功率谱密度特征提取,采用粗糙概念格方法对大数据信息流进行二阶锥规划模型构建,结合齐次二阶锥规划模型算法有限收敛性,对每一数据聚类样本进行可靠性衡量,实现数据聚类中心的准确搜索。对聚类误差函数求最优解,使得误差收敛到零。仿真结果表明,该算法进行数据聚类的精度较高,收敛性较好,避免了出现局部最优解,性能优越于传统算法。  相似文献   

6.
随着大数据等概念运用到互联网中,如何针对大数据下的用户行为进行分析成为了研究的热点,本文首先分析了云计算下的Hadoop框架,其次对用户网络行为进行了分析,最后采用基于Web日志挖掘的用户行为聚类方法;(1)构建用户行为的挖掘模型,(2)建立聚类问题优化模型,(3)采用基于混沌的人工蚁群算法对其进行聚类分析。实验说明本文算法具有比较好的聚类效果。  相似文献   

7.
传统的蚁群算法在迭代过程中产生逆转变异,新的结点与链路也可能在任意时刻加入到云中,给电网系统云数据的云计算和故障数据预测检测带来很大难度,出现拥塞控制,导致聚类效果不好。结合云计算处理数据的特点,对传统的蚁群算法进行改进,提出一种改进的蚁群引导电网系统云数据聚类和故障检测算法,根据基因位随机数大小决定输出概率的精度,更新状态类别充分统计量,得到故障特征观测概率和初始概率,执行聚类中心更新规则。搭建的Hadoop集群云计算原型系统,在开源的云计算平台框架和HBase电网系统数据库下进行数据采集和算法实现。仿真结果表明,算法在数据聚类和故障检测中具有较好的应用性能。  相似文献   

8.
针对传统协同过滤技术在图书推荐中效率不高、数据极端稀疏性及主观性强等问题,提出一种基于云填充和蚁群聚类的协同过滤图书推荐方法,首先根据蚁群聚类算法得到用户群分类,然后在进行协同过滤前预先通过云模型填充用户——项目矩阵,以降低数据的稀疏性。实验结果表明,该算法在推荐精度上有明显的提高。  相似文献   

9.
本文将数据挖掘算法应用干智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以改进,传统的K-均值算法聚类虽然速度快,在文本聚类中易于实现,但其同样依赖于所有变量,聚类效果往往不尽如人意.为了克服这一缺点,提出一种改进的K-均值文本聚类算法.它在K-均值聚类过程中,向每一个聚类簇中的关键词自动计算添加一个权重,重要的关键词赋予较大的权重.经过实验测试.获得了一种基于子空闻变量自动加权的适合文本数据聚类分析的改进算法,它不仅可以在大规模、高维和稀疏的文本数据上有效地进行聚类.还能够生成质量较高的聚类结果.实验结果表明基于子空闻变量自动加权的K-均值文本聚类算法是有效的大规模文本数据聚类算法.  相似文献   

10.
王鹤 《中国科技信息》2007,(15):280-281
数据挖掘是在海量的数据中寻找模式或规则的过程。数据挖掘强调的是发现知识,获得的知识类型包括关联规则、分类、回归、聚类、依赖模型等。本文对其中聚类分析技术进行了较为深入地研究与分析,提出基于信息素的蚁群聚类算法PCBP,利用信息素指导蚂蚁移动,用不同速度的蚂蚁来改善聚类质量,并在这个思想基础上提出层次化蚁群聚类方法。为人们研究聚类提供了新思路和新途径,因此本文的研究具有一定的理论和实践意义。  相似文献   

11.
数据挖掘中SOM神经网络的聚类方法研究   总被引:3,自引:0,他引:3  
在数据挖掘领域里,SOM神经网络聚类是典型的基于模型思想的聚类方法.本文阐述了SOM神经网络的工作过程、算法的训练过程及应用.通过对我国各地区GDP数据进行聚类分析,可以及时了解各地区经济实力等重要的信息,对各级政府政策制定及宏观调控都具有非常重要的现实意义.  相似文献   

12.
基于聚类DEA的国防科技工业资源配置有效性研究   总被引:3,自引:2,他引:1  
根据数据包络分析(DEA)理论和聚类分析原理,提出基于DEA的聚类分析方法。以投入产出效率为基准,避免主观因素的干扰,通过C2R模型和C2GS2模型不断地寻找有效前沿面,确定规模有效点和技术有效点,进行聚类。聚类结果准确、可靠,是一种既科学又有效的分析方法。之后,利用基于DEA聚类分析方法对国防科技工业资源配置效果进行分析与评价。  相似文献   

13.
数据挖掘中聚类算法研究综述   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘领域一个活跃的研究分支,在数据挖掘中已经开发出许多聚类算法,具体可分为划分方法、层次方法、基于密度方法、基于网格的方法、基于模型的方法。本文对上述几类聚类分析算法进行了讨论,对每种聚类算法都举出了典型例子,并作了分析,指出了各种算法的优缺点并对聚类技术未来的发展作出了展望。  相似文献   

14.
本文将聚类分析引入竞争情报分析之中,构建了基于领域本体的竞争情报聚类分析模型。该模型利用竞争情报领域本体指导文本语义分析和标注,抽取特征概念和概念间关系,实现语义层面的文本表示;针对传统的聚类分析算法无法进行深层次的聚类分析,设计了一种基于语义核函数的聚类分析算法进行挖掘分析,实现深层次的聚类分析。实验结果表明,该模型取得了很好的预期效果,显著提高了竞争情报分析的准确率和效率。  相似文献   

15.
一种大规模中文搜索日志的层次聚类方法   总被引:1,自引:0,他引:1  
孙锐  金澎 《科技通报》2012,28(8):83-85
提出一种层次聚类算法,旨在对搜索引擎的查询日志数据进行聚类分析。算法基于搜狗实验室公开的查询日志数据,通过3次划分完成查询文本聚类,每一次划分实现不同程度的降维。相似度参数可根据不同的聚类需求调整,算法可扩展性强。实验结果为查询推荐、相关性排序等提供了有力的依据。  相似文献   

16.
聚类问题是当今统计学习界的热点研究问题,针对一般情形的聚类分析已经有具有了kmeans、高斯混合模型等,由于目前各种数据的细化,人们提出的聚类算法更多的倾向于研究某种特定的数据.在本文中,笔者提出了基于自回归的高斯混合模型,它假设模型是由符合自回归模型的高斯分布混合而成,算法利用EM算法,可以精确地估计混合模型中的自回归系数以及方差系数.  相似文献   

17.
本文提出蚁群聚类算法的RBFNN模型,并用于电力系统中长期负荷预测.首先,模拟蚂蚁寻找“食物源”的行为,即根据蚂蚁在寻找食物过程中发现“食物源”(聚类中心),蚂蚁就会被“吸引”到食物源周围的特点,应用蚁群优化(ACO)算法,将历史数据聚类分析,得到各类聚类中心位置.其次,当聚类中心确定后,采用递推最小二乘法,训练RBF神经网络的隐含层至输出层之间的权重.最后,通过某电网实际数据,将本文模型与传统RBF模型预测结果进行比较,结果表明本文模型据具有更高的预测精度.  相似文献   

18.
随着数据库技术的不断发展,现有的聚类分析算法已经无法满足数据挖掘的聚类分析的需求。本文主要针对传统的模糊C聚类算法,将其中存在的问题进行改进,并在核函数和权值优化的基础上,提出模糊C聚类算法。首先对模糊C聚类算法的特征权值进行优化,然后引入核函数的概念,对模糊C聚类算法的寻优过程进行改进。仿真验证得到的结果是,本文所提出的模糊C聚类算法,能够在核函数和权值优化上有更好和更加稳定的聚类。  相似文献   

19.
大数据的聚类过程是高斯随机过程,因此在大数据分类中,构建稳健的数据分类模型,提高数理统计能力至关重要。二项-泊松模型具有全局解的凸优化随机聚类性能,利用二项-泊松模型对高斯随机性数据处理的优势,在有限维空间中,进行数据聚类分析。构建二项-泊松模型的KKT条件,取得二项-泊松模型的边值周期解多项式核,进行高斯聚类特征分解,得出Schur complement泛函准则,建立二项-泊松模型的数理统计大数据分类系统,最终验证了稳定性。推导结果表明,利用二项-泊松模型在高斯随机大数据分类过程中是稳定收敛的,有效提高了大数据的数理统计和分析能力。  相似文献   

20.
探究聚类分析方法在数据挖掘中的应用,归纳常见的聚类分析方法与算法,突出SPSS软件中聚类分析方法的运用。在探究聚类分析应用过程时,以SPSS软件工具为依托,就两步聚类、快速聚类与层次聚类分析进行相对深入的探讨。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号