排序方式: 共有40条查询结果,搜索用时 15 毫秒
1.
聚类分析是数据挖掘中的一个重要研究领域,面对大规模的、高维的数据,如何建立有效的聚类算法是目前一个研究热点。现已有多种直接和快速的聚类算法,但是当处理海量数据时,时间效率仍然有待提高。本文应用三角不等式原理,分别对TTSAS算法和k-means算法提出改进,避免其中冗余的距离计算,提高原算法效率。 相似文献
2.
【目的/意义】网络社会充斥大量负面网络舆情,负面网络舆情风险分级和研判对提高网络治理能力和网络
社会治理成效意义重大。【方法/过程】构建负面网络舆情风险指标体系,并采用熵权法计算风险指标权重;基于加
权GRA模型计算灰色加权信息关联度,在此基础上,运用k-means聚类算法构建负面网络舆情风险分级方案,据此
对负面网络舆情进行风险预测。【结果/结论】实证分析结果表明,所建负面网络舆情风险分级模型客观性强、可靠
度高,可为负面网络舆情风险精准响应提供有效决策依据。【创新/局限】以信息关联为视角,为负面网络舆情风险
分级与预测提供了新的研究框架,但典型案例数据库有待继续完善。 相似文献
3.
基于向量空间模型的文档聚类算法研究 总被引:3,自引:0,他引:3
随着网络信息的迅速增长,文档聚类技术成为了人们研究的热点课题.探讨了几种基于向量空间模型的文档聚类算法,如常见的k—means算法和凝聚层次算法,针对它们的不足提出了改进的BK-means算法和多层CFK-means算法.最后,根据一定的评价标准,得出Bk—means算法是文档聚类算法中较好的算法. 相似文献
4.
刘园园 《青岛职业技术学院学报》2010,23(1):53-56
由主动进化思想提出一种基于中心定位算子的遗传算法(GCOGA)。GCOGA算法通过对聚类中心的个数和选取进行指导,解决了常规k-means聚类方法对初始聚类中心的敏感性以及聚类结果与样本输入次序有关等问题。实验结果显示,该算法避免了k-means方法中对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果更好。 相似文献
5.
基于就业吸引力的大学生区域流向分类研究 总被引:1,自引:0,他引:1
本文通过建立相关指标体系从经济、社会环境、政策制度以及自然环境四个方面对就业吸引力进行了分析。在此基础上使用k-means聚类的方法将全国的自然行政区域划分为若干不同区域,结果表明分为4类时,分类结果较为理想。行政区域的划分为研究就业区域流向等相关问题提供了研究基础。 相似文献
6.
初始化类中心的增量K均值法及其在新闻事件探测中的应用 总被引:5,自引:0,他引:5
传统的增量k均值法用于事件探测时存在着诸多不足。为了克服其缺陷,本文提出了一种用于事件探测的改进的增量k均值算法(IIKM)。该算法使用密度函数法进行聚类中心的初始化以便客观地选择初始聚类中心,既可以用于在线探测也可以用于回溯探测,并且执行结果受新闻语料被处理顺序的影响较小。本文对有效密度半径和特征空间维数的选择问题进行了讨论,并比较了该方法和Single-pass法及传统的K均值法的性能差异。实验结果表明本文所提出的方法是有效的。 相似文献
7.
8.
【目的/意义】为保证叙词表术语收录的完整性,需要及时将领域出现但未收录的新术语补充收录到叙词表
中,结合候选词的时间及文档词频特征,从时间序列角度探索新术语的分布情况以指导新术语遴选是值得研究的
问题。【方法/过程】文章主要对词汇文档词频对应的时间序列进行研究,将时间序列进行词频归一化及时间等长预
处理,引入k-means聚类算法,对候选词汇进行基于时间序列趋势变化的聚类,探索术语以及非术语趋势变化的规
律,进而总结新术语应该满足的趋势变化特征。【结果/结论】通过聚类研究,总结得出新术语普遍处于增长趋势。
实证将处于增长状态的候选词汇遴选出来,经过专家判断,该方法可以有效从候选词汇中遴选出其中能补充到叙
词表中的新术语,该方法有比较高的准确率。【创新/局限】创新之处表现为叙词表新术语的遴选中同时考虑了时间
变化和文档词频因素,局限于数据处理规模,实证中只统计了论文关键词的词频数据。 相似文献
9.
10.