首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
随着航空事业的发展,对航迹进行聚类分析,存在许多应用价值。在分析历史飞行航迹特征的基础上,将航迹看作时间序列,采用近邻传播聚类算法,对航迹进行聚类分析,得到聚类结果并进行优化分析。近邻传播算法(AP)是建立在相似度矩阵基础上进行的聚类,为了得到相似度矩阵,结合航迹不等长的特征,选择使用DTW距离作为航迹间相似性的度量;同时,使用DCT对航迹时序列进行降噪,以求得到更好的聚类效果。实验结果表明:该方法在393条航迹的数据集中,划分出11个聚类,提高了航迹聚类的准确性。  相似文献   

2.
提出一种融合位置相似性度量的协同过滤推荐算法(CF-FLSM)。算法融合位置相似性度量进行加权计算用户间的兴趣相似度,从而为目标用户产生推荐结果。将CF-FLSM应用于一个具体的快消品电商网站,得出的推荐结果与传统使用余弦相似性的协同过滤推荐算法(CF)相比,精确率和召回率分别提高了3.74%和3.91%。  相似文献   

3.
协同过滤算法是最常用、最经典的个性化推荐算法之一。在算法计算中相似度计算是影响算法质量的关键因素,该算法中相似度计算根据用户评分差值作为距离来衡量,忽略了项目自身特征属性对相似性计算的制约。因此提出一种基于项目特征的协同过滤推荐算法(IFCF),结合项目评分相似度,利用Logistic二分类算法思想将用户对项目的偏好分为喜爱与不喜爱两类,再利用贝叶斯概率原理将用户对各项目特征的喜爱程度差值作为相似度调整度,以达到提高项目相似性度量准确度的目的。实验结果表明,该算法能够有效提高推荐算法的精度。  相似文献   

4.
基于熵的K均值算法的改进   总被引:1,自引:0,他引:1  
在高维数据中,K-means的相似度度量会遇到不同尺度、不同类型的数据等一些问题.本文提出了利用数据归一化预处理方法来改进K-means算法.在讨论一维数据初始中心点选取方法基础上,提出了基于熵的高维数据的初始中心点选取方法,通过对初始中心点选取方法的改进来减少K均值算法的迭代次数.实验结果表明,数据的归一化处理可以从根本上消除了数据类型的不一致对聚类的影响.  相似文献   

5.
有效检测程序设计类课程作业抄袭现象具有重要的现实意义。传统的代码相似度检测方法主要利用代码属性或结构信息判定代码之间的相似性。基于已有的属性度量与最长公共子序列算法,提出一种代码相似度检测算法,算法将属性度量的结构无关性与最长公共子序列算法的结构依赖性有机结合。实验结果表明,该算法可以有效降低程序源代码的评测难度,得到较为可信的综合相似度值,增强了评测人员对抄袭现象的监测力度。  相似文献   

6.
图像的相似性度量是基于内容的图像检索技术中的一个非常关键的问题。理想的图像相似性度量方法应该能满足人的视觉特性,能够使得视觉上相似的图像间具有较小的距离,也就是说二者的相似度越大,其距离就越小。很显然,选择的相似性度量方法对图像检索结果的影响很大,相似性度量方法的好坏会直接影响到图像检索的性能。所以对常用的相似性度量的方法进行分析,并提出将来相似性度量的研究方向很有必要。  相似文献   

7.
针对目前多目标跟踪中目标数据关联度量方式的不足,以及Wasserstein度量值衡量概率测度间差异程度的性质,提出基于Wasserstein度量的目标数据关联算法,即利用Wasserstein距离衡量目标外观特征向量之间的相似度,将目标外观特征向量看成一个分布,计算分布之间的 Wasserstein距离,再用Wasserstein距离判断目标是否相似。但是Wasserstein距离表达式比较复杂,难以直接计算,因此通过训练一个深度网络计算Wasserstein距离,并使相同目标特征向量之间Wasserstein距离缩小、不同目标特征向量之间的Wasserstein距离增大;然后,利用目标运动匹配度进一步筛选满足外观匹配度的目标,最终得到最佳目标关联。实验结果表明,该算法能较好地解决多目标跟踪中的漏报问题,与原算法相比,MT提高了6.7%,ML减少了4.9%,FN减少了6 627个。  相似文献   

8.
面向高维数据的聚类分析是当今数据挖掘研究的重要领域,其中的关键问题在于如何对高维数据的聚类结果进行高效率的可视化分析。针对这一问题首先使用了数据聚合树(DA树)作为代表高维数据集的数据结构,并将一个新的聚集算法(CLUK算法)应用于该数据集,获得聚类分析的结果,然后搭建了一个可视化平台(Hvis),最后利用平行坐标法在...  相似文献   

9.
为了改善传统K-Modes聚类算法相异度度量公式弱化了类内相似性,忽略了属性间差异,以及单一属性值的Modes忽视了某一属性可能存在多属性值组合,且算法受初始中心点影响很大的缺点,基于多属性值Modes的相异度度量方法提出MAV-K-Modes算法,并采用一种基于预聚类的初始中心选取方法。使用UCI数据集进行实验,结果表明,MAV-K-Modes算法相比于传统K-Modes算法,其正确率、类精度和召回率都有明显提升,且MAV-K-Modes算法适合于并行化改造。  相似文献   

10.
提出了一种新的多数据流聚类算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行聚类.算法采用自回归模型技术度量数据流间的延迟相关,利用频谱估计来抽取数据流的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据流间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据流间距离的度量.此外,算法采用滑动窗口技术对多数据流进行聚类,实时地得出聚类结果且动态地调节聚类的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的聚类效果.  相似文献   

11.
在对3维模型2维投影图利用区域的Fourier变换提取其形状特征的基础上,提出了一种新的基于特征序列为训练模型的异常检测算法。首先对高维特征序列进行约减至低维序列;其次,引入序列局部模式的相似度和异常值的定义对任意的测试集区分异常。通过PSB数据集实验证明了该方法的有效性和合理性。  相似文献   

12.
针对上市公司的基本面情况分析,构建了较为全面的综合评价指标体系. 定义了上市公司股票间"相似程度"的一种度量,基于该度量提出了一种新的层次聚类算法对样本股票进行聚类,然后通过聚类结果来分析投资价值确定投资品种或范围. 最后,选取上证30指数27家上市公司股票进行实证研究,结果表明所提聚类方法对指导证券投资是实用有效的.  相似文献   

13.
文本聚类中基于本体的相似性测度   总被引:1,自引:0,他引:1  
介绍了一种综合各层级分类类目和对应关键词来构造概念体系并用于改进信息检索系统效果的方法.为了改进文本聚类的效果,提出了将领域知识本体和文本关键词词频相结合的基于余弦向量的文本相似性测度方法.该本体面向特定领域,将关键词以不同权值对应于各分类类目,通过其语义知识来改进文本相似性测度以及信息检索系统的效果.进一步给出了对基于本体的相似性测度方法进行效果评价的2种策略以及该方法与经典余弦向量测度方法的比较结果.  相似文献   

14.
为了挖掘基于语义描述的煤矿安全监测数据中蕴含的生产安全信息,指导煤矿安全生产和决策,研究了基于语义描述的煤矿安全监测数据聚类分析算法.首先,阐述了煤矿安全监测数据的语义和数值混合描述方法;接着,分别给出了语义和数值数据的相似性度量方法,以及基于权重的煤矿安全监测数据的混合相似性度量方法;然后,以混合相似性度量方法为距离度量准则,并借鉴网格的思想,给出了基于网格的改进CURE聚类算法.通过煤矿安全监测数据集的仿真实验,验证了所提算法的有效性.  相似文献   

15.
研究了基于样式相似性的子空间聚类问题,使用样式相似性作为相似性度量.与在所有维或者子维集上聚集距离相近的对象的传统聚类方法不同的是,样式相似性寻找的是这样一种有趣的样式:对象在子维上呈现出相同起伏的一致变化.提出了一种挖掘基于样式相似性的最大子空间聚类的方法EMaPle.一般情况下数据集属性数目远小于对象数目,因此仅在属性计数空间查找簇,然后运用一些修剪策略.该方法能够找到同时满足一致性约束、大小约束和被MaPle忽视了的符号约束的聚类.在合成和实际数据集上的实验结果表明该算法优于原来的MaPle算法.  相似文献   

16.
Image feature optimization based on nonlinear dimensionality reduction   总被引:1,自引:0,他引:1  
Image feature optimization is an important means to deal with high-dimensional image data in image semantic un- derstanding and its applications. We formulate image feature optimization as the establishment of a mapping between high- and low-dimensional space via a five-tuple model. Nonlinear dimensionality reduction based on manifold learning provides a feasible way for solving such a problem. We propose a novel globular neighborhood based locally linear embedding (GNLLE) algorithm using neighborhood update and an incremental neighbor search scheme, which not only can handle sparse datasets but also has strong anti-noise capability and good topological stability. Given that the distance measure adopted in nonlinear dimensionality reduction is usually based on pairwise similarity calculation, we also present a globular neighborhood and path clustering based locally linear embedding (GNPCLLE) algorithm based on path-based clustering. Due to its full consideration of correlations between image data, GNPCLLE can eliminate the distortion of the overall topological structure within the dataset on the manifold. Experimental results on two image sets show the effectiveness and efficiency of the proposed algorithms.  相似文献   

17.
聚类分析中相似性测量方法的研究   总被引:1,自引:0,他引:1  
聚类是数据挖掘中的主要方法 .讨论了在大多数聚类算法中的相似性测量方法 ,并以属性的类型作为选择相似性的标准 ,阐述了用于数值属性 ,符号属性及混合属性相似性测量方法 .  相似文献   

18.
为了满足基于Web的XML数据信息的近似搜索、数据挖掘、信息分类以及数据交换的需求,分析了XML文档相似性度量方法一集合度量方法、线性度量方法和代价度量方法。提出基于权重代价的机器学习的XML文档相似性度量算法。实验表明该算法扩展了XML文档查询范围,提高了文档的查全率和查准率。  相似文献   

19.
基于矩阵降维的典型用户文件发现方法   总被引:3,自引:0,他引:3  
应用聚类技术能够自动地发现典型用户件,但是由于会话向量通常是高维的稀疏向量,因此很难在会话向量之间设计有效的相似度度量.本提出2种基于矩阵降维的典型用户件发现方法.这些方法应用非负矩阵分解技术降低会话-URL矩阵的维数,并通过球形的后.均值算法对用户会话向量的投影向量聚类,由此得到典型用户件.实验结果表明,这些算法能够有效地从用户会话中发现典型的用户件.  相似文献   

20.
数据稀疏是协同过滤预测精度的一个重要影响因素。Slope One算法使用简单的线性回归模型解决该问题,但它只使用评分数据做计算,未考虑相似性。提出一种基于用户习惯偏好相似度的Slope One算法(UPS Slope One)。UPS Slope One首先基于用户习惯偏好聚类,得到三组不同偏好的用户,然后分别计算各组评分偏差,计算时将用户习惯偏好相似度融入其中,最后使用线性回归模型预测评分。在MovieLens数据集上的实验表明,该算法可得到更高的推荐质量、预测准确性和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号