首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 252 毫秒
1.
介绍了关联规则隐私保护方法的研究概况,提出了利用基于敏感模式隐私保护算法,并通过实验验证该算法在模式丢失以及数据集中的差异上等性能有明显改善。最后,对未来关联规则挖掘领域中涉及的信息隐藏研究进行了展望。  相似文献   

2.
传统的分类算法大多假定用来学习的数据集是平衡的,但实际应用中真正面临的数据集往往是非平衡数据。针对非平衡数据,利用传统的分类方法往往不能获得良好的性能。文章提出了一种新的基于聚类的非平衡分类算法,通过聚类生成多个聚类体,在每个聚类体中选取一定数量的数据作为训练样本,有效地处理了样例数据的不平衡问题,在相关数据集上的实验验证了本方法的有效性。  相似文献   

3.
聚类分析是数据挖掘和机器学习的一个重要分支,应用范围广,但在聚类分析过程中大量敏感信息的泄露对用户构成威胁。因此,在聚类分析过程中实现隐私保护至关重要。传统基于差分隐私(DP)的k-means聚类算法由于存在盲目选择初始中心点、对异常点敏感度较高等问题,导致在保护数据隐私时,出现聚类可用性较低的情况。针对该问题提出一种改进的基于差分隐私保护的(IDP)k-means聚类算法以提高聚类可用性,并进行理论分析和对比实验。理论分析表明,该算法满足ε-差分隐私;仿真实验结果表明,在同一隐私预算下,k-means算法改进后在聚类可用性上优于其它差分隐私k-means聚类算法,在同一数据集与同一隐私参数下,改进k-means算法在数据可用性方面比传统算法提高了将近5个百分点。  相似文献   

4.
利用红外光谱与随机森林相结合的方法对不同产地蕨麻进行分类鉴别,测定了42个来自青海省不同产地的蕨麻样品的红外光谱。小波变换对红外光谱原始谱图数据进行了预处理,红外光谱数据压缩到原来的1/8,其分析精度与原始光谱数据基本相当。将42个样品划分为有30个样品的训练集和12个样品的测试集,建立随机森林预测蕨麻产地模型。使用内部交叉验证和外部数据进行验证,采用R语言实现随机森林算法,并对模型的参数进行了优化。结果表明,所建立的判别模型中训练样本和测试样本判别正确率均为100%。建立的模型能够正确地对蕨麻样品快速进行产地鉴别,红外光谱法结合随机森林可作为中药材产域分类鉴别的一种新的尝试。  相似文献   

5.
针对标准支持向量机训练时间过长与参数选择无指导性问题,给出一种通过粒子群优化双支持向量机模型参数的方法。与标准支持向量机不同,该方法的时间复杂度更小,特别适合不均衡的数据样本分类问题,对求解大规模的数据分类问题有很大优势。将该算法与标准的支持向量机分类器在不同的文本数据集上进行仿真实验对比,以验证算法的有效性。结果表明基于粒子群优化的双子支持向量机分类器的分类结果高于标准支持向量机分类结果。  相似文献   

6.
针对车辆行驶下的路面附着系数估计问题,提出了扩展卡尔曼滤波算法(EKF,Extended Kalman Filter)与径向基神经网络(RBF,Radial Basis Functionneural network)相融合。通过扩展卡尔曼滤波算法得出路面附着系数估计所需要的车辆状态参数,结合轮速等直接数据采用径向基神经网络对路面附着系数进行估计。神经网络的训练样本通过Carsim/Simulink收集不同行驶工况,并采用差值寻优的方法对径向基神经网络算法中的决定系数进行优化。基于双移线工况验证了该算法在路面附着系数估计上具有较高的精准度。  相似文献   

7.
针对传统基于ε-差分隐私模型的top-k关联规则挖掘算法在大规模数据环境下挖掘效率低下的问题,提出了一种并行差分隐私关联规则挖掘算法。算法利用Hadoop框架实现并行计算,利用负载均衡策略,使每一个节点分配到的数据量相当,利用指数机制挑选出k个频繁模式,采用拉普拉斯机制对这k个频繁模式添加噪音。通过实验对算法的频繁模式挖掘结果与同类算法进行比较分析,结果表明,该算法在保证挖掘结果具有可用性的前提下,在效率上较传统算法有所提升。  相似文献   

8.
差分隐私是能够提供严谨数学证明的隐私保护模型,针对传统差分隐私保护方法在混合型数据集中应用效果差、处理后破坏数据可用性等问题,提出一种面向混合型数据集自适应聚类的差分隐私保护算法.结合快速聚类及k-prototype聚类算法的特点,首先根据混合数据集的不同数据类型属性,采用不同的相异度计算方式实现对不同数据类型属性的距...  相似文献   

9.
垃圾短信过滤是文本分类的一种,将用户收到的短信分为正常短信和垃圾短信,从而实现对垃圾短信的屏蔽。在朴素贝叶斯分类算法的基础上进行改进,针对短信内容较短包含信息不足的特点,引入同义词集对短信中特征词进行扩展,降低同义特征词分散给分类带来的负面影响。同时针对垃圾短信自身包含的特殊信息,提出模式概念,采用模式概念替换具有相同模式的特征词,使垃圾短信的特征更加集中,增强分类算法对垃圾短信的鉴别能力,最后通过实验对朴素贝叶斯算法以及改进后算法的分类性能进行了分析,验证了改进后算法的有效性。  相似文献   

10.
为解决k-means聚类算法在聚类过程中隐私泄露风险,在满足ε-差分隐私保护前提下,提出一种隐私保护的RDPk-means聚类方法。该方法与传统随机选取初始点方式不同,采取基于网格密度的方式选取初始聚类中心,并在UCI数据集中进行有效性验证。采用543条数据生成2个聚类簇和19 020条数据生成3个聚类簇分别进行实验。结果表明,该聚类方法在不同的数据规模和维数情况下可以很好地保护数据隐私,能保证聚类结果的可用性。  相似文献   

11.
出了一种可伸缩的朴素贝叶斯分类算法。算法针对大数据集的训练数据,通过构建雨林框架,能在有限主存里存储训练数据,训练生成概率矩阵,进而对测试样本进行分类。算法仅对整库一次扫描。实验表明,该算法能够获得与整库读入主存相同的分类准确率.并且有较高的处理效率。  相似文献   

12.
提出了一种基于小波变换和离散余弦变换(Discrete Cosine Transform DCT)的人脸识别方法,它通过对经过小波变换的人脸图像的低频图像进行DCT变换,从而获得原始图像的频谱图像,然后利用最近邻法进行分类,在ORL人脸数据库上的实验表明这样的方法能够获得比传统主成分分析(Principal Components Analysis PCA)更好的识别性.  相似文献   

13.
为提高大数据集粗分类识别率,提出一种基于聚类分析的SVM-Kd-tree树型粗分类方法。首先根据数据集特征分布进行k-means两簇聚类,对聚类后的数据集进行类别分析,同时将属于两簇的同一类别样本划分出来;然后使用两簇中剩余样本训练SVM二分类器并作为树型结构根节点,将两簇数据分别合并,将划分出来的样本作为左右子孩子迭代构建子节点,直到满足终止条件后,叶子节点开始训练Kd-tree。实验结果表明,迭代构建树型粗分类方法使训练单一SVM平均时间减少了61.977 4%,比Kd-tree同近邻数量的准确率提高了0.03%。在进行大规模数据集粗分类时,使用聚类分析迭代构建组合分类器时间更短、准确率更高。  相似文献   

14.
针对复杂非线性多通道时变信号模式分类问题,提出了一种集成卷积神经网络(CNN)与随机森林(RF)相融合的方法。该方法以CNN为基学习器,自动提取信号样本的抽样特征,同时省去降维与人工选择特征的过程,以RF为次级学习器,增加样本扰动,同时增加属性扰动。为增强样本多样性,使得该模型尽可能充分利用信息,在训练集中随机抽取7份子训练集,再利用7份子训练集训练出7个不同的学习器;最后通过投票法和学习法建立集成模型,提高了识别精度。实验结果表明,在测量区间上,该方法对3种ECG信号类别的平均分类精度达94.60%,提高了1.1%,取得了良好结果,验证了模型和算法的有效性。  相似文献   

15.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

16.
INTRODUCTION Improvements in sensor and wireless commu-nication technology enable accurate, automated de-termination and dissemination of a user or object’sposition. There is great interest in exploiting thispositional data through location-based services (LBS)Because of the widespread use of relatively cheapcellular phones or other mobile devices, many loca-tion services will be based on tracking technology toreveal the mobile user’s “personal” location at anygiven time (Einar, 200…  相似文献   

17.
针对文本分类领域的有监督学习往往需要大量精准标注样本但大量人工标注困难的问题,提出一种新型的半监督学习方式,通过协同训练合理使用大量未标记训练样本,通过添加不同分类的文本特征噪声解决传统协同半监督学习方法中模型参数趋于统一的问题,同时提高分类模型的分类能力。针对传统深度学习方法中文本特征权重一致导致的分类特异性特征不突出问题,在训练模型中加入 self-attention 机制对文本句子特征权重进行提取,并通过句子加权方式突出特异性分类特征。实验结果表明,通过半监督学习方式同时使用少量已标注数据进行训练,模型能够达到 91.4%的准确率,召回率达到 84.3%,与有监督训练方式的分类准确能力相近,从而解决大量人工标注问题,具有一定的使用价值。  相似文献   

18.
TLC闪存存储单元随着擦写次数不断增加,错误概率快速增大。基于TLC闪存信道结构,利用原模图LDPC码字扩展以及变量节点与TLC闪存存储页匹配关系,提出了一种速率兼容原模图LDPC码,所设计的速率兼容原模图LDPC码在保持信息位长度相同情况下,可实现可变码率,能够适应TLC闪存擦除次数增多而导致的不同纠错能力需求情况,编译码时只需一对LDPC编码器/译码器即可灵活处理所有码率,从而提高编码器/译码器的硬件利用率。仿真结果表明,所提出的速率兼容原模图LDPC码优于未经过逻辑页匹配的速率兼容原模图LDPC码,当误码率为[10-4]、码率分别为0.90、0.82、0.75时,所提出的速率兼容原模图LDPC码信噪比性能比基于PEG算法的非规则LDPC码均提高0.2dB以上。  相似文献   

19.
Privacy is a critical requirement in distributed data mining. Cryptography-based secure multiparty computation is a main approach for privacy preserving. However, it shows poor performance in large scale distributed systems. Meanwhile, data perturbation techniques are comparatively efficient but are mainly used in centralized privacy-preserving data mining (PPDM). In this paper, we propose a light-weight anonymous data perturbation method for efficient privacy preserving in distributed data mining. We first define the privacy constraints for data perturbation based PPDM in a semi-honest distributed environment. Two protocols are proposed to address these constraints and protect data statistics and the randomization process against collusion attacks: the adaptive privacy-preserving summary protocol and the anonymous exchange protocol. Finally, a distributed data perturbation framework based on these protocols is proposed to realize distributed PPDM. Experiment results show that our approach achieves a high security level and is very efficient in a large scale distributed environment.  相似文献   

20.
For the realtime classification of moving vehicles in the multi-lane traffic video sequences, a length-based method is proposed. To extract the moving regions of interest, the difference image between the updated background and current frame is obtained by using background subtraction, and then an edge-based shadow removal algorithm is implemented. Moreover, a thresholding segmentation method for the region detection of moving vehicle based on location search is developed. At the estimation stage, a registration line is set up in the detection area, then the vehicle length is estimated with the horizontal projection technique as soon as the vehicle leaves the registration line. Lastly, the vehicle is classified according to its length and the classification threshold. The proposed method is different from traditional methods that require complex camera calibrations. It calculates the pixel-based vehicle length by using uncalibrated traffic video sequences at lower computational cost. Furthermore, only one registration line is set up, which has high flexibility. Experimental results of three traffic video sequences show that the classification accuracies for the large and small vehicles are 97.1% and 96.7% respectively, which demonstrates the effectiveness of the proposed method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号