首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
随机森林算法在数据挖掘领域中得到了广泛的应用,该算法通过构建多个不同的决策树可以获得更高的分类结果。但是,随着数据规模的增大,人们开始接触到各大规模的数据以及更高维度的数据属性。传统的随机森林构建算法不能有效、快速地处理海量高维数据,严重影响了数据的分类效率,从而影响预测效率。本文针对高维、海量数据下随机森林构建算法,改进并提高了该算法的效率,提出了基于云计算平台的随机森林构建算法。该算法可以快速的完成数据分类预测,并通过实验结果进一步展示了该算法的效率以及可扩展性。  相似文献   

2.
小差异数据往往具有信息量大、特征差异小的特点,传统的数据分类方法多具有串行性,在处理海量小差异数据时,存在分类效率低、准确率低及可行性差的缺陷,为信息检索、数据管理等实际应用带来了潜在的风险。为此,提出设计一种基于概率统计的小差异数据分类模型。针对初始数据的杂乱性、冗余性和随机性,分别进行数据清洗、数据变换和数据归约等预处理,依据相关原理构建隐马尔科夫数据分类模型,并通过模型参数优化,得到数据特征的最优描述及该数据属于每一类别的最大概率值,从而实现小差异数据的有效分类。实验结果表明,采用改进算法进行小差异数据分类,能够大大提高数据分类的准确性,提升系统运行速率,提高了算法鲁棒性,具有实际的应用价值。  相似文献   

3.
随着信息技术的迅猛发展,大型数据库中的数据正在呈几何级数增长,冗余分类技术已经成为信息组织的重要手段。在总结归纳已有的冗余分类算法弊端的基础上,参考决策树算法提出了一种新的基于数据库抽样的海量数据冗余分类算法。算法引入宽度优先扩展思路,并给出了算法的基本思想和具体实现过程,探讨了并行环境下进行计算的优化步骤。在与SPRINT算法的比较实验中,新算法展现了良好的性能和分类效率。  相似文献   

4.
提出采用残差数据合并技术的冗余数据优化挖掘算法,利用训练集建立决策树模型,引入C4.5决策树模型进行冗余数据主特征建模,在主分量特征决策树下,引入残差数据合并技术,设定数据残差特征伴随追踪模式,把传统方法中用于滤除的数据信息进行拼接伴随追踪定位,实现了冗余数据特征的优化挖掘。把方法应用到网络流量时间序列数据处理中实现网络异常监测,仿真实验表明,新的数据挖掘算法能有效提取到冗余数据特征作为有用检测特征,数据挖掘效率大幅提高,有效促进了海量数据隐藏特征的挖掘和应用,设计的网络流量监测软件能提高网络管理和监测实效性。  相似文献   

5.
崔丽 《科技通报》2013,29(2):45-47
在医疗系统中,人们通常使用决策树对患者的发病类型以及概率进行有效地分类预测.随着信息技术的普及,医疗系统中产生了大量的历史医疗记录,处理和分析这些海量的医疗数据给医疗系统带来了极大地挑战.本文针对海量医疗数据问题,提出了分布式构建决策树算法.该算法分布式逐层构建决策树,可以高效地构建决策树,快速有效地完成医疗系统中的预测工作.该算法是基于现有流行的云计算平台,使用MapReduce分布式框架设计的分布式算法.实验结果表明,该算法具有很好的扩展性和高效性.  相似文献   

6.
提出一种基于变维Kalman滤波的Web海量数据流抗干扰挖掘算法。构建Web环境下的海量数据挖掘数据流信息模型和噪声干扰模型,结合现代信号处理方法,设计变维Kalman滤波算法进行海量数据流信号滤波预处理,把Web海量数据流映射为一组非线性宽带调频信号模型,采用信号检测算法实现Web海量数据的抗干扰挖掘。仿真结果表明,采用该算法进行Web海量数据信息的抗干扰挖掘,具有较高的数据检测精度和准确挖掘性能,具有较高的抗干扰性和鲁棒性。  相似文献   

7.
针对银行CRM中的海量客户历史数据问题,本文采用决策树算法和BP神经网络算法,选取部分客户业务数据分别进行分类预测实验,实验结果表明利用上述算法可以较好地解决银行中对客户分类预测的需求。  相似文献   

8.
针对C4.5算法在构建决策树过程中将条件属性与决策属性之间的信息增益率作为选择分裂属性的标准,而未考虑条件属性间相关性对结果影响这一缺点,提出了一种修正信息增益率的改进算法。首先计算当前分裂属性与各个条件特征间的平均信息增益,将其作为计算修正信息增益率的影响因素之一;然后使用高等数学中Taylor中值定理和Maclaurin公式的近似式,对修正后的信息增益率公式进行去除对数化简。将改进后的算法分别同原始算法和其他优化算法进行仿真实验,对比结果表明,本文改进后的C4.5决策树算法既提高了平均分类准确率,同时又提高了算法运行效率。  相似文献   

9.
桂思思  徐健 《情报科学》2021,39(11):90-95
【 目的/意义】针对查询意图歧义性自动识别,探讨特征有效性及采用不同分类算法识别三类查询意图歧义 性的分类准确率,以期对后续研究提供借鉴与指导。【方法/过程】首先提出了一个面向查询意图歧义性的查询表达 式分类体系;随后,构建了查询表达式特征及相关文档特征共六类;最后,分别采用决策树算法、神经网络算法及k 最邻近算法,探讨采用不同特征组合的有效性及不同分类算法的分类准确率。【结果/结论】①分类准确率较基准实 验提升比例为49.5%;②使用查询表达式特征分类优于使用相关文档特征;③决策树的分类准确率略高于其他两类 分类算法。【创新/局限】构建了一个面向查询意图歧义性的查询分类体系;完成了面向三类查询意图歧义性的分类 任务;然限于数据集获取途径,仅对200数据验证。  相似文献   

10.
ID3决策树算法是数据挖掘中最常用的一种方法,但其存在多值偏向性等问题,文中根据相似性原理,引进属性趋近度概念,以描述属性和决策分类属性的分类样本数的趋近程度确定测试属性,构建决策树,并对ID3算法和改进算法T_ID3算法的多值偏向性问题和测试预测率进行了理论和实验的验证。  相似文献   

11.
目的分析西藏地区藏族2型糖尿病患者伴发血脂代谢异常情况,探讨血脂异常对糖尿病患者引起血管并发症方面的临床意义。对象2006年9月至2008年9月在本院住院的藏族2型糖尿病患者112例。方法所有患者根据有无合并血管病变分为两组,两组的血脂检测情况进行对比,同时与154例健康体检者进行比较。结果T2DM患者较对照组血脂显著异常,伴有血管合并症的T2DM患者较无血管合并症的T2DM患者血脂异常情况更明显。  相似文献   

12.
技术创新型企业具有开放性、非平衡性、非线性、涨落性,是一个自组织系统,技术创新型企业具有自主性、自适应、自催化、自调控等自组织特征。技术创新型企业的自组织运行需要一定的社会环境。  相似文献   

13.
加布 《西藏科技》2010,(2):30-30
目的为调查研究林芝地区工布江达县猪旋毛虫发病现状、感染率、流行动态、流行病学特点。方法应用购自河南百奥生物工程有限公司的猪用旋毛虫快速诊断试纸条,对工布江达县3个点(措高乡、株拉乡、个体养殖基地)200头猪进行血清学检测。结果工布江达县猪旋毛虫血清学阳性率为零。结论调查表明全县范围内经过一年两次的驱虫,工布江达县猪旋毛虫病的防治总体取得了显著成效。  相似文献   

14.
程忠红  韩富贵 《西藏科技》2010,(2):26-27,29
西藏的民俗文化博大精深,怎样使旅游者在较短的时间内了解体验,是西藏旅游开发要考虑的问题。本文将在对拉萨桑木民俗村个案的调研基础上,对其存在的问题进行了解析,提出了对拉萨民俗村旅游资源开发的对策。  相似文献   

15.
研究拉萨SOS儿童村儿童的体格状况和生长发育情况。调查结果发现儿童的身高、体重、胸围和坐高的发育符合一般的生长发育规律,随着年龄的增大而增加。与1982年拉萨市城区儿童比较,7-14岁的儿童在身高、体重、胸围和坐高各方面大多数都有不同程度的增长,增长值最高的年龄组男孩子为12和14岁组,女孩为10、11和14岁组。但总体情况不容乐观,与全国其他城市同等年龄儿童比较差距甚大,这与高原缺氧、儿童缺乏体育锻炼和饮食结构的不合理等有关。建议所有教育工作者、医疗卫生工作者和家长,加强学习,提高认识。  相似文献   

16.
本文针对改则县重大动物疫病流行现状进行分析,并提出了相应的建议.  相似文献   

17.
18.
设K为代数闭域k的有限生成扩域.C:f(x)=ayn为K上曲线,其中f是k上至少有3个单零点的多项式且n>3是正整数,n不是域k的特征的倍数,再设a■Kn,那么曲线C不能定义在k上,即曲线C:(x)=ayn不会k(a)同构于一条k上的曲线.  相似文献   

19.
格桑 《西藏科技》2007,(8):55-56,59
本文根据西藏地区1971—2000年的汛期逐日降水资料,分析汛期极值降水日数、一日最大降水量、极值降水指数、极值降水量等极值降水统计特征时空分布规律,得出了一些有意义的结论。  相似文献   

20.
为了查明莲花山水质的水文地质,化学成分特征和应用价值,先后对清心泉,灵龟吐液进行6次观察和2次水质分析,初步证实:两口井水质清沏明亮,口感好,富含偏硅酸和钠离子,现已测定的各项指标均达以国家饮用矿泉水标准,是一种饮用天然偏硅酸矿泉水。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号