首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着时代的发展,越来越多的数据来源于网络。但是由于Web数据的特点,从网上信息抽取得来的数据存在着大量“脏数据”,并不能直接使用,因而有必要进行数据清洗,消除“脏数据”,转化为可直接使用的数据。针对实例层次的数据质量问题系统分析了Web数据清洗的方法  相似文献   

2.
数据质量在信息管理系统中具有重要意义。然而,由于用户拼写、录入、系统升级等原因导致各种数据质量问题的出现。数据清洗的目的就是检测出脏数据并修复它们。而当前的清洗工具缺乏灵活性和扩展性,基于此,本文提出了一个基于规则和数据学习的通用清洗模型。模型实现了动态规则学习和动态数据学习等关键技术。通过规则匹配和反馈学习过程实现了动态清洗规则最佳选择;通过字段学习和元表学习过程实现了动态数据的初始化。实验证明,应用该模型保证了动态数据的质量,提高了当前清洗工具的灵活性和扩展性。  相似文献   

3.
阐述了数据清理的概念和意义,介绍了缺失值修补和孤立点识别采用的主要方法,并指出有待进一步研究的问题。  相似文献   

4.
缺失数据的处理和挑战   总被引:1,自引:0,他引:1  
在数据挖掘研究中,缺失数据是一个非常普遍的问题,如何处理缺失数据也是一个热门的研究领域.介绍了缺失数据产生的原因,分类总结了缺失数据的处理方法,最后,提出了处理缺失数据的一些挑战性课题。  相似文献   

5.
进行数据挖掘之前的原始数据经常是不完整或存在异常,针对这种情况,在众多数据预处理算法的基础之上,文中提出了一种基于遗传算法的数据预处理组合方法,能有效的利用各种方法的优点,提高了估计的精确度.通过实验证明,该方法优于其他各种单一方法.  相似文献   

6.
大数据下的实体识别是提高数据实体同一性的关键步骤。本文概述了实体识别问题,介绍了不同类型的实体识别算法,重点分析了复杂数据类型的大数据实体识别算法,最后对实体识别算法的相关研究进行了展望。  相似文献   

7.
采用传统分布式数据库架构存储和管理海量数据,效率不高且系统的存储能力受制于所依赖的数据库管理系统的能力.Hadoop作为一种开源的架构,适合在廉价机器上对各种资源数据进行分布式存储和分布式管理,具有可伸缩性和高容错性.本文在研究开源框架Hadoop的基础上,提出了基于Hadoop的海量数据处理模型,并在不同数量的Datanode的情况下对副本系数与块大小对HDFS的I/O性能的影响进行测试,试验结果表明,提供的模型较高效率地实现了对大数据量的日志的快速预处理.  相似文献   

8.
高职院校参加全国大学生数学建模的学校越来越多,学生也在不断的增加,为了能够让学习数学建模的学生能更全面的把握处理缺失数据的方式方法,有必要对缺失数据的产生、检测及处理做一个梳理。而本文是基于SPSS软件对缺失数据的检测和处理进行介绍。  相似文献   

9.
教育大数据挖掘的基础就是数据,丰富、高质量的强大数据对数据挖掘的结果至关重要。在数据挖掘中数据的准备是耗时最多的环节,数据的准备包括教育数据的收集、数据的质量分析和数据的预处理三个环节,只有做好这三个环节,才能保证教育大数据的最大价值和数据挖掘的有效性。  相似文献   

10.
针对基于深度神经网络填补多变量时序数据缺失值时存在误差引入的问题,将强化学习和图神经网络结合,提出了基于强化学习的多变量时序数据缺失值补全方法(reinforcement learning based missing value completion method for multivariate time series data, RL-CFMTS)。具体地,设计了一个图神经网络模块,用于预测最终的缺失值。同时,该模块还为强化学习模块提供状态向量和奖励,指导强化学习为目标时序节点挑选其认为最相似的b个节点来建立时序关系,以减少误差的引入。在3个真实世界数据集上的实验结果表明,RL-CFMTS在插补准确性方面优于近年来的多变量时序数据缺失值填补方法,在天气、股票和疫情数据集中平均绝对误差(mean absolute error, MAE)指标分别提升了12.78%、15.80%和55.73%。  相似文献   

11.
在认知诊断过程中,数据缺失往往不可避免。并且随着缺失率的增大,诊断准确率也会受到影响。经过调查发现认知诊断中缺失数据的处理研究比较缺乏。通过模拟实验,对比分析了在不同样本量和缺失比例条件下,多种数据插补方法的效果,并且在实证数据中对数据插补方法进行验证。结果表明,针对不同样本量和缺失比例,不同的数据插补方法各有特色,实际应用中可根据数据集特征和自身需求选择合适的插补方法。  相似文献   

12.
本文旨在研究数据挖掘中数据预处理技术,首先通过简单介绍数据挖掘的基本概念以及数据挖掘的逻辑构成,介绍了数据预处理在整个数据挖掘过程中所处的阶段,然后从数据预处理的数据清洗、数据变换、数据集成、数据简化等数据预处理操作入手,详细介绍了填充缺失值、弱化噪声数据、数据集成等数据预处理技术,最后给予专门的数据预处理的流程来实现数据挖掘中的数据预处理的过程。  相似文献   

13.
为了保证教学工作的顺利开展,投影仪在使用了一段时间后,就应及时进行全面的清洗保养,使其处于良好状态。现将本人的实践经验介绍如下,以供同行借鉴。一、工具中号螺丝刀(平口、十字口各一把),尖嘴钳一把,扳手一把,L形六角螺杆一件,酒精、脱脂棉球适量,镜布或镜头布等3~5块,丝绸或丝巾2~3块,吹气球或洗耳球一个,脸盆一个,中性肥皂一块。二、方法与步骤为了提高工作效率,可采用流水作业式的清洗方法,即把一个年级的多台投影仪集中起来作为一组,以工厂流水作业的方式进行清洗。清洗流程是:打开———卸下透镜———…  相似文献   

14.
对基于Web日志的数据预处理过程做了相关研究,特别关注于用户识别和会话识别的启发式规则,对会话识别中基于时间的两条启发式方法进行了改进,形成新的基于时间的方法,并结合获取的数据予以验证,讨论分析了验证结果。新的方法提高了会话识别的准确性,为下一步的数据挖掘打下了基础。  相似文献   

15.
提出了一种基于RBF的时序缺失数据修复方法,利用RBF构建模板数据和当前存在缺失的数据之间的训练关系,并通过该训练关系修复缺失数据.实验表明,该方法能够应用于刚性体以及非刚形体运动或形变追踪,是一种有效的时序缺失数据修复方法.  相似文献   

16.
提出了一种基于数据质量进行控制的ETL技术,在传统的ETL操作流程中增加脏数据处理模块及抽样数据质量评估模块,并将数据质量控制思想融入到ETL的操作流程设计中,控制ETL过程的数据质量。实验表明,带有质量控制的ETL算法设计优化了ETL工作流程,提高了进入数据挖掘中数据的质量。  相似文献   

17.
在社会科学的量化研究中,如何处理缺失数据,一直是困扰研究者的问题。传统上研究者们多采用直接删除、配对删除等方法,但这些方法都存在难以克服的缺陷。当今欧美大多数学者处理缺失数据时都采用最大拟然估计法和多重归因法,且实践已经证明了这两种方法的优越性。本文简单总结了传统的缺失数据处理方法,并对最大拟然估计法和多重归因法进行评介,以期提高量化研究中缺失数据处理的技术。  相似文献   

18.
PowerBuilder中的数据查询方法综述   总被引:1,自引:0,他引:1  
在数据库应用系统的开发过程中,经常要对数据库进行大量的查询,查询是各种计算机高级语言不可缺少的功能。在PowerBuilder,数据查询有多种方法,采用何种方法,使数据查询更加方便、快速和有效,是软件开发时必须考虑的问题。针对以上问题,该文对PowerBuilder~的数据查询方法进行综合论述,并对其特点进行分析。  相似文献   

19.
数据场体视化方法综述   总被引:4,自引:0,他引:4  
数据场体视化使人们可以从一幅图象里感受到数据整体的信息.本文研究了大量体视化方面文献后,总结了体视化的研究方法,并提出了当前的研究热点及今后的研究方向.  相似文献   

20.
统计调查中,经常会遇到数据缺失的现象.缺失数据会影响统计分析的质量.文中提出了一种先对数据的缺失机制进行统计检验,针对是否存在显著分布偏性,分别采取相应的插补算法的统计方法.该系统算法可以全面处理离散数据和时间序列数据的不同缺失机制的缺失数据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号