首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。  相似文献   

2.
一种deep web数据源下重复记录识别模型   总被引:1,自引:0,他引:1  
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.  相似文献   

3.
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度。在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并。  相似文献   

4.
随着时代的发展,越来越多的数据来源于网络。但是由于Web数据的特点,从网上信息抽取得来的数据存在着大量“脏数据”,并不能直接使用,因而有必要进行数据清洗,消除“脏数据”,转化为可直接使用的数据。针对实例层次的数据质量问题系统分析了Web数据清洗的方法  相似文献   

5.
随着我国综合国力的增强,我国逐渐步入大数据时代。大数据的概念是由维克托·迈尔·舍恩伯格和肯尼斯·库克耶提出的,它是指通过新的处理模式,来获取拥有更好的决策能力、洞悉力和流程更加完善的大量、增长率高且具有多样性的信息资源。  相似文献   

6.
信息时代,数据已经慢慢成为一种资产,数据质量成为决定资产优劣的一个重要方面。随着大数据的发展,越来越丰富的数据给数据质量的提升带来了新的挑战和困难。提出一种数据质量策略,从建立数据质量评价体系、落实质量信息的采集分析与监控、建立持续改进的工作机制和完善元数据管理4个方面,多方位优化改进,最终形成一套完善的质量管理体系,为信息系统提供高质量的数据支持。  相似文献   

7.
随着社会各领域信息化程度的提高,教育信息化技术也得到了快速发展。在教学内容数字化蓬勃发展的同时,需要提高教学过程数据数字化的普及程度与应用规模。通过大数据技术在教学过程数据采集、存储与挖掘中的应用,提高教学质量,发展个性化教学,使教学效果评价更加精细化与科学化,从而为教学决策提供数据支撑。综合运用分布式文件存储、关系型数据存储与异构数据存储技术,实现教学过程微观数据的高效存储。  相似文献   

8.
大数据环境下的高职教育改革   总被引:1,自引:0,他引:1  
大数据时代的到来广泛影响着人类社会的诸多领域,掀开了教育变革的序幕,高等职业教育也不可避免地受到大数据的影响.文章提出了高职教育大数据的相关概念和特征,进一步阐述了大数据环境下高等职业教育改革的实施路径.  相似文献   

9.
随着大数据时代的到来,对当前教学、学习考核思维模式都有了新的发展需求,文章探讨了当前教育大数据的存储方式,如何对大数据进行挖掘、提炼进而分析教育大数据。这些方法对教师来说可以提高教学质量、掌握学习者的学习特征,从而针对不同的学习者给出需要的教学内容和形式,从而提高学习效率。  相似文献   

10.
随着高科技的迅猛发展,全球已进入大数据时代,大数据在各个行业中得到广泛应用。大数据让图书馆在得到机遇的同时,也直面挑战。通过分析数据,了解用户需求,提供个性化的知识服务,提升图书馆的核心竞争力。  相似文献   

11.
当前各网络学习系统和资源库之间存在着信息孤岛现象.文章以大数据时代为背景,首先认为造成这种现象的原因主要包括数据的多源异构性和新兴网络技术的应用,如系统的异构,模式的异构和物联网技术等.为了解决这个问题,必须构建异构数据共享系统,该系统包括应用层、数据服务层和数据层.与此相关的关键技术应该具备完成海量数据的存储和海量数据运算的功能.其主要解决策略是从非结构化数据库入手解决异构数据融合问题,其中具有代表性的就是noSQL技术,它具有易扩展、高性能、数据模型灵活等特点.在此基础上,通过数据的表示及格式转换、数据互操作和直接数据访问模式等方式,完成异构数据的集成,最终实现网络学习环境之间“直通车”目的.总之,该论文对网络学习环境中的异构数据和集成进行初步的探讨,希望对今后的相关研究起到抛砖引玉的作用.  相似文献   

12.
在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法.  相似文献   

13.
魏欣 《教育教学论坛》2020,(10):375-376
随着大数据技术的不断发展,越来越多的教师将大数据引入高校图书馆数据库建设工作中,推动了图书馆数据库建设工作,促进了图书馆职能的发挥。为充分发挥大数据对图书馆数据库建设的价值作用,作者以《大数据环境下图书馆数据库建设》为课题,从大数据相关概念解析入手,对大数据环境下图书馆数据库建设现状进行了全方位、深层次的剖析,并在此基础上探究了大数据环境下图书馆数据库建设途径。  相似文献   

14.
抽样调查是统计学专业的一门专业必修课,是一门兼具理论性与应用性的课程。大数据是随着社交网络、物联网、云计算等的兴起而产生的一个新兴产业,大数据时代数据的获取方式和数据规模及其复杂程度发生了根本的变化,大数据在数据来源上对传统的抽样调查方法产生了冲击。本文主要探讨大数据环境下抽样调查课程的教学改革与实践。  相似文献   

15.
在大数据时代背景下,高校可以利用大数据技术,整合教育管理相关信息更好开展促进大学生心理健康、实施多元化评价、关注大学生生活以及为大学生提供个性化就业指导等服务。高校应采取转变思维、培养专业人才、加强校企合作、保护敏感信息等措施迎接大数据时代,以促进学生全面发展,形成高水平的教育治理能力。  相似文献   

16.
基于不同视角和情境特征的大数据定义诠释了大数据的 5V 特性,在扩展大数据价值空间与应用模式的同时催生了以“数据驱动+模型驱动”范式转变为代表的核心问题。为解决大数据分析核心问题,引入神经网络,采用性能优越的卷积神经网络设计对比实验,运用两个公开数据集对其进行训练,并在输出层分别使用L2-SVM 和 Softmax 激活函数。在手写数字识别和彩色图像识别中,L2-SVM 的识别错误率分别为 0.87%和11.9%。实验结果表明,基于 L2-SVM 的神经网络大数据分析方法可以获得更高的识别精度。  相似文献   

17.
大数据的到来使得社会、科学、生活都发生了巨大的变革,当前基于位置数据服务所产生的位置大数据是大数据的重要研究问题之一。从位置大数据的背景出发,从位置大数据的概念、分析方法、隐私保护等三个方面对位置大数据的研究现状进行了介绍。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号