首页 | 本学科首页   官方微博 | 高级检索  
     

基于大数据挖掘的科技项目查重模型研究
作者姓名:李善青  赵辉  宋立荣
作者单位:中国科学技术信息研究所
基金项目:中国科学技术信息研究所科研项目预研基金“面向重复立项检测的多源信息整合机制研究”(项目编号:YY201214);国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(项目编号:71303223);国家社会科学基金项目“网络环境下科技信息资源建设中的质量元数据及评估应用研究”(项目编号:12BTQ016)研究成果之一
摘    要:科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。

关 键 词:大数据挖掘  多源信息整合  科技项目查重  Hadoop架构
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号