首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于正态分布特征的连续属性无监督离散化方法研究
引用本文:李晓宏,孙林岩,李刚.基于正态分布特征的连续属性无监督离散化方法研究[J].科学与管理,2009,29(6).
作者姓名:李晓宏  孙林岩  李刚
作者单位:西安交通大学管理学院;机械制造系统工程国家重点实验室,西安,710049
摘    要:商业智能分析诸多算法是基于离散化数据的,但商业分析的中数据类型不一,将连续属性离散化是商业智能分析中数据预处理中非常重要的内容之一。通过对连续属性的分布特征和不同类别在同一属性下的分布特点分析,提出基于正态分布特征的连续属性无监督离散化方法,并研究了经该离散化方法对连续属性数据预处理后测试数据分类精度与断点个数设置之间的关系,确定统计意义上较为合理的断点个数,实现对连续数据的离散化处理。数值对比实验结果表明:本文所提出的离散化方法在一定程度上可以提高数据集分类精度。

关 键 词:正态分布  连续属性  离散化  数据挖掘

The Unsupervised Discretization Method of Continuous Attributes Study: Based on Normal Distribution Characteristics
Authors:LI Xiao-hong  SUN Lin-yan  LI Gang
Abstract:The discrete data is used to the vast majority of research methods of data mining.So it is necessary to discretize the continuous data as a part work of data preprocessing.This paper analy sis a new unsupervised discretization of continuous attributes based on normal distribution characteristics through the normal distribution characteristics and the distribution of different categories in the same attribution. After that,we study the relationship between the classify accuracy of the testing data and the setting number of the cut-points,and we find the logical number of the cut-points.F inally,the experiments show that the method can improve the classify accuracy of the testing datasets.
Keywords:The Normal Distribution  Continuous Attribute  Discretization Method  Data Mining
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号