首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
本文主要介绍了不平衡数据分类的方法,包括数据层面的方法和算法改进方面的方法;传统的分类方法的评价指标,对于不平衡数据集是不适用的,故本文最后又对不平衡数据集分类的评价指标作了简要的探讨。  相似文献   

2.
针对不平衡数据集少类样本分类精度低的现象,本文提出了一种新的不平衡数据扩充采样算法。改进算法通过距离度量,在少类样本中心与其近邻间进行随机线性插值,使数据平衡。改进算法与SMOTE算法、C_SMOTE算法分别对5个不平衡数据集进行扩充分类对比实验,基于AUC、OOB、F值与G值评价指标及成对样本T检验,证明改进算法能有效缓解类不平衡,并具有更优异的不平衡数据处理性能。  相似文献   

3.
数据类间分布不均衡是不平衡数据集分类效果不好的主要原因,为了克服类间分布的不均衡,本文提出了一种基于邻近样本类别判断的不平衡数据分类算法。首先,对待判定样本,计算它的k个最邻近样本,然后将待判定样本的类别指派到它的k个最邻近中的多数类。由于本文所提出的不平衡数据分类算法在类别决策时,只考虑少量的邻近样本的类别,而不是考虑所有的训练样本,因此可以较好地克服类间不平衡对少数类分类结果的影响。在客户流失数据集上的仿真实验充分证明了本文算法能较好地处理不平衡数据分类问题。  相似文献   

4.
针对PSVM没有考虑不平衡数据的情况,提出一个基于改进PSVM的分类方法(PSVM-2).首先用PSVM对输入集数据进行初次训练,并得到分类超平面的法向量,做输入集在法向量上的投影,利用投影样本点提供的数据改进PSVM,并对输入集数据进行再次分类.实验证明本方法在处理不平衡数据时性能表现良好.  相似文献   

5.
构建经济、稳定、高效的应急管理信息系统,对满足应急信息需求,提高突发事件应对效率具有重要意义。本文从平衡计分卡的视角构建了应急管理信息系统评价指标体系,并研究了信息不确定条件下基于语言评价集和区间数的应急管理信息系统评价指标测度方法,构建的综合评价模型解决了指标中同时存在定性定量数据的信息集结排序问题,算例分析说明模型可以对应急管理信息系统进行综合评价,并为明确应急管理信息系统改进方向提供决策参考。  相似文献   

6.
本文提出了一种基于训练集划分的随机森林算法。该算法首先将多数类划分为多个不相交子集。然后将每个子集与少数类合并,进行决策树的训练。最后根据平均加权策略构建随机森林,并获取最终的分类规则。本文所提方法避免了原始样本信息的损失,而且保持了子分类器的样本平衡。在人工生成数据集上的仿真实验表明本文方法非常有效。  相似文献   

7.
以工程造价咨询企业为研究对象,构建其信用评价指标体系;针对其信用信息数据搜集难度大、指标数量多、相关性强的特点,以主成分分析法作为指标约简和赋权方法,以三角白化权函数灰色聚类作为信用分类方法构建其信用评价模型;最后以宁波市30个工程造价咨询企业为样本集进行实证分析,结果表明该评价模型能够较好地处理小样本、高维数的信用数据,同时具有准确率高、分类区分度好、误判成本低的优点。  相似文献   

8.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

9.
【目的/意义】开放科学迈入全球共识新阶段,构建可计量的开放科学数据影响力评价指标体系,将为我国科学数据共享成效量化评价提供参考方案,对完善数据战略、释放科学数据价值和增加国际科技话语权具有重要意义。【方法/过程】基于文献调研法和国家科学数据中心工作实践,设置可计量的开放科学数据集影响力评价指标,采用专家打分法筛选指标;运用层次分析法对具有科学性、代表性和全面性的样本和指标进行量化研究,实现指标体系所涵盖的所有指标项可计量和各指标的权重可计量。【结果/结论】本文构建可计量的开放科学数据集影响力评价指标体系,涵盖学术影响力、决策影响力、社会影响力、国际影响力和经济影响力5个一级指标及24个二级指标。结论表明:开放科学数据集支撑的学术成果、社会影响、政府决策和国际合作等是其影响力评价指标体系的重要组成,科学数据的经济价值得到广泛认同。【创新/局限】基于调研和实践,本文依据多领域科学数据权威专家数据构建了可计量的开放科学数据集评价指标体系。受限于篇幅,实证研究有待进一步展开。  相似文献   

10.
国外学科评价及其文献计量评价指标研究   总被引:3,自引:0,他引:3  
学科评价相关理论和方法的系统研究在国内还基本空白,这与其在科学评价中的重要地位是不适应的.笔者以国外科学评价机构的学科评价实践为研究对象,归纳学科评价的内涵、分类、内容、方法,并重点介绍了国外用于学科评价的3部代表性文献计量指标集.此外,分析国内相关研究,给出了促进我国学科评价发展的建议.  相似文献   

11.
In this paper, an optimization problem is formulated for stable binary classification. Essentially, the objective function seeks to optimize a full data transformation matrix along with the learning of a linear parametric model. The data transformation matrix and the weight parameter vector are alternatingly optimized based on the area above the receiver operating characteristic curve criterion. The proposed method improves the existing means via an optimal data transformation rather than that based on the diagonal, random and ad-hoc settings. This optimal transformation stretches beyond the fixed settings of known optimization methods. Extensive experiments using 34 binary classification data sets show that the proposed method can be more stable than competing classifiers. Specifically, the proposed method shows robustness to imbalanced and small training data sizes in terms of classification accuracy with statistical evidence.  相似文献   

12.
Imbalanced sample distribution is usually the main reason for the performance degradation of machine learning algorithms. Based on this, this study proposes a hybrid framework (RGAN-EL) combining generative adversarial networks and ensemble learning method to improve the classification performance of imbalanced data. Firstly, we propose a training sample selection strategy based on roulette wheel selection method to make GAN pay more attention to the class overlapping area when fitting the sample distribution. Secondly, we design two kinds of generator training loss, and propose a noise sample filtering method to improve the quality of generated samples. Then, minority class samples are oversampled using the improved RGAN to obtain a balanced training sample set. Finally, combined with the ensemble learning strategy, the final training and prediction are carried out. We conducted experiments on 41 real imbalanced data sets using two evaluation indexes: F1-score and AUC. Specifically, we compare RGAN-EL with six typical ensemble learning; RGAN is compared with three typical GAN models. The experimental results show that RGAN-EL is significantly better than the other six ensemble learning methods, and RGAN is greatly improved compared with three classical GAN models.  相似文献   

13.
姚立根  刘涛 《科技与管理》2007,9(4):105-107
为了激励不同类型的人力资本,提出了基于价值性和独特性双纬度的人力资本分类方法,并在此基础上建立了人力资本分类评价指标体系;通过实例研究证明了该指标体系的可行性。新的分类方法的提出对于科学有效地激励不同类型的人力资本,合理配置使用人力资本,进而影响组织价值具有重要意义。  相似文献   

14.
黄静  薛书田  肖进 《软科学》2017,(7):131-134
将半监督学习技术与多分类器集成模型Bagging相结合,构建类别分布不平衡环境下基于Bagging的半监督集成模型(SSEBI),综合利用有、无类别标签的样本来提高模型的性能.该模型主要包括三个阶段:(1)从无类别标签数据集中选择性标记一部分样本并训练若干个基本分类器;(2)使用训练好的基本分类器对测试集样本进行分类;(3)对分类结果进行集成得到最终分类结果.在五个客户信用评估数据集上进行实证分析,结果表明本研究提出的SSEBI模型的有效性.  相似文献   

15.
基于我国物联网产业发展具有代表性的9个省(市)的相关统计数据,构建物联网产业技术研发评价指标体系,运用曼奎斯特(Malmquist)指数方法对2007—2013年间我国物联网产业的技术研发效率进行动态评价。通过研究发现:我国物联网产业技术研发效率较为低下,且各地区研发效率差异较大;技术衰退是导致物联网产业研发效率下降的主要原因。  相似文献   

16.
粗糙集和BP神经网络在供应链绩效评价中的应用研究   总被引:1,自引:0,他引:1  
从知识发现和数据挖掘的角度,利用粗糙集和BP神经网络的理论和方法,建立了基于粗糙集和BP神经网络相结合的供应链绩效评价模型。并结合一个供应链绩效评价实例,首先对其基于平衡记分卡的指标体系进行了约简,然后将约简的评价指标输入到BP神经网络中进行智能训练,最后把评价的样本输入到训练好的BP网络中,得出供应链绩效的评价值、评价结果与实际结果基本一致。  相似文献   

17.
基于模糊综合评判的国防科技管理绩效评价研究   总被引:2,自引:0,他引:2  
国防科技管理绩效评价是衡量政府相关部门国防科技管理实施效果,促进国防科技管理活动持续改进的重要手段。本文在对国防科技政府管理职能定位的前期研究成果基础上,进一步设计了国防科技管理绩效评价的指标体系,并基于模糊综合评判方法进行评价,案例分析表明该方法科学合理且操作性强。期望本文研究能为政府的国防科技管理工作提供一定的参考和借鉴。  相似文献   

18.
赵静娴 《现代情报》2016,36(4):57-61
定义垃圾评论边界,利用智能算法有效识别垃圾评论。对垃圾评论进行内部细分,构建评价指标体系,并提出一种改良决策树方法对垃圾评论进行智能评估,并提供可读性规则。基于Matlab语言实现,通过实证研究,验证所构建的垃圾评论识别模型能够达到较高预测精度。提供了一种高效的多在线评论多分类智能识别方法,为垃圾评论的分类监管治理提供技术支持。  相似文献   

19.
基于灰色多层次方法的企业知识集成能力评价研究   总被引:1,自引:0,他引:1  
分析了企业知识集成能力的涵义,在此基础上,从社会化能力、外部化能力、组合化能力和内部化能力四个方面设计了知识集成能力评价指标体系,针对评价指标体系,建立了灰色评价与层次分析法相结合的灰色多层次评价模型,并结合实例论述了灰色多层次方法应用于知识集成能力评价的基本过程.  相似文献   

20.
汪新凡 《情报科学》2006,24(12):1845-1848
搜索引擎性能的评价一般采用定性与定量相结合的方法,在给出搜索引擎性能评价指标体系的基础上,建立了一种基于灰色系统理论的搜索引擎性能多层次灰色评价模型。最后进行了实例分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号