共查询到20条相似文献,搜索用时 21 毫秒
1.
[研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型。[研究方法]随机抽取A、D、E、H4个部中的4000条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。[研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。 相似文献
2.
3.
4.
针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。 相似文献
5.
基于树型结构的SVM多类组合分类器在文本分类中的应用 总被引:2,自引:0,他引:2
针对最初的支持向量机只能解决两类分类问题,提出了一种基于树型结构的SVM多类组合分类器。实验发现,不同的层次结构对这种树型结构的SVM多类组合分类器的分类准确度会产生影响;实验结果表明多个SVM的组合使用可以改善单个SVM的分类准确度,但是改善的程度还有待提高。 相似文献
6.
针对分布异构环境下企业数据集成的难点问题,将XML、本体和多Agent技术相结合,构建了一个基于本体的多Agent企业数据集成模型,分析了模型的层次结构,并详细探讨了系统实现的关键技术问题,最后以一个实例描述了系统的流程。采用本体技术来实现信息资源的组织,描述信息资源的特性,获取数据的模式,可解决企业异质信息问题。采用多Agent技术实现数据的分发,向用户提供信息处理和检索,可解决企业信息资源的动态性和分布性问题。 相似文献
7.
基于Kano模型的政府数据开放平台用户体验要素分类研究 总被引:1,自引:0,他引:1
以经典用户体验模型为基础,建立了政府数据开放平台用户体验的要素体系,运用Kano模型的问卷处理方法、传统分类和Better-Worse分类方法对每个用户体验要素进行了归类,并精确识别出当改善某特定用户体验要素时对提高用户满意度和防止用户不满意度的影响。结果显示,在45个要素中,7个属于魅力因子,26个属于一维因子,6个属于必备因子,4个属于无差异因子,2个属于反向因子。此外,通过敏感度排序得出需改进要素36个,并筛选出"建议反馈功能"等7个要素为关键因素,以期为政府数据开放平台合理分配资源以改善服务质量提供参考。 相似文献
8.
在高校就业率统计过程中,需要利用支持向量机方法进行统计.由于这种统计方法计算复杂度比较高,运算时间比较长,造成高校就业率统计的效率较低.为此,本文提出了一种基于支持向量机优化算法的高校就业率统计方法.对高校就业样本进行分类处理,并将分类的结果进行统计.实验结果表明,这种算法能够有效提高高校就业率统计的效率,取得了令人满意的效果. 相似文献
9.
10.
《科技通报》2016,(3)
小差异数据往往具有信息量大、特征差异小的特点,传统的数据分类方法多具有串行性,在处理海量小差异数据时,存在分类效率低、准确率低及可行性差的缺陷,为信息检索、数据管理等实际应用带来了潜在的风险。为此,提出设计一种基于概率统计的小差异数据分类模型。针对初始数据的杂乱性、冗余性和随机性,分别进行数据清洗、数据变换和数据归约等预处理,依据相关原理构建隐马尔科夫数据分类模型,并通过模型参数优化,得到数据特征的最优描述及该数据属于每一类别的最大概率值,从而实现小差异数据的有效分类。实验结果表明,采用改进算法进行小差异数据分类,能够大大提高数据分类的准确性,提升系统运行速率,提高了算法鲁棒性,具有实际的应用价值。 相似文献
11.
12.
水利事业发展进入新时代,对加快建设一支高素质专业化人才队伍提出更高的要求,然而我国人才评价机制存在一些问题,严重束缚人才的作用发挥。从专业技术人才的概念入手,分析人才评价研究现状及现存问题,构建包括品德、知识、能力、业绩和贡献在内的水利工程专业技术人才评价指标体系,针对不同类别人才设置评价侧重指标。运用ANP-模糊综合评价法搭建人才分类评价模型,借助Super Decision等软件计算各指标权重及评价结果,以此来评价和审视水利人才具有的综合素质,为水利人才的分类评价工作的可操作性提供依据。 相似文献
13.
城市化进程中,新的地点不断出现且地点类型不断更新,导致大量未知地点产生,为城市形态的理解和掌控造成障碍。本文综合多种空间分析及文本挖掘技术,创新性地融合Twitter数据中的时间记录与Tweets(用户在Twitter中发表的文本内容)用于地点分类。设计抽取精细的人群活动的时空-内容信息的方法,并通过监督学习方法,利用少量标记样本,自动识别未知地点的类型。最终识别出教育、娱乐、商店、社会服务、交通五种类型的地点,整体精度达67. 6%,表明方法的可行性,为社交数据在地点分类研究中的有效利用提供了新的思路。 相似文献
14.
15.
16.
基于Timmons模型的创业类型系统分类研究 总被引:1,自引:0,他引:1
系统归纳、总结、提炼基于不同标准的创业类型分类,并相应对每种创业类型进行了分析。最后根据Timmons所提出的创业模型中创业过程中的关键环节进行了创业类型系统分类,提出了创业类型的系统分类体系,为创业研究开展提供了系统有效且具有引领性的可操作模式和方法体系。 相似文献
17.
基于决策树分类的云南省迪庆地区景观类型研究 总被引:3,自引:0,他引:3
决策树分类是基于空间数据挖掘和知识发现的监督分类方法。本研究利用遥感TM数据和DEM数据,构建分类决策树,并通过ENVI软件实现决策树分类,得到迪庆地区的景观类型分布图。同时利用传统的监督分类的方法进行分类,得到该地区景观类型分布图。利用野外实地采样的数据对两种分类方法进行精度评价,结果表明,两种分类方法的总体分类精度分别为85.5%和67.4%,决策树分类方法的总体分类精度比传统监督分类提高了近20%。在此基础上,研究云南省迪庆地区的景观类型分布状况,可得到以下结论:迪庆地区的景观类型主要有河谷灌丛面积约占5.5%,针叶林面积约占36.16%,亚高山灌丛草甸面积约占3.4%,高山冰雪面积约占3.7%,裸地面积约占25.4%,水体面积约占4.4%。除裸地和水体外,其他景观基本都沿着山体按海拔高度和坡向分布,其中面积最大的为针叶林景观。这与该地区高山峡谷地貌吻合。 相似文献
18.
19.
基于多分类Logistic回归模型的张家口市农用地格局模拟 总被引:8,自引:0,他引:8
区域土地利用空间格局的模拟与预测是土地利用变化研究的重要内容。本文基于张家口市第二次全国农村土地调查成果,利用地形、降水、道路、人口密度以及城镇和农村居民点等数据,以草地为参照组,构建了张家1:2市农用地分布格局的多分类logistic回归模型,对其耕地、园地、林地和草地的空间分布格局进行了模拟,并采用ROC曲线对模拟结果进行了检验。结果表明:坡度、降雨量、高程、人口密度以及至村庄距离是影响张家口市农用地空间分布格局的重要因素,耕地、园地、林地、草地分布概率的ROC曲线检验结果分别为0.7732、0.8800、0.7432、0.6750。模型模拟的耕地、园地、林地、草地空间分布格局与2009年相应地类的空间分布格局具有很好的一致性。该模拟很好地揭示了张家口市农用地格局形成的内在影响机制,研究结果为张家口市未来土地利用变化情景分析及其土地利用管理决策提供了科学依据。多分类Logistic回归模型充分利用土地利用系统完整信息,实现多种地类的模拟和预测,为土地利用系统研究提供了一种有力工具。 相似文献