共查询到20条相似文献,搜索用时 31 毫秒
1.
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。 相似文献
2.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。 相似文献
3.
基于词频的中文文本分类研究 总被引:1,自引:0,他引:1
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。 相似文献
4.
维数简约是肺结节分类识别问题中的关键步骤,现有的方法中都是将所有类别的数据作为一个整体进行降维,忽略了不同类别数据之间在特征子集上的差异性。本文提出了一种将类集和类对相结合的有监督流形特征抽取思想,并将之应用于肺结节的分类中,最终形成一个基于CT影像的肺结节分类系统。实验结果表明了方法的有效性。 相似文献
5.
作业车间调度问题综述 总被引:1,自引:0,他引:1
介绍了作业车间调度问题的理论、模型,对当前求解作业车间调度问题的各种方法进行分类并逐一进行分析比较,指出各种方法的优缺点。总结了今年来在该领域取得的研究成果和存在的问题,并对今后的发展方向进行了讨论。 相似文献
6.
7.
提出了一种人脸关键点检测方法,该方法用了少量的正面图像,不用归一化人脸图像,而传统的人脸关键点检测方法需要对图像进行严格预处理。随机森林是一种分类器融合算法,可以很好地解决多类分类问题,虽然LBP特征简单,但其可以包含大量的纹理信息。利用改进的LBP特征与随机森林相结合,构成一种对人脸关键点检测的方法。通过高斯平滑图像的LBP特征的提取,对每个点生成特征,计算出有用的特征作为正例,并且与反例集合变为训练集。通过随机森林分类器进行分类,误差率较低,仅在10%左右。 相似文献
8.
9.
面对纷杂的服务业,对服务业进行各种各样分类研究的努力一直就没有停止过.但从服务创新的角度进行分类研究,并没有得到公认的结果.事实上,不论是服务业的经济研究,还是服务业的创新研究一直滞后于制造业,在很大程度上归咎于服务业行业的复杂性.开展服务业的类型学研究,是人们更好地认识服务业的必由之路.在简述服务业一般分类方法的基础上,探讨了基于服务创新的分类问题,描述了新的分类原则及其特征. 相似文献
10.
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法. 相似文献
11.
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。 相似文献
12.
13.
14.
决策树分类方法是一种基于空间数据挖掘来获得分类规则的方法,能够融入影像以外的各种知识,有效地将各种用于植被、水体和土地的分类知识以及空间纹理信息结合起来[1],本文尝试基于决策树分类方法之上,结合光谱特征提取值和纹理信息特征提取值对Landsat5 TM影像进行分类,寻找提高土地分类的精度和准确性的方法。 相似文献
15.
16.
叙词表拥有丰富的词汇及词间关系,所以重用叙词表可以极大地提高本体构建效率并降低成本.通过全面调查分析国内外叙词表转换为本体的项目和方法,对各种转换方法进行了分类研究,分别从叙词表的特征、叙词表转换本体的过程和转换成的本体的特征三个方面来分析各种转换方法的特点,在此基础上,总结了各种叙词表转换本体方法的总体特征,最后提出了应根据本体应用需求和叙词表特点两方面因素来选择叙词表转换本体方法的观点. 相似文献
17.
18.
网页文本特征数常高达上万个,无用和冗余特征相当多,为提高网页文本分类精度,提出一种混合智能算法的网页文本分类方法。首先采用遗传算法对网页文本特征初步选择,然后采用蚁群算法对初步选择特征进行精细选择,最后采用K近邻算法建立文本分类器。结果表明,混合智能算法很好消除无用和冗余特征,提高了网页文本分类的精度,加快分类速度。 相似文献
19.
漏洞扫描在网络安全中起着发现安全隐患的作用。本文归纳了网络安全漏洞的扫描原理,对网络漏洞进行了分类,结合各类漏洞的扫描,介绍了三种网络漏洞扫描的方法。 相似文献
20.
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。 相似文献