首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
张小艳  宋丽平 《现代情报》2009,29(3):131-133
文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的杖心技术.对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点.最后总结出了文本表示和特征选择技术研究的方向和目标。  相似文献   

2.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

3.
基于词频的中文文本分类研究   总被引:1,自引:0,他引:1  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

4.
李缨  于谦 《科技通报》2012,28(8):29-32
维数简约是肺结节分类识别问题中的关键步骤,现有的方法中都是将所有类别的数据作为一个整体进行降维,忽略了不同类别数据之间在特征子集上的差异性。本文提出了一种将类集和类对相结合的有监督流形特征抽取思想,并将之应用于肺结节的分类中,最终形成一个基于CT影像的肺结节分类系统。实验结果表明了方法的有效性。  相似文献   

5.
作业车间调度问题综述   总被引:1,自引:0,他引:1  
张守胜 《科技广场》2007,31(6):80-84
介绍了作业车间调度问题的理论、模型,对当前求解作业车间调度问题的各种方法进行分类并逐一进行分析比较,指出各种方法的优缺点。总结了今年来在该领域取得的研究成果和存在的问题,并对今后的发展方向进行了讨论。  相似文献   

6.
基于同义词词林的文本特征选择与加权研究   总被引:1,自引:0,他引:1  
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.  相似文献   

7.
提出了一种人脸关键点检测方法,该方法用了少量的正面图像,不用归一化人脸图像,而传统的人脸关键点检测方法需要对图像进行严格预处理。随机森林是一种分类器融合算法,可以很好地解决多类分类问题,虽然LBP特征简单,但其可以包含大量的纹理信息。利用改进的LBP特征与随机森林相结合,构成一种对人脸关键点检测的方法。通过高斯平滑图像的LBP特征的提取,对每个点生成特征,计算出有用的特征作为正例,并且与反例集合变为训练集。通过随机森林分类器进行分类,误差率较低,仅在10%左右。  相似文献   

8.
提出了一种特征选择和特征抽取相结合的特征降维方法.首先使用改进的k-means聚类算法对特征进行选择,然后使用SVD方法在基于语义层面上对特征空间进行压缩,试验结果表明,这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

9.
面对纷杂的服务业,对服务业进行各种各样分类研究的努力一直就没有停止过.但从服务创新的角度进行分类研究,并没有得到公认的结果.事实上,不论是服务业的经济研究,还是服务业的创新研究一直滞后于制造业,在很大程度上归咎于服务业行业的复杂性.开展服务业的类型学研究,是人们更好地认识服务业的必由之路.在简述服务业一般分类方法的基础上,探讨了基于服务创新的分类问题,描述了新的分类原则及其特征.  相似文献   

10.
洪亮 《科技广场》2009,(7):35-37
对五种特征选择方法:文档频率、互信息、信息增益、期望交叉熵、统计作了简要的介绍,并且结合KNN分类算法,使用查全率、查准率、F1值对五种特征选择方法分别进行评估,提出并讨论了一种互信息修正的方法.  相似文献   

11.
谭金波 《情报杂志》2007,26(9):87-88,91
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。  相似文献   

12.
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。  相似文献   

13.
随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF·IDF方法对特征加权.但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF·GINI.实验结果显示,这种加权方法具有很好的分类性能.  相似文献   

14.
决策树分类方法是一种基于空间数据挖掘来获得分类规则的方法,能够融入影像以外的各种知识,有效地将各种用于植被、水体和土地的分类知识以及空间纹理信息结合起来[1],本文尝试基于决策树分类方法之上,结合光谱特征提取值和纹理信息特征提取值对Landsat5 TM影像进行分类,寻找提高土地分类的精度和准确性的方法。  相似文献   

15.
决策树分类算法研究综述   总被引:4,自引:0,他引:4  
本文基于决策树分类算法的研究现状,重点介绍了一些极具代表性的算法,包括ID3、C4.5等,对各种决策树分类算法的基本思想进行阐述,分析比较各种典型算法的优点和不足,并对决策树分类算法所面临的问题进行了简要的阐述,为数据分类研究者提供借鉴。  相似文献   

16.
段瑞龙  宋文 《情报杂志》2012,31(7):66-71
叙词表拥有丰富的词汇及词间关系,所以重用叙词表可以极大地提高本体构建效率并降低成本.通过全面调查分析国内外叙词表转换为本体的项目和方法,对各种转换方法进行了分类研究,分别从叙词表的特征、叙词表转换本体的过程和转换成的本体的特征三个方面来分析各种转换方法的特点,在此基础上,总结了各种叙词表转换本体方法的总体特征,最后提出了应根据本体应用需求和叙词表特点两方面因素来选择叙词表转换本体方法的观点.  相似文献   

17.
针对各种变形的Web攻击行为难以检测的问题,本文提出了基于TF-IDF逻辑回归算法的Web攻击检测方法,利用数据统计方法 TF-IDF算法将无规律数据集转换成固定维数的特征矩阵,同时利用逻辑回归算法进行训练和分类。并借助三种分类模型评估方法验证该检测方法的可行性。  相似文献   

18.
李建军  宋志章 《科技通报》2012,28(6):152-154
网页文本特征数常高达上万个,无用和冗余特征相当多,为提高网页文本分类精度,提出一种混合智能算法的网页文本分类方法。首先采用遗传算法对网页文本特征初步选择,然后采用蚁群算法对初步选择特征进行精细选择,最后采用K近邻算法建立文本分类器。结果表明,混合智能算法很好消除无用和冗余特征,提高了网页文本分类的精度,加快分类速度。  相似文献   

19.
万琳 《内江科技》2008,29(5):131-132
漏洞扫描在网络安全中起着发现安全隐患的作用。本文归纳了网络安全漏洞的扫描原理,对网络漏洞进行了分类,结合各类漏洞的扫描,介绍了三种网络漏洞扫描的方法。  相似文献   

20.
胡涛  刘怀亮 《现代情报》2011,31(11):46-50
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号