首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于模式聚合和决策树的文本分类规则抽取   总被引:1,自引:0,他引:1  
王煜  王正欧 《情报科学》2006,24(1):96-99,123
本文首先提出一种改进的X^2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取可理解的分类规则的优势。  相似文献   

2.
[目的/意义]旨在深入研究情境信息对用户偏好的影响,提高情境感知推荐的准确性。[方法/过程]提出了基于梯度提升决策树的情境感知推荐模型,根据梯度提升决策树计算情境属性权重,将其与传统协同过滤算法相融合,生成情境感知推荐结果。[结果/结论]该模型可以识别影响用户偏好的重要情景属性,为用户提供个性化推荐服务。  相似文献   

3.
本文在详细介绍文本自动分类流程的基础上,通过实验对SVM和KNN两种算法进行比较研究,实验结果表明:SVM算法使用多项式核函数的分类准确性高于使用径向基核函数的分类准确性,且多项式核函数的分类准确性随着参数q的增大而提高;SVM采用多项式核函数进行分类的准确性普遍高于采用KNN的分类准确性;采用多项式核函数的SVM和KNN两种算法对短文本的召回率高于对长文本的召回率。  相似文献   

4.
基于决策树和MODIS数据的土地利用分类   总被引:10,自引:0,他引:10  
土地利用类型的识别是土地利用/土地覆盖研究中的重点内容,如何准确、快速的获得大尺度范围的土地覆盖信息进行土地变化的动态实时监测一直是关注的重点。本文针对MODIS数据多光谱的特点,以山东省为例,选取8月份8-day的一期MODIS09Q1、MODIS09A1产品及全年16-day的MODIS13Q1NDVI时间序列产品,通过分析各种土地利用类型的光谱间关系,同时选择NDVI、EVI、NDWI、NDMI、NDSI等分类指数,并构造新的波段B2/B1、B7/B6(B1、B2、B6、B7分别代表1波段、2波段、6波段、7波段),利用决策树分类法,进行土地利用分类试验。结果表明,仅利用MODIS数据自身信息对宏观的土地利用分类就可以达到较高的精度,分布范围完整的土地利用类型如耕地、城市居民点精度较高,零星分布的土地利用类型如农村居民点、草地分类精度较低。决策树分类法充分发挥了MODIS数据的多光谱特点,总体精度达到71.4%,kappa系数为0.68。相对于最大似然法,总体精度提高近10个百分点,对耕地及沼泽等类型的精度提高20%到25%。  相似文献   

5.
一种改进的SVM决策树文本分类算法   总被引:1,自引:0,他引:1  
将SVM和二叉决策树结合起来构成SVM决策树的方法能够较好地解决多类文本分类问题,在此基础上引入了一种基于支持向量数据描述(SVDD)的类间可分性度量方法,对SVM决策树分类器进行改进,实验表明,该方法有效地提高了SVM决策树多类分类器的分类精度和速度.  相似文献   

6.
7.
决策树分类算法研究综述   总被引:4,自引:0,他引:4  
本文基于决策树分类算法的研究现状,重点介绍了一些极具代表性的算法,包括ID3、C4.5等,对各种决策树分类算法的基本思想进行阐述,分析比较各种典型算法的优点和不足,并对决策树分类算法所面临的问题进行了简要的阐述,为数据分类研究者提供借鉴。  相似文献   

8.
基于KNN和SVM的中文文本自动分类研究   总被引:1,自引:0,他引:1  
借助文本分类系统软件,采用来自10个大类的中文文本数据,按照训练集与测试集2:1的比例,使用KNN和SVM分类算法,对数据集进行自动分类的实验。旨在通过具体的语料库实验,探讨文本自动分类的关键技术,分析、比较与评价实验结果,探讨文本分类中具体参数的设置和不同分类算法之优劣。  相似文献   

9.
KNN算法是文本分类技术中比较常用的算法。但是,当训练集容量较大时,KNN算法分类的效率大大降低。在对中文短信文本的分类时,结合中文短信文本的特点,给出了先由LAS算法进行降维,然后利用KNN算法进行分类的算法。实验结果表明,该算法提高了中文短信文本的分类质量和分类速度。  相似文献   

10.
本文对文本分类过程中关键的部分进行了改进,在分词阶段,对分词的速度和精度进行了改进,在特征选取阶段,把多种特征选取方法进行了融合,最后对分类器进行了优化,并给出了实验测试的结果,实验的结果表明,文本分类的效率的确有了提高.  相似文献   

11.
基于词频的中文文本分类研究   总被引:3,自引:0,他引:3  
姚兴山 《现代情报》2009,29(2):179-181
本文对中文文本分类系统的设计和实现进行了阐述,对分类系统的系统结构、特征提取、训练算法、分类算法等进行了详细的介绍。将基于词频统计的方法应用于文本分类。并提出了一种基于汉语中单字词及二字词统计特性的中文文本分类方法,在无词表的情况下,通过统计构造单字和二字词表,对文本进行分类,并取得不错的效果。  相似文献   

12.
决策树分类方法是一种基于空间数据挖掘来获得分类规则的方法,能够融入影像以外的各种知识,有效地将各种用于植被、水体和土地的分类知识以及空间纹理信息结合起来[1],本文尝试基于决策树分类方法之上,结合光谱特征提取值和纹理信息特征提取值对Landsat5 TM影像进行分类,寻找提高土地分类的精度和准确性的方法。  相似文献   

13.
基于决策树分类的云南省迪庆地区景观类型研究   总被引:3,自引:0,他引:3  
李亚飞  刘高焕  黄翀 《资源科学》2011,33(2):328-334
决策树分类是基于空间数据挖掘和知识发现的监督分类方法。本研究利用遥感TM数据和DEM数据,构建分类决策树,并通过ENVI软件实现决策树分类,得到迪庆地区的景观类型分布图。同时利用传统的监督分类的方法进行分类,得到该地区景观类型分布图。利用野外实地采样的数据对两种分类方法进行精度评价,结果表明,两种分类方法的总体分类精度分别为85.5%和67.4%,决策树分类方法的总体分类精度比传统监督分类提高了近20%。在此基础上,研究云南省迪庆地区的景观类型分布状况,可得到以下结论:迪庆地区的景观类型主要有河谷灌丛面积约占5.5%,针叶林面积约占36.16%,亚高山灌丛草甸面积约占3.4%,高山冰雪面积约占3.7%,裸地面积约占25.4%,水体面积约占4.4%。除裸地和水体外,其他景观基本都沿着山体按海拔高度和坡向分布,其中面积最大的为针叶林景观。这与该地区高山峡谷地貌吻合。  相似文献   

14.
基于文本内容的农业网页信息抽取和分类研究   总被引:1,自引:0,他引:1  
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

15.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间.  相似文献   

16.
[研究目的]随着国内智库的不断发展和建设,智库成果越来越多,涉及领域也纷繁复杂。为了方便决策者对所关注问题的查找,以及对问题类型的判断,需要对智库研究成果资源进行有效的数字化管理,本研究旨在研究如何对智库文本成果资源进行有效分类,从而实现智库成果高效系统的数据化管理。[研究方法]针对智库文本成果多为长文本的特点,利用基于Self-Attention的层次结构文本分类模型SHTC(Hierarchical structure model based on self-attention)依次从词、句两个层面对文本语义进行学习,并使用多尺寸卷积层提取关键特征信息获得最终的文档表示,再通过Softmax层进行分类。[研究结论]结果表明,基于Self-Attention的层次结构模型SHTC在智库文本分类任务中准确率达到82.43%,在智库文本分类任务上具有更优的分类效果。  相似文献   

17.
基于SVM的多类文本分类研究   总被引:9,自引:0,他引:9  
基于统计学习理论.构建了SVM文本分类模型,并给出了模型参数的100自动选择算法,解决了以往参数靠经验确定的弊端。传统的文本分类系统不能处理一篇文档同属多类别的情形,论文将该情形归结为多类文本分类问题,提出二叉决策树SVM模型,并就农业机械化工程文档进行了实证分析。结果表明,该算法具有较好的分类效果。  相似文献   

18.
徐彤阳  尹凯 《情报科学》2019,37(10):13-19
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工 智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理 的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习 模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习 的文本分类模型可以有效地提高数字图书馆文本分类的准确率和召回率,不仅可以提高数字图书馆内部业务的智 能化程度,还可以提高数字图书馆信息服务的效率和质量。  相似文献   

19.
目前,国家对土地使用越来越重视,土地的划分越来越科学化、系统化,为了提高土地的利用率以及实现土地的合理分配,土地利用的遥感监测也就显得尤为重要。本文使用TM卫星数据,基于决策树分类法,应用ENVI、ArcG IS软件对陕西省西安市蓝田县进行土地利用覆盖分类,分类结果精度较高。在此基础上,进一步分析研究区的土地动态变化特征。  相似文献   

20.
网络文本分类是数据挖掘技术的重要组成部分,是从互联网中获取有效信息资源的重要方式之一.本文论述了网络文本分类及其技术,通过对具有主题的大量网络文本的有效分析和挖掘,使网络文本分类技术在自主网络信息定制和自动信息获取中得到更加广泛地应用研究.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号