首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
文本自动分类研究进展   总被引:1,自引:0,他引:1  
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法,最后对文本分类今后的发展进行了展望。  相似文献   

2.
Web文本分类是在给定分类体系下,根据Web丈本内容判定丈本所属类别的一种分类方法。当丈本类别数量庞大或者类别复杂时,可采用基于向量空间模型的Web丈本层次分类方法,但该分类方法仍存在若干不足。本丈就此归纳多种改进方法,用作讨论,为文本在Web中的分类及构建模型提供参考。  相似文献   

3.
中文图书自动分类是对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重,根据特征词的权重对图书进行分类。基于svm的机器自动分类和层次分类两种自动分类方法相结合,是中文书目自动分类的有效途径。  相似文献   

4.
对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。  相似文献   

5.
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。  相似文献   

6.
通过对文本分类的相关技术进行深入研究 ,提出了一种基于VSM的中文网页自动分类模型的构造方法  相似文献   

7.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

8.
通过对文本分类的相关技术进行深入研究,提出了一种基于VSM的中文网页自动分类模型的构造方法。  相似文献   

9.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

10.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

11.
文本分类在自然语言分类中起着重要作用,将决策树ID3算法应用与文本分类,对数字图书馆的部分文本信息分类,提出一个基于ID3决策树的文本分类算法,取得了良好的实验结果。  相似文献   

12.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。  相似文献   

13.
吴波 《鸡西大学学报》2009,9(5):151-152
介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。  相似文献   

14.
随着Internet的迅速发展,专业化搜索引擎因其可以准确且快速检索特定用户需要的专题信息而越来越受到广大用户的欢迎。然而,专业化搜索引擎的维护和更新却要费去太多时间。为了克服该问题,我们在搜索引擎中引进机器学习机制,针对基础教育设计并实现了一个基于机器学习的专业化搜索引擎BERSE,其关键技术是只追踪基础教育信息的主题蜘蛛和文本分类器,从而加快信息的检索与更新,并且具有很高的查全率和查准率。  相似文献   

15.
如何在数量巨大的Internet中快速准确的搜索到符合要求的Web页是一个值得探讨的重要课题.构造了一种能够准确区分Web文本之间亲和力的挖掘模型,运用人工免疫算法使该模型具有较高的聚类精度和自发现能力.实验结果表明,该模型不仅能够有效的进行文本内容挖掘,保持较低的错误肯定率和错误否定率,还具有很强的自适应性和更新能力,进行适当的参数设置后检测周期也随之大幅缩短,提高了挖掘模型的效率.该模型的提出为Web挖掘领域提供了一种新的研究思路.  相似文献   

16.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

17.
面向网络教育资源的文本自动分类系统的设计与实现   总被引:1,自引:1,他引:0  
本文结合网络教育资源的特征,提出了一个面向网络教育资源的文本自动分类系统的框架,并详细叙述了这一框架的实现.重点在于页面元素的特征提取和层次分类器的构建.该系统在网络基础教育资源的环境下进行了测试,实验表明,本文所实现的层次分类法优于平面分类法,比较适合网络教育资源的分类.  相似文献   

18.
改进了传统的信噪比文本分类方法。提出了一种改进的基于信噪比的文本分类方法。它考虑了禁用词的排除、近义词和同义词的合并以及特征项在文本中不同位置对文章分类的贡献不同。  相似文献   

19.
针对目前国内外学者对微博情感只作二分类研究,仅仅从正面和负面研究微博情感不足的问题,选取NLPCC2013-2014年多情感的微博数据集,重点研究常用的3种机器学习算法、3种特征选择以及特征权重方法对中文微博情感多分类的影响。实验表明:不管选择哪种特征权重,使用SVM的微博文本分类准确率都最高,KNN的准确率最低;不同特征权重下,信息增益作为特征选择的方法时,3个算法各自准确率都是最高的;当信息增益为特征选择,TF-IDF为特征权重时,支持向量机的文本分类准确率最高。由于微博简短、口语化,词袋模型忽视了词与词间的联系,导致微博情感分类准确率不高。  相似文献   

20.
本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号