首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
文本自动分类研究进展   总被引:1,自引:0,他引:1  
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法,最后对文本分类今后的发展进行了展望。  相似文献   

2.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

3.
文本素材资源的自动分类算法研究   总被引:2,自引:0,他引:2  
教育资源建设是教育信息化的基础,而教育资源的有效应用必须以资源的准确分类为基础。教育部远程教育标准化委员会在《教育资源建设技术规范》(征求意见稿)中提出了教育资源的元数据结构和分类体系。为了提高资源分类的自动化程度,简化对资源的手工分类工作,本文提出了一个文本素材资源的自动分类算法,该算法基于向量空间模型和位置相关性原理设计,提高了原有向量空间模型算法的准确性。  相似文献   

4.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

5.
文本分类是文本数据挖掘领域的重要技术之一。从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。  相似文献   

6.
面向网络教育资源的文本自动分类系统的设计与实现   总被引:1,自引:1,他引:0  
本文结合网络教育资源的特征,提出了一个面向网络教育资源的文本自动分类系统的框架,并详细叙述了这一框架的实现.重点在于页面元素的特征提取和层次分类器的构建.该系统在网络基础教育资源的环境下进行了测试,实验表明,本文所实现的层次分类法优于平面分类法,比较适合网络教育资源的分类.  相似文献   

7.
自动分类技术是一种基于知识管理的文本分类技术,它能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。本文首先介绍了自动分类技术的背景和历史发展,然后着重介绍了目前应用最广泛的几种自动分类方法;其后,结合实际研究课题介绍了基于仿人思想的自动分类方法,并对自动分类技术未来发展的方向作了展望。  相似文献   

8.
Web文本分类是在给定分类体系下,根据Web丈本内容判定丈本所属类别的一种分类方法。当丈本类别数量庞大或者类别复杂时,可采用基于向量空间模型的Web丈本层次分类方法,但该分类方法仍存在若干不足。本丈就此归纳多种改进方法,用作讨论,为文本在Web中的分类及构建模型提供参考。  相似文献   

9.
吴波 《鸡西大学学报》2009,9(5):151-152
介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。  相似文献   

10.
已有大量研究关注课堂中的师生对话,并对其进行了不同类型的编码与分析,但目前的编码仍受到专业人员的水平与时间限制。为提高课堂对话编码速度,实现自动化的课堂对话分类与即时反馈,采用人工智能技术,利用神经网络分析模型对课堂中的提问、回答、反馈进行自动编码。研究发现:该模型实现了基于语义的课堂对话质量评估,能够在短时间内实现课堂师生对话中IRE模型的分水平评估,即对提问层次水平、回答层次水平和反馈层次水平进行评估与分类;构建了全面、快速、准确的课堂对话评估方式,成为进一步理解课堂中学习发生过程的关键环节,为大规模课堂智能分析奠定重要基础。  相似文献   

11.
文本自动分类是一种有效的组织信息和管理信息的工具.传统分类方法一般在分类效果和运行效率两者上不可兼得.通过综合Rocchio和KNN两种分类方法的优点,设计了一种基于多代表点的文本分类方法,该方法通过对各类挖掘出多个有效的代表点(真实或虚拟的),再使用基于这些代表点的Rocchio和KNN方法进行分类.实验表明,该方法以较少的训练时间达到令人满意的分类效果,并且能很好解决不平衡类问题,实验结果显示该方法能达到与SVM相当的分类效果.  相似文献   

12.
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。  相似文献   

13.
首先介绍和分析自动分类的种类和作用。然后在分析网页特征的基础上介绍两种常用的网页识别方法并研究其在网页分类应用中的现状,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣,分析各种分类算法在网页分类的适用性并研究其发展和改进,简述分类评价指标。最后分析现有系统的特点。  相似文献   

14.
传统的文本分类算法存在:忽视训练集的相对固定特征与新文献主题不断交化之间的矛盾,类间没有层次关系从而导致分类不太准确、效率低等问题,对此设计并实现了一种增量式的半监督文本分类算法-IC-Rocchio算法,实验结果表明,该算法能有效地改进这两方面的问题.  相似文献   

15.
通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法;最后,指出了当前文本分类过程中存在的问题,并对今后的发展进行了展望.  相似文献   

16.
基于贝叶斯分类的CSCL自动异质分组策略研究   总被引:1,自引:0,他引:1  
异质分组是计算机支持的协作学习(CSCL)普遍采用的分组方式。研究表明,异质分组更有利于学生提高协作学习效果。但是目前较少有CSCL系统能够依据学习者个性特征对其成员实现自动异质分组。本文旨在依据学习者个性特征,利用贝叶斯分类方法实现CSCL系统中的自动异质分组。  相似文献   

17.
听觉图像构建的模拟模型依循了耳蜗本体特性,时域模型接纳了传递过来的声音而后变为可参照的二维图像。依照图像细化的类别以便于自动区分现有的音乐流派,解析了不同情形下的音乐强度。针对于音乐流派,解析了听觉图像基础之上的自动分类,探析适宜的分类思路。  相似文献   

18.
通过对文本分类的相关技术进行深入研究,提出了一种基于VSM的中文网页自动分类模型的构造方法。  相似文献   

19.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

20.
本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号