首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统。文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性。  相似文献   

2.
介绍了一个基于Web挖掘技术的财经类搜索引擎的实现的关键技术,提出了类别向量的概念以及如何将Web结构挖掘和内容挖掘结合起来,并利用改进的VSM技术实现网页自动分类.  相似文献   

3.
通过对文本分类的相关技术进行深入研究 ,提出了一种基于VSM的中文网页自动分类模型的构造方法  相似文献   

4.
如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.  相似文献   

5.
通过对文本分类的相关技术进行深入研究,提出了一种基于VSM的中文网页自动分类模型的构造方法。  相似文献   

6.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

7.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

8.
针对教学网页这一特定领域,提出一个基于K近邻算法的教学网页自动分类模型。该模型采用向量空间模型对教学网页的特征进行量化,并采用基于K近邻的分类方法对新的网页进行自动归类。最后通过实验数据说明该算法在教学网页的分类中是有效。  相似文献   

9.
给出了一个网页自动分类系统的设计,讨论了预处理、批量训练、特征选择等模块的设计过程。本系统采用空间向量模型作为分类模型,在分类开始前对网页信息进行了预处理。  相似文献   

10.
分析了基于网络多媒体教学系统MIS(MultimediaInstructionSystem)的结构与功能,论述了多媒体设计、动态网页设计、网页数据库设计和安全性设计等方面内容。  相似文献   

11.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

12.
介绍了中文网页分类的概念和过程,分析比较了中文网页分类的主要方法和关键技术,简述了实验数据集和实验方法,并讨论了网页分类研究存在的问题和未来的研究方向.  相似文献   

13.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

14.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度.本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统.该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文.实验表明,此系统得到了较高的分类准确率.  相似文献   

15.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

16.
中文图书自动分类是对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重,根据特征词的权重对图书进行分类。基于svm的机器自动分类和层次分类两种自动分类方法相结合,是中文书目自动分类的有效途径。  相似文献   

17.
首先介绍和分析自动分类的种类和作用。然后在分析网页特征的基础上介绍两种常用的网页识别方法并研究其在网页分类应用中的现状,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣,分析各种分类算法在网页分类的适用性并研究其发展和改进,简述分类评价指标。最后分析现有系统的特点。  相似文献   

18.
在已有的基于Dom Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。  相似文献   

19.
本文从基于Web的备课系统的现状分析入手,结合Web开发的特点和软件工程的思想,进行了较为详细地系统分析,在此基础上论述了基于Web备课系统的设计思想、总体结构和功能,以及实现方法和技术。  相似文献   

20.
介绍了基于Web的网络考试系统设计过程,同时对系统的设计目标、总体结构、设计思想和功能等进行了详细说明.该系统可以为实现标准化考试和客观评价教学效果提供强有力的支持.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号