首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
通过对Web数据的特点进行详细的分析,在基于传统的贝叶斯聚类算法基础上,采用网页标记形式来有效地弥补朴素贝叶斯算法的不足,并将改进的方法应用在文本分类中,是一种很好的改进思路。最后实验结果也表明,此方法能够有效地对文本进行分类。  相似文献   

2.
如今文本自动分类技术发展已较为成熟,中文网页的分类也是自动分类技术的应用之一.分类精度依赖于分类算法,贝叶斯算法在网页分类中有很广泛的使用,但它需要大量且已标记的训练集,而获得大量带有类别标注的样本代价很高.本文以中文网页信息增量式的学习作为研究对象,利用网页已验信息处理训练集增量问题,提出一种改进的增量式的贝叶斯分类算法,研究利用未标记的中文网页来提高分类器的性能,并进行相关实验对比和评价.  相似文献   

3.
针对教学网页这一特定领域,提出一个基于K近邻算法的教学网页自动分类模型。该模型采用向量空间模型对教学网页的特征进行量化,并采用基于K近邻的分类方法对新的网页进行自动归类。最后通过实验数据说明该算法在教学网页的分类中是有效。  相似文献   

4.
使用主成分分析的方法对数据集进行降维,将滑动窗口引入到贝叶斯网络分类算法中,从而得到改进的贝叶斯网络分类算法。实验证明,改进的算法能够有效地降低分类数据的维数,同时该算法建立的入侵检测模型能够更好地检测出已知的入侵攻击类型。  相似文献   

5.
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

6.
首先介绍和分析自动分类的种类和作用。然后在分析网页特征的基础上介绍两种常用的网页识别方法并研究其在网页分类应用中的现状,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣,分析各种分类算法在网页分类的适用性并研究其发展和改进,简述分类评价指标。最后分析现有系统的特点。  相似文献   

7.
针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性|其次,对主成分分析后的数据进行稀疏贝叶斯分类|最后将 PCA-SBL 分类方法分类精度与传统分类方法精度进行比较。分析发现,在 German Credit Data 和 Australian Credit Data 上,与传统 KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的 SBL 算法分类精度平均提高了 5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高 0.965%,从而证明 PCA-SBL 算法具有更高的分类效果。  相似文献   

8.
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。  相似文献   

9.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

10.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

11.
面向对象的印章排版和识别   总被引:1,自引:0,他引:1  
提出了一个面向对象的印章图文排版及印鉴图像识别系统的设计方案,并且介绍了印章椭圆弧形排字算法和图像匹配算法的实施。  相似文献   

12.
本文分析了传统的布尔型文本匹配算法的弊端和缺陷,结合图书文本信息的快速、高效的检索匹配要求,提出了加权的布尔型文本匹配算法。该算法对传统的文本匹配算法中漏检、误检和模糊查询等方面的问题进行了加权处理和结果校正,既保证查询算法的高效与全面性,同时又有效地控制了匹配的准确度,为图书信息查询系统的建立提供一种更好的解决方法。  相似文献   

13.
标题对全文起着提纲挈领的作用.通过认真分析讲解标题,围绕标题巧妙设问进行英语课文教学,从而使学生更好地理解课文并优化自己的思维模式,提高获取知识的能力.  相似文献   

14.
教育技术领域术语提取研究   总被引:3,自引:0,他引:3  
近年来,在教育技术领域陆续开展了多项元研究工作,这些研究的一个共同特点就是人工建立一个分类体系,然后将研究样本纳入这些分类体系,这其实就是一个文本分类过程。目前,自然语言处理领域已有较为成熟的文本自动分类技术。但是已有的研究中却没有采用该技术。这与当前缺乏教育技术领域术语词典也有关系。文章以远程教育领域为例,以《开放教育研究》杂志2002年至2006年五年的题录信息为样本,在总结教育技术领域部分术语构成规则的基础上,研制出一种规则和统计相结合的算法来提取术语。测试结果表明,本算法术语识别的准确率为66.7%,召回率为76.7%,与现有的一些术语提取算法结果相近,可以较好的帮助研究者完成术语提取工作,并为及时发现教育技术领域的新术语带来可能。  相似文献   

15.
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法.  相似文献   

16.
本文对广播电视大学题库及考试系统进行分析和设计,该系统由题库管理系统、考试系统和学生在线模拟考试系统组成,采用遗传算法作为组卷策略,能提供方便快捷的无纸化考试及信息服务。  相似文献   

17.
信息化教学条件下实现英文文本难度的自动化测量对于丰富教学资源,优化教学过程,促进外语教学都有着重要意义。该文介绍了一种新型的英文文本难度测量方法,该方法摆脱了传统方法中仅仅依靠词长、句长等变量进行测量的局限,通过英语文本的信息计算实现文本难度的自动测量,实验结果表明该方法的测量准确性明显优于传统方法。此外,还研制开发出面向用户使用的英文文本难度自动测量系统IRMS(Information-based Readability Measuring System),实现了文本难度的自动测量。  相似文献   

18.
随着MD5算法的破解,越来越多的企业开始质疑他们的管理系统的安全性。介绍了密码学中的Sha-256算法,并根据其特性讨论它在管理系统口令加密中的应用,以使系统达到更好的安全性。  相似文献   

19.
In this article, it is shown how item text can be represented by (a) 113 features quantifying the text's linguistic characteristics, (b) 16 measures of the extent to which an information‐retrieval‐based automatic question‐answering system finds an item challenging, and (c) through dense word representations (word embeddings). Using a random forests algorithm, these data then are used to train a prediction model for item response times and predicted response times then are used to assemble test forms. Using empirical data from the United States Medical Licensing Examination, we show that timing demands are more consistent across these specially assembled forms than across forms comprising randomly‐selected items. Because an exam's timing conditions affect examinee performance, this result has implications for exam fairness whenever examinees are compared with each other or against a common standard.  相似文献   

20.
针对常规BP网络收敛速度慢,易陷入局部极小值等问题,采用L—M算法对网络进行训练,利用改进粒子群算法优化BP网络初始权值和阈值。将该方法应用在南方某市短期电网负荷预测中,预测结果表明,相较于常规BP网络、L—M算法改进预测模型,该预测算法在预测结果精度和速度上均有较大幅度提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号