首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
随着网络的飞速发展,网页数量急剧膨胀,近几年来更是以指数级进行增长,搜索引擎面临的挑战越来越严峻,很难从海量的网页中准确快捷地找到符合用户需求的网页。网页分类是解决这个问题的有效手段之一,基于网页主题分类和基于网页体裁分类是网页分类的两大主流,二者有效地提高了搜索引擎的检索效率。网页体裁分类是指按照网页的表现形式及其用途对网页进行分类。介绍了网页体裁的定义,网页体裁分类研究常用的分类特征,并且介绍了几种常用特征筛选方法、分类模型以及分类器的评估方法,为研究者提供了对网页体裁分类的概要性了解。  相似文献   

2.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

3.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

4.
针对教学网页这一特定领域,提出一个基于K近邻算法的教学网页自动分类模型。该模型采用向量空间模型对教学网页的特征进行量化,并采用基于K近邻的分类方法对新的网页进行自动归类。最后通过实验数据说明该算法在教学网页的分类中是有效。  相似文献   

5.
首先介绍和分析自动分类的种类和作用。然后在分析网页特征的基础上介绍两种常用的网页识别方法并研究其在网页分类应用中的现状,列举几种常用的特征提取方法并比较其在网页分类应用中的优劣,分析各种分类算法在网页分类的适用性并研究其发展和改进,简述分类评价指标。最后分析现有系统的特点。  相似文献   

6.
给出了一个网页自动分类系统的设计,讨论了预处理、批量训练、特征选择等模块的设计过程。本系统采用空间向量模型作为分类模型,在分类开始前对网页信息进行了预处理。  相似文献   

7.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性--网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集采源于同一个样本集而忽视了测试集中可能包含无类别样本的可能.基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度.实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法.  相似文献   

8.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

9.
针对当前过滤方法过滤不良信息的缺陷和不足,建立并采用三重网页过滤模型,将健康信息推荐给用户,将带有不良信息的网页过滤掉。第一层过滤采用基于关键词匹配的方法,快速识别出健康网页,推荐给用户;第二层采用基于贝叶斯的过滤方法,将第一层不能匹配的网页进行二次过滤,快速淘汰分类特征明显的网页;第三层采用SVM方法将第二层不能识别的网页进行再次过滤。该模型能合理利用上述三种方法的优缺点,发挥各自优势,提高网页过滤的准确率和正确率。  相似文献   

10.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

11.
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。  相似文献   

12.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

13.
介绍了网络监控系统的概念,并根据实践需要提出了一种适用于网络监控系统的网页分类技术。该网页分类技术是基于网站本身所具有的结构性,并通过URL充分表现这一特点提出来的。与传统的基于数据挖掘技术的网页分类技术有本质区别。该技术着重于实用性,实现算法只需要少量的计算机资源,是适合网络监控系统的一种网页分类技术。  相似文献   

14.
针对大规模网页相关性排序工作中使用的多来源网页信息形式多样、利用困难的问题,提出了一种新的自动网页特征获取方法.该方法利用一组事先定义好的规则自动地从网页中获取相关性特征,这些特征可以有效地表达网页的实际内容并改善搜索引擎的排序性能.该方法所获取的网页相关性特征具有格式统一、噪声数据少的特点,能够非常方便地应用于网页的相关性排序.为了评价网页特征和用户查询之间的相关性,还提出了一个特征级别的相关性判定标准.最后,实验结果证明了所提出的特征获取方法和特征相关性等级判定标准对于提升搜索引擎的排序性能具有显著的作用.  相似文献   

15.
使用ASP.NET母版页技术可以为应用程序实现统一的布局。分析了采用母版技术的页面的组成、运行原理,但母版页的使用较繁琐。笔者设计了单个母版页可以为应用程序中的所有页(或一组页)定义所需的外观和标准,并通过开发程序,使母版页与内容的交互容易,为开发功能强大的Web应用程序提供了一种简单、高效的途径。使Web站点的设计方便快捷,风格统一。  相似文献   

16.
利用ASP,可以很容易地把HTML(超文本标记语言)文本、脚本命令及ActiveX组件混合在一起构成ASP页,以此来生成动态网页,创建交互式的Web站点,实现对Web数据库的访问。当用户使用浏览器请求ASP主页时,Web服务器响应,调用ASP引擎来执行ASP文件,并解释其中的脚本语言(JScript或VBScript),通过ODBC连接数据库,由数据库访问组件ADO(ActiveX Data Objects)完成数据库操作,最后ASP生成包含有数据查询结果的HTML主页返回用户端显示。用ASP中数据库连接的多种方法,可以有效利用ASP技术访问WEB数据库。  相似文献   

17.
在网络技术高速发展的今天,对动态网页技术的需求与日俱增。后台数据库连接与访问技术是动态网页技术的核心技术。本文主要论述了不同动态网页技术中实现数据库连接和访问的方法。  相似文献   

18.
PageRank以某个网页被指向的链接数为基础得到网页的权值,网络搜索引擎以PageRank为基础对网页进行排序.一个完整的搜索引擎由搜索器、索引器、检索器和用户接口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域中对大量数据需要进行优先级排序的实际问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号