共查询到20条相似文献,搜索用时 0 毫秒
1.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 相似文献
2.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
3.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Googlc 的搜索具体实现,文章最后对未来进行了展望. 相似文献
4.
5.
目前现有的搜索引擎主要依托单一关键字搜索,且搜索内容重复率高,搜索结果缺少加工整理。从文本信息入手,致力于提出一种集搜索、内容分析、结果输出的一体化搜索系统。 相似文献
6.
7.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。 相似文献
8.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。 相似文献
9.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。 相似文献
10.
随着因特网的迅猛发展,搜索引擎提供导航服务己经成为互联网上非常重要的网络服务。利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现了索引器、检索器、中文分析器等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。 相似文献
11.
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。 相似文献
12.
13.
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索.以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础. 相似文献
14.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。 相似文献
15.
跨站脚本(CrossSiteScripting)(即XSS)是Web应用程序中最为常见安全漏洞之一,一般通过在Wed页面中插入恶意代码,用户在浏览受到恶意代码攻击的网页时在Wed页面中的恶意代码便会执行,从而破坏和控制的恶意目的。本文提出了一种基于网络爬虫的XSS漏洞挖掘技术,在实践中发现该技术在应对XXS漏洞检测中具有显著效果。 相似文献
16.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。 相似文献
17.
18.
19.
分析了图书馆定题服务的一般模式,总结了网络环境下定题服务的新要求和当前相关服务模式存在的不足.在对RSS技术发展和功能分析的基础上,提出了基于RSS技术理论的定题服务的模型--MJFB.MJFB系统采用My Library的设计理念,灵活运用XML tag的弹性和OPML档案规格,并通过关键字过滤搜寻等方法,实现在同一网页页面中完成个性化订阅需求及文章内容的浏览.研究表明,构建的MJFB定题服务系统运行稳定,可以满足各学科专家或专业课题研究的信息需求,深受定题服务用户的欢迎. 相似文献
20.
高校图书馆科研定题服务工作理论与实践探讨——以华北科技学院图书馆为例 总被引:3,自引:0,他引:3
本文阐述了科研定题服务内容、特点,分析了华北科技学院图书馆科研定题服务工作现状及存在的主要问题,探讨了提高科研定题服务工作质量的几点对策。 相似文献