共查询到20条相似文献,搜索用时 15 毫秒
1.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。 相似文献
2.
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索.以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础. 相似文献
3.
4.
随着因特网的迅猛发展,搜索引擎提供导航服务己经成为互联网上非常重要的网络服务。利用Lucene开源全文本搜索技术框架建立全文检索系统,设计实现了索引器、检索器、中文分析器等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的全文检索系统能更好地支持中文及更准确地提供给用户所需要的信息。 相似文献
5.
主要介绍了主题搜索引擎、网络爬虫的基本概念和Heritrix系统的体系结构,分析了Heritrix的工作流程,在Heritrix框架的基础上进行扩展和优化。通过一个实例,实现了对京东网图书信息的抓取,为建立面向图书信息的垂直搜索引擎提供了网页信息资源。 相似文献
6.
垂直搜索是针对某一个行业的专业搜索引擎;Lucene是Java编写的全文索引引擎工具包,可以跨平台使用;Heritri。是一个功能强大的开源Web网络爬虫。本文主要探讨Lucene和Heritrix在构建垂直搜索引擎中的应用。 相似文献
7.
首先介绍了基于Internet的搜索引擎的系统结构以及主流搜索引擎的工作原理,在对高性能的爬虫工具包Heritrix和可扩展的Java全文索引工具包Lucene进行系统分析的基础上,设计了整个搜索引擎的构架,并使用Java语言初步实现了"SoEdu"搜索引擎。 相似文献
8.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
9.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。 相似文献
10.
数字图书馆中基于内容的图像搜索引擎 总被引:1,自引:0,他引:1
介绍了图像搜索引擎框架、现有的基于内容的图像搜索引擎、基于内容的图像搜索引擎中图像分类方法以及基于内容的图像检索技术,并分析了基于内容的图像搜索引擎发展趋势。 相似文献
11.
12.
互连网上信息浩瀚无限,各种搜索引擎是人们获得信息常用的工具,但是它的可用性和易用性还有待进步提高。为了更有效的获得用自然语言提问的问题的答案,本文提出了运用中文分词技术在获取的搜索网页的基础上进行全文检索和进行问题答案匹配,获得对应的答案列表的一种实现方法 相似文献
13.
14.
本文通过垂直搜索引擎的关键算法研究,论述垂直搜索引擎设计与实现时的一些独特的信息识别方法,包括Pagerank和HITS算法。 相似文献
15.
基于元搜索引擎的异构数据检索系统研究 总被引:3,自引:0,他引:3
异构数据库的跨库检索是电子资源整合的核心技术。介绍了异构数据库产生的原因和具体实现方法,提出一种基于元搜索引擎的跨库检索模型;探讨了跨库检索系统的数据整合难点,提出标准问题的至关重要性。 相似文献
16.
本文构建了一个基于搜索引擎技术的中文歧义词收集系统。该系统从Internet上抓取网页内容,清除掉HTML标记及其他脚本后,得到网页内容的纯文本形式,然后采用双向扫描法找出歧义词位置并保存,接着做进一步的分析处理,得到包含歧义词的句子及歧义词在句中的相对位置。该结果可以供分词消岐算法研究人员使用,能够有效解决分词消歧研究中测试语料难以获取和不同消歧算法的结果难以对比的问题。 相似文献
17.
18.
19.
分析了传统搜索引擎的缺陷,论述了研究基于语义的搜索引擎技术的必要性,并阐述了基于语义的搜索引擎的概念、功能和模型。 相似文献
20.
简要介绍元搜索引擎的基本原理及其在危机信息监测中的应用,然后构建基于元搜索引擎的危机信息监测系统(CIMS_ME)体系结构框架,重点阐述CIMS_ME系统实现过程中的搜索引擎调度策略、文档选择策略、时间提取方法等五大重要技术问题,为实现该系统提供了理论和技术支持。 相似文献