首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 62 毫秒
1.
使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率。  相似文献   

2.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse 3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。  相似文献   

3.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

4.
以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。  相似文献   

5.
Google Book Search API在Web OPAC书目查询服务中的应用   总被引:1,自引:0,他引:1  
通过使用Google Book Search API中的图书搜索链接和嵌入式浏览器API,在Web OPAC书目查询服务中嵌入Google图书搜索引擎进行图书搜索,可以增强Web OPAC书目查询服务功能,从而为快速检索信息提供便利。  相似文献   

6.
张皓  周学广 《教育技术导刊》2013,12(11):135-137
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

7.
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。  相似文献   

8.
目前搜索引擎最重要的事情之一就是如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求。本文重点阐述了搜索引擎的Web Spide(r网络蜘蛛)搜索器的搜索策略和搜索优化措施,提出了改进搜索引擎的Web Spi-der的方法,改进后的Web Spider能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Spider保证了为用户提供的网上信息的全面性和有效性。  相似文献   

9.
门秀萍 《茂名学院学报》2011,21(6):51-53,57
由于单个搜索引擎所采用的排序算法和搜索范围不同,用户很难得到准确的结果信息;而元搜索引擎通过同时调用多个搜索引擎,在一定程度上提高了检索效果;垂直搜索引擎通过针对某一特定领域如医学、金融等为查询用户提供相关信息。本文针对多领域的信息检索,提出了将元搜索引擎与垂直搜索引擎相结合的方法,并构建了三种多域元搜索引擎,实验证明,与使用单独的搜索引擎相比,使用该搜索引擎能够获得更好的检索效果。  相似文献   

10.
文章论述了农业信息搜索引擎的结构特点,该搜索引擎在通用搜索引擎的基础上增加了农业信息过滤能力,成为农业信息专业主题搜索引擎,为我国广大农业工作者提供了一种高效、便捷的农业信息检索模式.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号