共查询到10条相似文献,搜索用时 62 毫秒
1.
孟祥成 《中国现代教育装备》2010,(3):46-48
使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率。 相似文献
2.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse 3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。 相似文献
3.
4.
5.
Google Book Search API在Web OPAC书目查询服务中的应用 总被引:1,自引:0,他引:1
叶红卫 《温州职业技术学院学报》2010,10(3):60-62,96
通过使用Google Book Search API中的图书搜索链接和嵌入式浏览器API,在Web OPAC书目查询服务中嵌入Google图书搜索引擎进行图书搜索,可以增强Web OPAC书目查询服务功能,从而为快速检索信息提供便利。 相似文献
6.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。 相似文献
7.
高伟锋 《南宁职业技术学院学报》2011,16(1):97-100
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。 相似文献
8.
目前搜索引擎最重要的事情之一就是如何使搜索引擎快速准确地从庞大的网页数据中获取所需资源的需求。本文重点阐述了搜索引擎的Web Spide(r网络蜘蛛)搜索器的搜索策略和搜索优化措施,提出了改进搜索引擎的Web Spi-der的方法,改进后的Web Spider能够更有效地发现和搜集信息。为搜索引擎进行信息搜集,高效、稳定的Web Spider保证了为用户提供的网上信息的全面性和有效性。 相似文献
9.
由于单个搜索引擎所采用的排序算法和搜索范围不同,用户很难得到准确的结果信息;而元搜索引擎通过同时调用多个搜索引擎,在一定程度上提高了检索效果;垂直搜索引擎通过针对某一特定领域如医学、金融等为查询用户提供相关信息。本文针对多领域的信息检索,提出了将元搜索引擎与垂直搜索引擎相结合的方法,并构建了三种多域元搜索引擎,实验证明,与使用单独的搜索引擎相比,使用该搜索引擎能够获得更好的检索效果。 相似文献