首页 | 本学科首页   官方微博 | 高级检索  
     检索      

多中文搜索引擎的联合网络爬虫及LUCENCE实现
引用本文:赵靖,潘志舟,梅芳婷,程振,钱吕见.多中文搜索引擎的联合网络爬虫及LUCENCE实现[J].安阳师范学院学报,2012(5):51-55.
作者姓名:赵靖  潘志舟  梅芳婷  程振  钱吕见
作者单位:安徽科技学院计算机系
基金项目:安徽省教育厅优秀青年基金重点项目(2011SQRL117ZD);安徽科技学院大学生创新课题基金
摘    要:由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。

关 键 词:网络爬虫  搜索引擎  网页正文抽取  网页相似度

Study on Multi-source Web Crawler Realization Based on Search Engine and Lucence
ZHAO Jing,PAN Zhi-zhou,MEI Fang-ting,CHENG Zhen,QIAN Lv-jian.Study on Multi-source Web Crawler Realization Based on Search Engine and Lucence[J].Journal of Aayang Teachers College,2012(5):51-55.
Authors:ZHAO Jing  PAN Zhi-zhou  MEI Fang-ting  CHENG Zhen  QIAN Lv-jian
Institution:(Department of Computer,Anhui Science and Teachnology University,Fengyang 233100,China)
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号