首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Heritrix的面向电子商务网站增量爬虫研究
引用本文:杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].人天科学研究,2010(7):38-39.
作者姓名:杨颂  欧阳柳波
作者单位:湖南大学软件学院,湖南长沙410082
摘    要:针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。

关 键 词:Heritrix  增量抓取  爬行策略  电子商务
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号