基于Heritrix的面向电子商务网站增量爬虫研究 |
| |
引用本文: | 杨颂,欧阳柳波.基于Heritrix的面向电子商务网站增量爬虫研究[J].人天科学研究,2010(7):38-39. |
| |
作者姓名: | 杨颂 欧阳柳波 |
| |
作者单位: | 湖南大学软件学院,湖南长沙410082 |
| |
摘 要: | 针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。
|
关 键 词: | Heritrix 增量抓取 爬行策略 电子商务 |
本文献已被 维普 等数据库收录! |
|