一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例 |
| |
引用本文: | 孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].人天科学研究,2010(5). |
| |
作者姓名: | 孙庚 冯艳红 于红 史鹏辉 |
| |
作者单位: | 大连水产学院信息与计算机工程学院 |
| |
摘 要: | 以开源网络爬虫Heritrix为基础,阐述其工作原理和架构。根据渔业信息词库建立索引,提出一种基于Heritrix的定题爬虫算法,根据链接和内容对网页进行过滤,并构建了渔业信息网络爬虫FishInfoCrawler,经实验表明,本算法能完成渔业信息领域相关网页的抓取。
|
关 键 词: | 定题爬虫 搜索引擎 Heritrix |
本文献已被 维普 等数据库收录! |
|