排序方式: 共有3条查询结果,搜索用时 15 毫秒
1
1.
基于Nutch的Web网站定向采集系统 总被引:3,自引:0,他引:3
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。 相似文献
2.
李建忠 《韩山师范学院学报》2008,29(6)
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法. 相似文献
3.
1