首页 | 本学科首页   官方微博 | 高级检索  
     

一种断点续传的多线程新闻组抓取方法及存储结构
引用本文:杨代庆,王志苹,王星,刘敏健,常迎春. 一种断点续传的多线程新闻组抓取方法及存储结构[J]. 现代图书情报技术, 2011, 27(2): 29-33
作者姓名:杨代庆  王志苹  王星  刘敏健  常迎春
作者单位:1. 中国科学技术信息研究所 北京 100038;2. 中国科学院国家科学图书馆 北京 100190;3. 中国科学院研究生院 北京 100049
基金项目:本文系国家十一五科技支撑计划子课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。
摘    要:针对新闻组的海量性及相关编码特点设计新闻帖抓取流程,采用多线程方式加快新闻帖的抓取及解析速度,同时设计一种便于海量数据断点续传的数据存储结构,通过实验采集验证该方法能有效达到信息检测的数据采集要求,抓取及解析新闻帖的速度比普通单线程抓取解析方式有显著提高。

关 键 词:新闻组  多线程  海量数据  网络新闻传输协议
收稿时间:2011-01-26
修稿时间:2011-01-30

Usenet-snatcher Based on Multithread and Mass-data Storage Supporting Breakpoint Transmission
Yang Daiqing,Wang Zhiping,Wang Xing,Liu Minjian,Chang Yingchun. Usenet-snatcher Based on Multithread and Mass-data Storage Supporting Breakpoint Transmission[J]. New Technology of Library and Information Service, 2011, 27(2): 29-33
Authors:Yang Daiqing  Wang Zhiping  Wang Xing  Liu Minjian  Chang Yingchun
Affiliation:1. ;2. National Science Library,Chinese Academy of Sciences,Beijing 100190,China;3. Graduate University of Chinese Academy of Sciences, Beijing 100049, China
Abstract:A usenet-snatcher is designed based on multithread to improve the download-speed and MIME-parsing-speed and a storage schema supporting breakpoint transmission is also proposed. Experiment shows that the usenet-snatcher can gather articles effectively and gathering-speed under multithread is faster than single thread.
Keywords:Usenet  Multithread  Mass-data  NNTP
本文献已被 CNKI 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号