首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

2.
在分析研究现有开源信息采集系统的基础上,综合应用开源框架,以开源爬虫Crawler4j为基础,设计开发基于开源框架的分布式定向资源采集系统,实现对网络信息实时精确的采集,以满足网络监测系统的及时性和准确性的要求。主要介绍系统的结构设计和功能实现,并详细阐述精确采集的方法和技术路线。  相似文献   

3.
任辉 《图书情报工作》2009,53(9):105-107
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。  相似文献   

4.
网络信息归档是档案部门必须要面对的新课题.在组织实施过程中,网络信息的归档可借鉴名人档案和重大活动档案的理念和方法,根据网络信息的特点,采取垂直模式、平行模式或交叉模式确定归档网络信息的范围和内容.在具体操作过程中,利用网络爬虫搜集和人工采集、选择相结合的方式实现网络信息归档的目的.  相似文献   

5.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

6.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

7.
企业竞争情报智能采集的策略研究   总被引:1,自引:0,他引:1  
目前,网络竞争情报(Competitive Intelligence,CI)源已成为企业竞争情报采集系统的主要来源.企业竞争情报采集系统面临的挑战主要表现在信息的重复采集,信息采集缺乏连续性,信息采集结果的随机性.本文针对这些问题研究了企业竞争情报智能采集策略,包括信息的智能化提取、智能化的数据挖掘以及信息采集结果的可视化;进而探讨了构建智能情报采集机制的策略,包括在企业内部确立竞争情报的组织体系、建立企业信息采集网络和集成各种竞争情报采集技术与方法.  相似文献   

8.
从主题爬虫角度看数字资源建设   总被引:2,自引:0,他引:2  
宋宇 《中国索引》2010,8(1):47-51
数字资源建设是图书馆的一个重要研究领域,通过主题爬虫自动收集网络数字资源是数字资源建设的一种重要途径;主题爬虫是主题搜索引擎的重要组成部分,主题搜索算法是主题爬虫的核心;按照评价链接价值方式的不同,对现有的主题搜索算法进行分类,系统分析、比较了每类算法的特点和优缺点。  相似文献   

9.
面向主题的网络竞争情报采集系统*   总被引:7,自引:0,他引:7  
分析Web页面的主题特征,构建基于主题的竞争情报采集模型的框架,详细论述面向主题的信息采集策略和采集流程,进而探讨影响信息采集质量的关键因素。  相似文献   

10.
浅谈网络信息资源采集技术   总被引:21,自引:0,他引:21  
介绍和探讨网络信息采集技术 ,展望网络信息采集系统应用前景。图 1。参考文献 5。  相似文献   

11.
一、网络建设背景和概况(一)建设背景青岛档案信息网作为青岛历史文化门户网站,受到了市政府和国家档案局的大力扶持。2003年8月20日,青岛市数字档案馆建设项目通过了国家档案局组织的专家鉴定,并首次向社会开放。青岛数字档案馆因此成为我国首家运用数字设备和技术建成的数字档案馆。青岛市数字档案馆已经建成数字档案信息传输平台(主要由局域网络、政府网络和I nt er net互联网络三个平台组成)、数字档案信息采集平台(主要包括电子目录采集平台和全文数据采集平台,承担数字档案信息的日常采集工作)、数字档案信息存储管理平台和数字档案…  相似文献   

12.
[目的/意义] 对中文微博信息采集的关键问题进行分析,以期为中文微博信息的采集与长期保存研究和实践提供参考。[方法/过程] 选取采集范围、采集权利、采集方法3个微博信息采集过程中的关键问题,与网络信息采集进行对比分析,并提出相应的对策。[结果/结论] 分析发现,对于微博信息,由于其具有自身特点,无法套用网络信息采集实践的经验,需要确定具有针对性的采集策略与方法;针对选取的3个关键问题,分别建议采取完整性采集、CC协议结合剔除策略、通过API采集的对策。  相似文献   

13.
高校教师业务档案是高等学校档案工作中的一个重要组成部分,更是加强学校管理,促进教学科研交流,提高办学质量的重要信息资源。计算机技术和互联网的普及应用与飞速发展,给高校教师业务档案的管理带来了便利也提出了新的问题。学会运用传统的采集信息和通过网络信息采集与核对“双管其下”的方法,对教师业务档案实行“双套制”收集。  相似文献   

14.
设计一个跟踪科技文献网站的伺服程序,定期对网页数据进行提取,获取最新的科技文献信息,协助高校图书馆完成最前沿科技情报的信息采集工作。本文主要采用主题式网络爬虫技术对国内重要的科技期刊、科技论坛、博客等科技文献特征信息进行统一标准和增量式数据管理,建成元数据库本地存储模式。该系统具有编制简单、易扩展、运行速度快等特点,实现了图书馆科技文献元数据库的增量更新;丰富和完善了图书馆资源建设和知识发现体系;为高校图书馆收集最新的科技情报提供了快捷的途径;促进了以用户为中心的高校图书馆个性化服务体系的建设。  相似文献   

15.
基于语义爬虫的商品信息主题采集研究*   总被引:2,自引:0,他引:2  
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。  相似文献   

16.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

17.
本文对大数据时代国外高校网络信息档案建设的现状进行综述与分析,指出当前我国高校网络信息采集的特点、意义和存在的问题,提出大数据时代高校网络信息档案建设的理念、理论、路径创新.  相似文献   

18.
信息采集是图书馆网络信息处理的起点,文章通过Web信息采集工作模型、信息处理算法等内容,总结了当前Web信息采集技术领域研究情况和特点。  相似文献   

19.
数字档案馆组成包括相关物理/行政实体、软件/硬件支撑平台和计算机应用系统。不同类型的数字档案馆对软件/硬件支撑平台和计算机应用系统有不一样的要求。在整体上,支撑数字档案馆运行的设备可以分为信息输入设备、信息存储设备、信息管理设备和信息利用设备;数字档案馆的应用系统可以概括地分为信息采集系统、信息管理系统、信息利用系统和系统维护。以下主要从地方综合性档案馆的角度分析系统的功能。1数字档案馆信息采集系统数字档案馆信息采集系统是数字档案信息资源开发和利用的基础,是档案从库存资料向信息资源转换的中间站,它能对馆…  相似文献   

20.
档案部门内部互通的局域网是档案行业系统网络的基础单元,是各级档案部门推进档案信息化的基本条件和基本建设内容,分布式档案基础数据库建设首先要求各部门要建成高质量的档案局域网平台。一、档案局域网平台的基本内涵和形式档案局域网平台就是将本单位、本部门分布在不同档案工作岗位上并具有独立功能的多个计算机、终端与外部设备互联而成的网络,实现档案信息的资源共享,实现档案信息采集、整理、鉴定、统计、存储、利用等各环节工作的自动化、网络化。局域网一般不对外开放档案信息资源,对特殊需求的利用者,可根据权限提供利用。按照工…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号