首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨.  相似文献   

2.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。  相似文献   

3.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Googlc 的搜索具体实现,文章最后对未来进行了展望.  相似文献   

4.
本文从搜索引擎的相关概念和构成出发,介绍了网络爬虫的相关概念,并阐述了网络爬虫的搜索策略,同时给出了现在比较流行的Google的搜索具体实现,文章最后对未来进行了展望。  相似文献   

5.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

6.
好课留给学生的精神是永恒的,一堂好的语文阅读课应体现"六重"。  相似文献   

7.
8.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

9.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

10.
介绍聚焦爬虫在手机天气预报中的应用。首先介绍网络爬虫的工作原理和主要技术,再介绍这些原理和技术在天气预报系统中的具体实现。  相似文献   

11.
全超 《中国科技纵横》2010,(21):258-258
基层是企业全部工作的基础,是企业发展的根基。班组是企业的细胞,是企业一切工作的落脚点,企业的各项工作是否有活力,最终要通过班组工作来体现和检验。2007年中国石油天然气集团公司把基层建设作为工作重点,大庆油田物业集团开展了“学先进、抓基层、提素质、促和谐,为建设国内一流、中石油第一物业企业做贡献”主题教育活动,充分说明了基层建设的重要性。物业管理一公司热水管理处认真结合争创“明星管理处”活动,下大力气加强班组建设,全力打造“六好班组”,即建设“任务完成好、安全管理好、服务技能好、文化建设好、成本控制好、团队精神好”的班组,使企业的“细胞”更加活跃,企业管理的基础更加扎实。热水管理处始终把“六好班组”建设作为工作的切入点和落脚点,重点从安全管理好、成本控制好、服务技能好三方面入手,构建班组建设新机制,使班组建设呈现出新的良好态势。  相似文献   

12.
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

13.
爬虫系统,被广泛应用于计算机各个领域,对于爬虫系统的研究和改进从来没有停止过。目前对于爬虫系统研究最关注的自然是爬虫系统的效率问题,如何才能够提升爬虫系统的效率,是我们目前为止研究的一个大方向。我们的研究从解剖爬虫系统开始。爬虫系统包括运行机理,构架以及算法组成,要想提升爬虫系统的效率,我们就必须优化它的构架,改进相关算法,针对爬虫系统进行一个全面的优化,从而达到提升爬虫系统效率的目的。在Linux网络环境之下,我们为了提高爬虫系统对页面的抓取效率和爬虫程序的完整性能,我们进行了反复的实验,结果表明,我们的解决方案的确有可行之处。  相似文献   

14.
概述了语义网和网络爬虫的基本概念和工作原理,分析了语义网爬虫的现状,提出和总结了语义网专题搜索算法的实现。  相似文献   

15.
张悦  杨学全 《科技风》2014,(19):6-6
跨站脚本(CrossSiteScripting)(即XSS)是Web应用程序中最为常见安全漏洞之一,一般通过在Wed页面中插入恶意代码,用户在浏览受到恶意代码攻击的网页时在Wed页面中的恶意代码便会执行,从而破坏和控制的恶意目的。本文提出了一种基于网络爬虫的XSS漏洞挖掘技术,在实践中发现该技术在应对XXS漏洞检测中具有显著效果。  相似文献   

16.
王居海 《内江科技》2011,32(10):170-170
在足球比赛中每一个成功的技战术配合都是建立在最基本的传接球技术上的,传接球技术在足球比赛中有非常重要的作用只有熟练掌握和应用传接球技术才能将比赛踢得更加精彩。  相似文献   

17.
宋英武 《今日科苑》2009,(21):108-108
贯彻落实科学发展观,深化党委“五个一”系统工程,通过“四有六要”工作法,加强职工法制教育,增强职工法制观念,有效预防违法犯罪,最大限度地减少不和谐因素,持续推进“平安和谐示范矿区建设。  相似文献   

18.
19.
20.
基于Python的微博爬虫系统研究   总被引:1,自引:0,他引:1  
随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微博为代表的一系列社交应用蕴含着巨大的数据资源。以新浪微博为研究对象,利用Python语言实现模拟登陆和网页解析技术,将获取的用户信息存为文档进行分析。文章分析了新浪微博模拟登陆时的加密方法,研究了验证码识别的实现方法,对挖掘的数据使用TF-IDF算法进行分析,提出了新的微博数据挖掘方向,论述了爬虫的国内外研究现状及开发难题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号