首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
网络舆情具有自由发布、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。  相似文献   

2.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

3.
胡鹏 《教育技术导刊》2017,16(4):111-113
互联网是信息的载体,随着信息量的迅速增长,给用户检索获取需要的互联网学习资源增加了难度和时间。因此,学习资源爬虫是亟待研究与解决的问题。实现学习资源爬虫系统的关键为:首先界定互联网学习资源的概念、类型、格式形态,然后设计学习资源爬虫结构以及抓取、解析、去重、下载功能,最后根据系统开发环境实现爬虫结果。借助webdriver、Firfox浏览器并结合反网络爬虫策略,解决动态网站脚本与服务器异步交互时的数据丢失问题,进行完整、自动、高效的批量内容下载,优化学习资源获取的准确率与效率,以获取更有价值的学习资源。  相似文献   

4.
张皓  周学广 《教育技术导刊》2013,12(11):135-137
通过分析开源网络爬虫Heritrix的工作原理及架构,针对Heritrix开源爬虫只能对全网站进行通爬的特点,对Heritrix进行改进,增加了基于Hash算法的增量式抓取模块。实验表明,改进的Heritrix能够有效实现对网页的增量式抓取。  相似文献   

5.
六搜的研发 在IPv6建设过程中,有必要建立一个专用的IPv6搜索引擎.因为:第一,专用IPv6搜索引擎可以集中体现IPv6网络上的资源,总的来说,IPv6网络的性能高过IPv4网络的性能,IPv6网站的速度也快过纯IPv4网站的速度.第二,其可以使用户熟悉IPv6.第三,可以从爬虫收集网页的数据中得到IPv6网站的数目,虽然不能保证每一个IPv6网站爬虫都能访问到,但也可以得到比较接近的数据.  相似文献   

6.
通过网络爬虫软件采集携程、驴妈妈等知名旅游网站刊载的永州游记及官方旅游网站发布的永州旅游宣传文本形成研究的数据来源,采用以ROST Content Mining 6.0软件为工具的文本分析法,从高频词、语义网络、情感三方面对比分析永州旅游感知形象与官方传播形象。在分析结果基础上提出相应建议,以期提升永州的旅游形象。  相似文献   

7.
2020年,整个世界都在关注新型冠状病毒肺炎的疫情,各大主流网站每日实时播报最新的疫情数据,单纯的数字显示不够直观,采用网络爬虫技术可以根据给定的URL和规则收集网络上的信息数据。使用网络爬虫技术获取网络上最新的新冠病毒疫情数据,研究常用的爬虫算法,运用合适的数据爬取方式获取数据,并将数据以图表的可视化形式展示,能清晰明了地显示疫情的走向趋势,为不同地方的采取相应防控提供参考。  相似文献   

8.
六搜由深圳大学研发,当前在谷歌搜索英文"IPv6 search engine",六搜网站全球排名领先。六搜的研发在IPv6建设过程中,有必要建立一个专用的IPv6搜索引擎。因为:第一,专用IPv6搜索引擎可以集中体现IPv6网络上的资源,总的来说,IPv6网络的性能高过IPv4网络的性能,IPv6网站的速度也快过纯IPv4网站的速度。第二,其可以使用户熟悉IPv6。第三,可以从爬虫收集网页的数据中得到IPv6网站的数目,虽然不能保证每一个IPv6网站爬虫都能访问到,但也可以得  相似文献   

9.
随着互联网在我国的应用和发展,越来越多的体育用品企业建立了自己的网站,以此进行电子商务,开展网络营销。如何在浩如烟海的网络中让企业网站被用户知道并被访问,是企业网站营销功能发挥的关键。搜索引擎作为一种信息检索工具,为企业网站被用户发现提供了便利,前提是被搜索引擎数据库收录并在搜索结果中排名靠前。影响企业网站被收录并取得好的排名的因素很多,对企业网站进行搜索引擎优化,以增加企业网站对搜索引擎的"友好性"即是其一。本文在阐述企业网站搜索引擎优化基本原理的基础上,分析了体育用品企业网站优化的内容。  相似文献   

10.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。  相似文献   

11.
介绍了网络爬虫的工作原理,分析了传统的两种启发式算法——基于有限空间的A*搜索算法和局部搜索的爬山算法在网络爬虫中应用的可行性及局限性。并详细阐述了应用了模拟退火算法的网络爬虫网页搜索的过程,并结合一个搜索实验说明了基于模拟退火算法的网络爬虫搜索性能的优越性。  相似文献   

12.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

13.
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。  相似文献   

14.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

15.
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。  相似文献   

16.
为能对全国高职专业点设置作大数据分析,需要设计与实现一个爬虫来爬取全国职业院校专业设置管理与公共信息服务平台中的专业点设置和专业名录数据.为此,给出了该爬虫的功能架构和技术架构、数据库设计的ER图和数据表.设计并实现了该爬虫的项目管道、数据项、网站爬虫、异常处理中间件、伪装中间件等技术模块,使用该爬虫爬取了275,87...  相似文献   

17.
搜索引擎在网络应用中越来越重要,网络爬虫作为搜索引擎的重要组成部分成为近期的重要研究目标。本文介绍了一种构建简单分布式网络爬虫模型的方法,提供了行之有效的理论分析和算法。  相似文献   

18.
我们青州一中网站是网络技术设计和人文优化整合的结果。网站面向网络用户,所以它的设计必须考虑到用户使用的便利性。人文优化就是对网站的交互性优化、易用性优化等,针对用户使用方便的优化工作,本文结合实例介绍了网站设计和开发过程中人文优化的原则及方法。  相似文献   

19.
周惠  柳劲华 《教育技术导刊》2012,11(10):148-150
随着互联网的快速发展,越来越多的企业在互联网上建立了自己的网站,如何使网站在搜索引擎的搜索结果中排在竞争对手之前,成了企业网站的当务之急。搜索引擎优化正是提高网站自然排名最好的方法之一。根据搜索引擎基本原理分析了影响网页搜索排名的主要因素,对网站的关键词、网站结构、网站内容、链接等方面进行了技术分析,提出了相应的网站优化策略。  相似文献   

20.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号