首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在日常工作和生活中,互联网已遍及各个角落,基于当今快速发展的网络环境,人们对数据的搜索应用十分普遍,普通的网络爬虫已无法满足人们对有用信息获取的要求。本文基于主题爬虫的结构特征,分析近年来国内外爬虫抓取策略的方法、技术,重点介绍一些极具有代表性的主题相关度算法,包括Page Rank、HITS等,并分析比较各种典型算法的优点和不足。  相似文献   

2.
网络爬虫软件的研究与开发   总被引:1,自引:0,他引:1  
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。  相似文献   

3.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

4.
以何种策略访问网络,提高搜索效率,是近年来主题搜索引擎研究的主要问题之一。本文对主题爬虫常用搜索策略进行了简单分析,提出了实用性较强的基于SAGA的主题爬虫搜索策略。  相似文献   

5.
<正>网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,其又被称为网页蜘蛛。由于万维网的快速发展以及数据的爆炸式增长,对大规模数据的网络进行数据爬取是在2001年进行的,使用了网络爬虫并采用广度优先策略对万维网3.28亿个网页进行研究。而伴随着万维网网络爬虫技术的快速发展,与网络爬虫技术相关的专利申请也与之对应进入了快速的发展阶段。本文的数据是基于网络爬虫相关中英文关键词在智慧芽数据库进行检索后获取到的数据,本文的分析是基于上述获取的数据进行的。  相似文献   

6.
首先给出了主题网络爬虫的定叉和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BFO算法。对BFO算法进行性能评价,发现应用此算法搜索不但“召回率”和“收获率”有所提高,还能在一定程度上找到全局围内的最优解。最后对未来的研究方向进行了展望。  相似文献   

7.
李志义 《现代情报》2011,31(10):31-35
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。  相似文献   

8.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。  相似文献   

9.
孙秋月  张露 《情报探索》2022,(10):38-44
[目的/意义]旨在为治理网络谣言提供实践思路。[方法/过程]以新冠肺炎疫情网络谣言为例,在批评话语分析的理论框架下从描写、理解和阐释三个层面研究网络谣言的语言学形式特征、话语实践和社会实践特征。[结果/结论]突发公共卫生事件网络谣言的形式特征表现在词汇、句法、语篇多个层面。在话语实践方面,公共卫生事件网络谣言的产生与互文性相关,受众的理解和传播与谣言所实施的断言行为、指令行为、承诺行为和表达行为相关。在社会实践方面,公共卫生事件网络谣言的产生动机主要是利益驱动和情绪驱动,多元媒体下的话语权为谣言的产生提供条件,社会认知图式促成谣言的理解和传播。突发公共卫生事件网络谣言的批评话语分析为网络谣言文本的识别、网络谣言行为的治理和人们网络媒介素养的提升提供启示。  相似文献   

10.
网络传播中的"谣言"现象研究   总被引:10,自引:0,他引:10  
巢乃鹏  黄娴 《情报理论与实践》2004,27(6):586-589,575
谣言作为一种普遍的社会舆论现象,通常是利用蔓延或扩散的作用,暗地在人际的互动间快速传递。随着互联网的普及,网络匿名性与易于向公众传播的特性更是助长了谣言的传播与影响能力。本文从谣言传播的基础出发,将有关谣言研究的大量论著和网络传播的研究成果整合起来,运用信息管理学、传播学、心理学等多学科的方法,针对网络谣言的特性、网络谣言的传播过程进行探讨,并进而总结了网络谣言的控制方法。  相似文献   

11.
在突发事件中,“满天飞”的网络谣言会引发“次生灾害”,严重影响政府的应急处置;大多数网民主动识别谣言,才能阻断谣言扩散的网络通道。本文运用计划行为理论、风险感知理论、社会资本理论和威慑理论,构建突发事件中网络谣言识别行为意向影响因素的概念模型,并通过网络渠道收集调查问卷,进行了实证研究。研究发现,网民的态度、社会资本,惩罚的确定性、严厉性和敏捷性显著正向影响突发事件中网络谣言识别行为意向;网民的社会资本显著负向其感知风险,网民的感知风险显著正向影响其态度。  相似文献   

12.
随着信息技术的不断发展,互联网上的数据类型越来越多,信息量以几何级增长,庞大的数据给人们的生活带来便利的同时也给信息的查找带来了巨大的挑战。搜索引擎的通用网络爬虫越来越难以胜任越来越大规模的数据抓取任务。本文设计了一个分布式架构的主题网络爬虫,能快速、准确、稳定的抓取特定领域的信息。  相似文献   

13.
为了把握社会化媒体在地震灾害中的运用状况,从研究领域、研究方法两个层面出发,采用文献研究方法,对国外研究文献进行了综述。结果显示:目前研究领域有:基于社会化媒体的地震侦测与通知、信息传播特征及用户信息行为特征、社会化媒体用于地震救援、主题发现、获得社会联系与情感支持、谣言;文本挖掘、内容分析法等是目前研究常用的研究方法。  相似文献   

14.
【目的/意义】网络谣言与突发事件相伴而生,已经成为突发事件的“次生灾害”,如何治理网络谣言成为网 络社会治理的难题,本文面向突发事件研究网络谣言传播主体演化模型,为政府治理网络谣言提供参考依据。【方 法/过程】定性分析面向突发事件的网络谣言传播机理,通过定义网络谣言传播主体,构建网络谣言传播主体演化 模型,通过数值仿真研究网络谣言传播主体规模、传播主体之间演化关系以及政府辟谣程度等问题。【结论/结果】 经过理论建模和仿真分析得出政府治理网络谣言的具体措施,并将其归类得出“无事先防,事初防变,事过防复”的 治理策略,最后针对模型拓展问题和面向突发事件的网络谣言传播主体规模预测问题提出了新的研究思路。  相似文献   

15.
吴尤可  瞿辉 《情报科学》2017,35(6):125-129
【目的/意义】现代信息技术的发展为谣言快速传播提供了土壤,如何快速、准确地追溯谣言散播的源头具 有重要意义。【方法/过程】从社交网络技术这一新的视角对谣言源头进行追溯,提出了最大相似法来对疑似源头节 点进行检查,从而找到最终的谣言源头,并通过实验进行了验证。【结果/结论】基于对追溯技术的分析,进而提出了 控制谣言传播及追溯谣言的对策,为政府的谣言控制决策和源头追溯提供了理论依据及建议。  相似文献   

16.
阐述了网络谣言的内涵,并从谣言和网络两个方面描述了网络谣言的内涵特征;分析了产生网络谣言的多种因素——事件自身因素、传播载体因素、传播主体因素、网络“粉丝”文化因素和社会情境因素;提出了对网络谣言进行治理的若干建议,即应从及时公开相关信息、建立网络谣言预警机制等方面综合处置。  相似文献   

17.
袁红  李佳  冯宇德 《情报科学》2021,39(10):46-55
【目的/意义】互联网背景下社会热点事件层出不穷,因网络高关注度极易引发舆情与谣言危机,舆情与谣 言演变时关系紧密,通过分析舆情与谣言耦合机制,为社会热点事件网络治理提供指导。【方法/过程】选取近4年28 个社会热点事件,筛选其中表现突出的耦合样本,可视化呈现了社会热点事件网络舆情与谣言的耦合模型,进而利 用场域理论中行动者、资本与惯习的内、外循环机理揭示网络舆情与谣言的耦合机制。【结果/结论】揭示了社会热 点事件网络舆情与谣言的一致演变耦合模型、超前分歧耦合模型和滞后分歧耦合模型,并深入分析了三类耦合模 型中不同的耦合机制,包括两场域互振共变机制、谣言场抑制与舆情场反攻机制,以及舆情场主导与谣言场破茧机 制。对于社会热点事件网络舆情与谣言的科学判定及精准施策具有重要意义。【创新/局限】结合多元研究方法揭 示舆情与谣言间的双向互动关系,在舆情与谣言耦合演变影响因素的理论研究仍需加强。  相似文献   

18.
杨洋洋  谢雪梅 《情报科学》2021,39(9):170-177
【目的/意义】构建了一套科学合理的网络谣言风险测度体系,以期为网络谣言的识别和控制提供参考,建 设健康安全的网络信息环境。【方法/过程】以网络谣言风险测度为切入点,运用层次分析法基于事件性质、事件热 度、事件传播、事件趋势四个维度构建网络谣言风险测度指标体系,利用模糊综合评价法对40例谣言事件的风险等 级进行评价,采用模糊集定性比较分析方法,探讨不同类别的网络谣言治理路径。【结论/结果】研究表明高事件性 质是食品类、儿童类、信息安全类网络谣言高风险发生的核心条件,高事件趋势是食品类和中美贸易战类网络谣言 高风险发生的核心条件,并针对每一个影响因素给出具体的建议。【创新/局限】为网络谣言风险测度提供了新的研 究方法,在理论上进一步丰富了网络谣言风险测度研究体系,为政府网络谣言的管理和应对提供建议,具有一定的 实践价值。后续研究将进一步改进和完善网络谣言风险测度指标体系。  相似文献   

19.
基于网络谣言呈现出的独有特征,构建了网络谣言影响力因素的评价体系,选取抢盐事件进行实证研究,并从微观角度提出网络谣言的应对策略,为政府实现重大突发公共事件网络谣言的监控预警和防范治理提供有效参考和决策依据.  相似文献   

20.
本文首先对Python与网络爬虫的概念进行了简要阐释,并分析了基于Python的网络爬虫系统的基本原理;其后从关键设计原则与模块结构设计角度入手,提出了基于Python的网络爬虫系统的设计思路;最后对基于Python的网络爬虫系统的编程实现进行了研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号