共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
网络爬虫软件的研究与开发 总被引:1,自引:0,他引:1
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱。然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求。基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生。主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用。首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等。其次,提出使用向量空间模型进行主题相关度计算。为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术。最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫。 相似文献
3.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。 相似文献
4.
以何种策略访问网络,提高搜索效率,是近年来主题搜索引擎研究的主要问题之一。本文对主题爬虫常用搜索策略进行了简单分析,提出了实用性较强的基于SAGA的主题爬虫搜索策略。 相似文献
5.
6.
首先给出了主题网络爬虫的定叉和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BFO算法。对BFO算法进行性能评价,发现应用此算法搜索不但“召回率”和“收获率”有所提高,还能在一定程度上找到全局围内的最优解。最后对未来的研究方向进行了展望。 相似文献
7.
网络爬虫对网页的抓取与优化策略直接影响到网页采集的广度、深度,以及网页预处理的数量和搜索引擎的质量。搜索引擎的设计应在充分考虑网页遍历策略的同时,还应加强对网络爬虫优化策略的研究。本文从主题、优先采集、不重复采集、网页重访、分布式抓取等方面提出了网络爬虫的五大优化策略,对网络爬虫的设计有一定的指导和启迪作用。 相似文献
8.
本文介绍了网络爬虫的基本架构、工作原理,设计了网络视频爬虫网络视频爬虫的基本架构、详细讨论了如何有效的避免重复遍历网页和如何快速的更新网站新内容的两个关键问题和网络视频爬虫下载视频和抓取网页的工作方式。 相似文献
9.
[目的/意义]旨在为治理网络谣言提供实践思路。[方法/过程]以新冠肺炎疫情网络谣言为例,在批评话语分析的理论框架下从描写、理解和阐释三个层面研究网络谣言的语言学形式特征、话语实践和社会实践特征。[结果/结论]突发公共卫生事件网络谣言的形式特征表现在词汇、句法、语篇多个层面。在话语实践方面,公共卫生事件网络谣言的产生与互文性相关,受众的理解和传播与谣言所实施的断言行为、指令行为、承诺行为和表达行为相关。在社会实践方面,公共卫生事件网络谣言的产生动机主要是利益驱动和情绪驱动,多元媒体下的话语权为谣言的产生提供条件,社会认知图式促成谣言的理解和传播。突发公共卫生事件网络谣言的批评话语分析为网络谣言文本的识别、网络谣言行为的治理和人们网络媒介素养的提升提供启示。 相似文献
10.
网络传播中的"谣言"现象研究 总被引:10,自引:0,他引:10
谣言作为一种普遍的社会舆论现象,通常是利用蔓延或扩散的作用,暗地在人际的互动间快速传递。随着互联网的普及,网络匿名性与易于向公众传播的特性更是助长了谣言的传播与影响能力。本文从谣言传播的基础出发,将有关谣言研究的大量论著和网络传播的研究成果整合起来,运用信息管理学、传播学、心理学等多学科的方法,针对网络谣言的特性、网络谣言的传播过程进行探讨,并进而总结了网络谣言的控制方法。 相似文献
11.
12.
13.
为了把握社会化媒体在地震灾害中的运用状况,从研究领域、研究方法两个层面出发,采用文献研究方法,对国外研究文献进行了综述。结果显示:目前研究领域有:基于社会化媒体的地震侦测与通知、信息传播特征及用户信息行为特征、社会化媒体用于地震救援、主题发现、获得社会联系与情感支持、谣言;文本挖掘、内容分析法等是目前研究常用的研究方法。 相似文献
14.
【目的/意义】网络谣言与突发事件相伴而生,已经成为突发事件的“次生灾害”,如何治理网络谣言成为网
络社会治理的难题,本文面向突发事件研究网络谣言传播主体演化模型,为政府治理网络谣言提供参考依据。【方
法/过程】定性分析面向突发事件的网络谣言传播机理,通过定义网络谣言传播主体,构建网络谣言传播主体演化
模型,通过数值仿真研究网络谣言传播主体规模、传播主体之间演化关系以及政府辟谣程度等问题。【结论/结果】
经过理论建模和仿真分析得出政府治理网络谣言的具体措施,并将其归类得出“无事先防,事初防变,事过防复”的
治理策略,最后针对模型拓展问题和面向突发事件的网络谣言传播主体规模预测问题提出了新的研究思路。 相似文献
15.
16.
阐述了网络谣言的内涵,并从谣言和网络两个方面描述了网络谣言的内涵特征;分析了产生网络谣言的多种因素——事件自身因素、传播载体因素、传播主体因素、网络“粉丝”文化因素和社会情境因素;提出了对网络谣言进行治理的若干建议,即应从及时公开相关信息、建立网络谣言预警机制等方面综合处置。 相似文献
17.
【目的/意义】互联网背景下社会热点事件层出不穷,因网络高关注度极易引发舆情与谣言危机,舆情与谣
言演变时关系紧密,通过分析舆情与谣言耦合机制,为社会热点事件网络治理提供指导。【方法/过程】选取近4年28
个社会热点事件,筛选其中表现突出的耦合样本,可视化呈现了社会热点事件网络舆情与谣言的耦合模型,进而利
用场域理论中行动者、资本与惯习的内、外循环机理揭示网络舆情与谣言的耦合机制。【结果/结论】揭示了社会热
点事件网络舆情与谣言的一致演变耦合模型、超前分歧耦合模型和滞后分歧耦合模型,并深入分析了三类耦合模
型中不同的耦合机制,包括两场域互振共变机制、谣言场抑制与舆情场反攻机制,以及舆情场主导与谣言场破茧机
制。对于社会热点事件网络舆情与谣言的科学判定及精准施策具有重要意义。【创新/局限】结合多元研究方法揭
示舆情与谣言间的双向互动关系,在舆情与谣言耦合演变影响因素的理论研究仍需加强。 相似文献
18.
【目的/意义】构建了一套科学合理的网络谣言风险测度体系,以期为网络谣言的识别和控制提供参考,建
设健康安全的网络信息环境。【方法/过程】以网络谣言风险测度为切入点,运用层次分析法基于事件性质、事件热
度、事件传播、事件趋势四个维度构建网络谣言风险测度指标体系,利用模糊综合评价法对40例谣言事件的风险等
级进行评价,采用模糊集定性比较分析方法,探讨不同类别的网络谣言治理路径。【结论/结果】研究表明高事件性
质是食品类、儿童类、信息安全类网络谣言高风险发生的核心条件,高事件趋势是食品类和中美贸易战类网络谣言
高风险发生的核心条件,并针对每一个影响因素给出具体的建议。【创新/局限】为网络谣言风险测度提供了新的研
究方法,在理论上进一步丰富了网络谣言风险测度研究体系,为政府网络谣言的管理和应对提供建议,具有一定的
实践价值。后续研究将进一步改进和完善网络谣言风险测度指标体系。 相似文献
19.