首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 9 毫秒
1.
随着社会经济的不断发展,现代科学技术水平的不断提升,互联网迅速普及,深刻的影响着人们日常生产生活,而随着互联网的不断发展,怎样快速有效地从互联网中获取生产生活中所需的数据信息成为互联网企业及广大网络用户热切关注的重点内容,网络爬虫又被称呼为网络蜘蛛或网络机器人,其实际上是一个程序,能够遵循特定的规范规则以及给定的URL...  相似文献   

2.
主题网络爬虫是针对某一特定领域进行信息采集的网络爬虫,本文提出将主题网络爬虫应用于数字档案馆的信息采集,以档案采集系统的设计目标为出发点,阐述了基于主题网络爬虫的档案信息采集系统的设计方案和该系统实现的相关技术。  相似文献   

3.
基于本体的网络爬虫技术研究   总被引:1,自引:0,他引:1  
杨学明  刘柏嵩 《情报学报》2007,26(5):723-727
互联网已经成为最大的非结构化数据库,极大方便了信息访问.然而,网络上的信息大多都是无组织的,由于网络的分布式特性,很难对它进行信息和知识管理.因此,如何建立一个智能的信息发现机制很有必要.本文在分析了爬虫工作原理和传统算法后,提出了一种基于本体的网络爬虫的信息发现框架.该框架包含了预处理模块和本体管理模块,定义了网页相关度计算策略,最后通过实验对该框架进行了评估.  相似文献   

4.
通过Python网络爬虫获取IMDB网站美剧《权力的游戏》影评并进行数据清洗,利用自然语言处理(NLP)对数据进行文本规范化、TF-IDF特征提取。采用有监督机器学习技术对模型进行训练、测试、评估,并用经过训练的模型分析规范化处理的影评文本,得到该剧影评的正负情感,并对其进行可视化处理与分析。运用隐含语义索引技术对标记过情感极性的影评文本进行主题建模,分别提取评论主题。展开爬虫分析影评对涉军舆情监控的启示。  相似文献   

5.
网络技术的发展催生了网络舆情和大数据技术的发展,两者有很多相似之处,如何将两者很好结合显得尤为重要。本文突破个案分析的思维,结合大数据进行舆情分析。通过分析新模式下的网络舆情传播模型进而对大数据技术分析网络舆情进行分析和展望。  相似文献   

6.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

7.
陈思 《新闻传播》2013,(8):23-24
消费者行为研究早期阶段,对于消费详细历史记录的追踪和分析是对消费者行为深层次理解的开始,进入大数据时代,网络平台样式和消费者购物习惯呈现多样化,对消费者数据的采集和行为的分析逐步扩展至更多数据源。本文即在对传统消费者行为研究模型、研究路径和数据处理方式进行对比的基础上,提出了当前大数据背景下消费者研究领域的一些可行性应用以及研究框架初探,试图为今后消费者基于网络行为数据的深入研究提供可行性参考。  相似文献   

8.
网络深刻改变了当代大学生的生活、思维方式,成为了舆情产生和传播的重要场所,为高校舆情管理工作带来了巨大的挑战。高校网络舆情作为社会舆情的重要组成部分,在维护社会稳定和构建和谐社会中都起到了重要作用。利用大数据技术手段可对信息进行深入挖掘,提前对网络舆情进行监控及预测,打破了以往高校传统的限制、围堵等简单的方式来应对网络舆情的现状。  相似文献   

9.
李净  谢霄男 《东南传播》2020,(3):100-101
保障网民言论自由的同时有效防范化解网络舆情风险,是网络舆情治理的一大攻坚难题。从介入时机、基础保障等角度分析我国网络舆情的治理路径,结合大数据"4V"特征分析网络舆情发展现状,我们发现网络治理路径尚存在拓展、创新的问题。随着信息技术的持续发展,人们愈加认识到大数据对化解网络舆情攻坚难题有着重要的促进作用。为切实提升民众对网络舆情治理的满意度,我们有必要从治理过程与治理方式等层面对大数据嵌入网络舆情治理的可行性进行分析。  相似文献   

10.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

11.
基于P2P的分布式主题爬虫系统的设计与实现   总被引:1,自引:0,他引:1  
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程.系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求.实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息.  相似文献   

12.
在油田的测井数据应用中,发现两个数据库的部分数据不一致,给地质研工作带来不便.本文采用Python开发简洁高效的脚本,对不同存储方式的10万余个测井WIS数据文件进行校验对比,节省了大量时间和精力.  相似文献   

13.
网络著者分布规律是网络计量学的一项重要研究内容。本文以Python.cn学术性论坛为样本,在统计分析的基础上,得出“著者数—发帖量”符合幂指曲线分布、“发帖量—著者等级”符合指数曲线分布的基本结论。  相似文献   

14.
随着信息时代的到来,教育信息化成为未来教育发展的必然趋势,在高校思想政治教育中引入大数据技术是大数据技术优势得到充分发挥的有效途径,同时也是高校思政教育实效性实现的重要保障。对大数据背景下高校思想政治教育体现的新特征进行了分析,并在此基础上对大数据背景下高校思想政治教育工作遇到的挑战,最后提出了一些具体的创新路径和方法,以期为高校思想政治教育工作者在大数据技术支持下的课程教育提供一些建设性指导,加强高校大学生网络思想政治教育。  相似文献   

15.
陆轶铖 《新闻实践》2010,(11):34-35
“山寨”从民间的、草根的发展到被官方、权威媒体所关注,除了“山寨机”、“山寨明星”、“山寨春晚”等等这些耳熟能详的词汇以外,“山寨新闻”这个新兴词汇也开始进入大众的视线。  相似文献   

16.
通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。  相似文献   

17.
随着信息的飞速发展,人人皆网民的时代已然到来。大数据在为我们提供高效与便利的同时也暗含着巨大的信息泄露风险,对公民个人网络信息与安全问题的探讨已刻不容缓。探讨了大数据及网络信息安全的概念,以网络信息安全风险特点推之公民个人网络信息安全问题的原因与分析,提出大数据背景下网络信息安全的对策及建议,以期对网络信息安全有所帮助。  相似文献   

18.
文阳  陈文宇  袁野  朱建 《图书情报工作》2014,58(20):125-130
认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。  相似文献   

19.
“大数据”是信息科技领域出现的一个研究焦点。文章从“大数据”的概念进入,对其特征进行梳理总结,对“大数据”处理的核心技术进行分析,比较分析各个“大数据”处理商业解决方案的特点,最后结合“大数据”特征分析科技文献信息,对“大数据”在科技文献信息处理领域的应用进行探讨性分析与研究。  相似文献   

20.
大数据技术推动图书馆智慧化水平发展,拓展图书馆知识服务内容,提升图书馆数据价值。论文通过对图书馆年度数据报告、数据画像,信息可视化展示平台等数据营销服务及决策支持、服务预警、知识发现等数据决策应用进行分析,发现当前图书馆在数据利用方面存在数据营销广度不够、数据分析深度不足、数据决策力度欠缺等问题,围绕如何做好数据营销、数据治理和数据馆员培养等方面为图书馆发展赋能提供建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号