首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Python的Web信息获取方法研究
引用本文:魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].教育技术导刊,2018,17(1):41-43.
作者姓名:魏冬梅  何忠秀  唐建梅
作者单位:西华大学 计算机与软件工程学院,四川 成都 610039
摘    要:随着大数据和云计算等新一代互联网技术的迅速发展,Web信息量逐日海量递增。从海量数据中提取有效信息,挖掘有潜在价值的关系成为当前的研究热点,这对揭示已知规律、预测未知结果有极大的辅助作用。对当前Web信息获取方法、原理和关键技术进行研究分析,重点阐述了数据采集相关技术中网络爬虫算法的分类与应用。提出一种以Python和相关库为主要工具,结合模块化方法,构建Web文本信息获取系统框架与流程的策略。案例中通过定义采集函数,实现对给定的维基百科词条,快速搜索与该词条相关信息,对词条内链接和外链接进行有效爬取。结果表明,Python在数据采集方面具有较高的有效性和可扩展性。

关 键 词:Python  信息获取  网络爬虫  正则表达式  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号