首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 138 毫秒
1.
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫Heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用Heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用Heritrix实现的基于遗传算法的主题网络爬虫,能取得不错的效果。  相似文献   

2.
《宜宾学院学报》2017,(12):61-65
提出一种基于KNN算法进行主题分类的方法,研究了主题网络爬虫的系统结构和所涉及的关键技术,包括URL管理器、页面下载器、页面解析器、主题识别模块以及内容存储模块,重点介绍了基于KNN的分类器的主题相关度算法.使用IKAnalyzer实现网页内容的中文分词,通过TF-IDF算法实现网页内容的特征提取,并利用KNN分类器计算网页的主题相关度.  相似文献   

3.
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确、搜索信息量更大的爬虫显得十分迫切.本文实现了一种基于多个分类器的分布式主题爬虫方法.实验结果表明,该爬虫的速度和精度均较为良好,特别适合于对大数据量的特定主题信息的抓取.  相似文献   

4.
随着人们对信息资源的个性化需求不断加大,主题网络爬虫应时而生。阐述主题网络爬虫定义及工作原理;介绍了主题网络爬虫研究进展,对主题网络爬虫爬行策略、网页抓取优先级以及系统设计实现进行阐述;总结当前研究的不足,对未来研究方向进行了展望。  相似文献   

5.
作为一种快捷、高效访问网络海量数据的工具,通用搜索引擎自诞生以来备受人们喜爱.然而在设计上它却存在着很多不足,并且随着万维网的快速发展而日益不能满足人们的需求.基于这种背景,用于对网页进行定向抓取的主题爬虫应运而生.主题爬虫的设计理念是利用最少的资源,尽可能快而准确地抓取网络中用户关心的网页,目前已经有着非常广泛的应用.首先,了解主题爬虫提出的历史背景及当前国内外的发展状况,分析与主题爬虫设计相关的技术知识,如HTTP协议、HTML解析、中文分词等.其次,提出使用向量空间模型进行主题相关度计算.为了能够充分利用网页中丰富的启发式信息,综合运用了网页内容分析和网页链接分析技术.最后,基于对主题爬虫设计与实现方法的研究,使用Java开发一个多线程主题爬虫.  相似文献   

6.
面向主题Crawler的设计与实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎所搜索到的结果过多,与主题相关性不强的情况,提出了面向主题的搜索引擎,文章以主题相关度为核心研究和设计了主题crawler,为进行主题搜索引擎的研究奠定了良好的基础。  相似文献   

7.
搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分,网络爬虫的作用显得尤为重要,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬虫。  相似文献   

8.
主题网络爬虫采用集中式体系结构,具有对单台服务器性能要求高、可扩展性差等缺点。提出了一种基于Hadoop的分布式主题网络爬虫架构,通过将主题网络爬虫部署在分布式集群中的不同机器,运用MapReduce编程模型对数据进行抓取分析,使不同机器共同完成对指定任务的抓取工作。实验证明,采用分布式架构,通过动态调节分布式集群中的节点个数,能够明显改善主题网络爬虫的抓取效果。  相似文献   

9.
收集现存于网络中的信息,对其进行加工、处理使其成为可用的学习资源是网络学习资源建设中一项重要工作,主题网络爬虫为在网络学习资源建设过程实现信息的自动收集提供了可能,本文以此为基础设计了一个能满足资源建设需要的网络学习资源收集平台并对设计过程中的关键问题进行了分析。  相似文献   

10.
由于通用搜索引擎返回的信息过多且主题相关性不强,使部分企业未能及时获取高校招标公告,错失中标机会。针对这种情况,提出了高校招投标公告主题爬虫的设计方法。爬虫首先通过主题确立、网页聚类,将高校招投标公告聚集页面存储起来,然后爬虫每日从高校招投标聚集页面采集最新公告。实验结果表明,该爬虫能及时更新高校招投标公告且准确率较高,较好地为高校招投标信息网站建设提供数据来源。  相似文献   

11.
随着就业压力日渐增加,准确全面地获取数据可以帮助高校学生规避就业风险、正确认识自身价值,具有相当重要的研究价值。基于Python的网络动态招聘数据抓取方案利用requests库抓取Ajax异步请求多页数据源,抓取的内容更为全面;对抓取到的招聘数据进行统计分析,对多线程效率进行对比分析,显示爬虫具有良好的适应性。该方案抓取的网络资讯在科研、求职等方面具有一定实用价值。  相似文献   

12.
语文老师在作文教学中,要培养学生审题意识,使学生养成审题习惯,教会学生掌握审题步骤。作文审题有四个步骤:(一)初读题目,找出关键词,并思考关键词的内涵,从中揣摩命题意图;(二)读提示语或材料,弄清写作对象、范围和重点;(三)根据题目以及提示语或材料,构思立意;(四)根据题目的要求或暗示,选择适当的文体。  相似文献   

13.
教育关系到社会的每个群体,教育问题更容易引起社会的广泛关注。许多人习惯在一些热点论坛中进行教育类问题的咨询和留言,这些留言中包含了广大群众关注的热点。如果能够及时获取这些热点教育问题并做出相应的政策调整,将会极大地提高教育质量和效果。在实际工作中尝试通过爬虫程序获取某市寄语市长网站中近三年的教育类留言,统计出群众留言中的高频词语并绘制词云,获得社会关注的热点教育问题,从而为教育教学改革提供依据和参考。  相似文献   

14.
系统运用Python语言克服新浪微博反爬虫问题,使用Scrapy框架实现了高效、稳定的微博用户信息爬虫程序,全面获取用户在微博中的基本信息,并导入Neo4j图数据库和Echarts数据可视化库进行人物关系分析和挖掘。此外,系统针对微博中存在大量“网络水军”的现状设置了过滤选项,可以有效排除“网络水军”非正常行为对分析结果的影响。系统调试结果表明,系统能够实现对特定微博下转发、评论用户信息的实时、稳定、高效采集与分析,有效帮助人们从海量数据中提取复杂的关联关系,简洁、直观地分析微博用户之间的交互关系。  相似文献   

15.
在篇章语言学的信息分析中,主题分析具有与主位分析不同的意义。并且,主题分析对于隐喻语篇存在特殊意义,因为主题和概念隐喻是隐喻语篇建构和识解的重要手段。主题分析帮助人们认知隐喻语篇:从创作角度,概念隐喻建构文学作品的基本主题;从识解角度,文学作品的基本主题的关系是隐喻。  相似文献   

16.
为了深入挖掘与分析在线课程评论文本,探索学习者参与在线课程学习时关注的话题及其情感态度,为提高在线课程质量提供帮助。首先采用词频分析方法,实现对学习者在线课程评论内容的整体认识|然后利用非监督学习方法潜在狄利克雷分布主题模型对评论文本信息的特征结构、语义内容进行自动挖掘和分析,得到学习者的关注话题|最后对每个话题的课程评论文本进行情感倾向分析,得到学习者的情感倾向分布。实验结果表明,在参与课程学习的过程中,学习者主要关注教师授课、课程内容和学习资源 3 个话题。情感分析结果显示,学习者对于该课程普遍表示满意和赞赏,但是对于该课程学习资源表达了较多负面情感。  相似文献   

17.
李萍  刘小芳 《海外英语》2011,(9):364-366
This paper explores how the Chinese college students’ life is represented in some graffiti collected in campus.The article analyzes and compares the topics of graffiti from different settings and the linguistic features they manifest.The findings show that fewer graffiti from female toilet and classroom in this university pay attention to political issues compared with the graffiti abroad.Graffiti in female toilet mainly focus on the theme of love,and are found to be more interactive in discourse.Whereas graffiti on desks tend to cover mixed themes and be less interactive.There are more graphic graffiti and exam answers on the undergraduate students’ desk than on the postgraduates’.Graffiti have some linguistic features as thematization,repetition and salience,etc.  相似文献   

18.
为了对新闻媒体平台的重大事件进行话题演化建模分析,基于隐含狄利克雷分布(LDA主题模型算法)对话题动态建模,在变分推断主题模型基础上建立衡量话题内容和热度变化的流行话题模型(TTM-OLDA)。针对用户关注的重大新闻事件发展方向与热度,提出话题内容向量与流行因子,对整个话题生命周期进行量化,从而有效地从大量相关新闻中挖掘出话题演化细节,帮助用户更好地掌握话题发展情况。在特定新闻板块筛选的数据集下,通过设置对比实验和人工评测方式,验证该方法在困惑度上优于在线主题模型算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号