首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在分析网站结构的基础上,采用Python语言,设计正则表达式,分析获取网站具体数据页面的链接,进而对其中的资源进行数据抓取。正则表达式能有效地抓取需要的数据,是大数据采集的一种较好的解决方案。  相似文献   

2.
在信息爆炸的电子商务时代,利用Web数据挖掘可以迅速从海量数据中获取有利于商业运作和提高竞争力的信息。文章在介绍Web数据挖掘概念和常用技术的基础上,阐述了其在零售业电子商务领域的应用。  相似文献   

3.
当今社会信息化进程日新月异,心理学研究过程中涉及的因素和积累的数据越来越多,传统的心理学分析方法已经无法适应海量数据处理的要求。数据挖掘技术可以从海量数据中分析并获取有效的信息。本文介绍了数据挖掘技术基本概念、主要任务和方法,阐述了其在心理学研究领域应用的一般过程。  相似文献   

4.
海量的网络媒体信息使得人们在有限的时间内难以全面地掌握一些话题的信息,这样容易导致部分重要信息的遗漏。话题检测与追踪技术正是在这种需求下产生的。这种技术可以从庞大的信息集合中快速准确地获取人们感兴趣的内容。近几年,话题检测与追踪技术已成为自然语言处理领域热门的研究方向,它能把大量的信息有效地组织起来,并使用相关技术从中挖掘出有用的信息,用简洁有效的方式让人们了解一个事件或现象中所有细节以及它们之间的相关性。对话题跟踪的研究背景、相关概念、评测方法以及相关技术进行了综述,并总结了当前的相关技术。  相似文献   

5.
基于Web的数据挖掘方法的研究及实现   总被引:2,自引:0,他引:2  
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。  相似文献   

6.
因特网上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XMLJ、AVA的新型数据挖掘技术。  相似文献   

7.
随着Internet的迅猛发展和日益普及,电子信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学领域面临的一大挑战。对Internet中的海量信息的处理进行了研究,探讨了海量信息的优化处理方法及其查询优化,在一定程度上提高了用户从海量信息获取有用信息的效率。  相似文献   

8.
Web数据挖掘技术及其应用   总被引:1,自引:0,他引:1  
Web数据挖掘是应用数据挖掘技术在Web数据中发现和获取有用信息的过程。介绍了Web数据挖掘的原理、应用与实现。  相似文献   

9.
在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采集体系。通过对多监测点海洋数据的处理实例表明,基于网页列表页的抽取算法有效地抽取到了准确数据项,解决了嵌套数据记录、自动抽取和多台计算机协同工作问题,提高了数据采集效率。  相似文献   

10.
化学教育信息资源网络导航系统开发   总被引:1,自引:0,他引:1  
在化学的研究和学习中,为了更好地查询和利用Internet上的化学资源,需要提供一个快捷、方便的网络资源指南.化学教育信息资源导航系统搭建了基于数据的Web平台,满足化学资源分类利用的需求,系统收集、整理和筛选了几百个网站,并对所链接的网站作了相关介绍,旨在方便对因特网信息资源的智能性获取.  相似文献   

11.
系统运用Python语言克服新浪微博反爬虫问题,使用Scrapy框架实现了高效、稳定的微博用户信息爬虫程序,全面获取用户在微博中的基本信息,并导入Neo4j图数据库和Echarts数据可视化库进行人物关系分析和挖掘。此外,系统针对微博中存在大量“网络水军”的现状设置了过滤选项,可以有效排除“网络水军”非正常行为对分析结果的影响。系统调试结果表明,系统能够实现对特定微博下转发、评论用户信息的实时、稳定、高效采集与分析,有效帮助人们从海量数据中提取复杂的关联关系,简洁、直观地分析微博用户之间的交互关系。  相似文献   

12.
随着信息技术和Web技术的发展,如何从海量的Web文本信息中找到自己所需信息已成为一个重要的研究领域。在众多信息获取方法中,聚类技术是一种被广泛应用的方法。总结了文本聚类算法的研究现状,比较了算法的主要差异和整体思想,并分析了各种方法的优劣,同时指出了文本聚类研究今后的发展趋势,即在粒子群聚类过程中融入其它传统聚类方法的思想,以提高聚类性能。  相似文献   

13.
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题.  相似文献   

14.
旅行时间是交通系统中一个重要的测量指标,精确的旅行时间预测对智能交通系统和先进交通信息系统发展有重要意义。数据采集技术为旅行时间计算提供了海量实时交通数据,如何利用海量实时交通数据精确且快速预测旅行时间成为当前旅行时间研究中的一个热点问题。基于海量的车牌识别数据,在Hadoop框架下,用MapReduce编程模型,应用卡尔曼滤波法实现对路段旅行时间的预测,和其它算法对比,该算法预测准确性有显著提高。  相似文献   

15.
在电子商务网站的Web日志中,蕴含着大量有价值的信息,利用Web挖掘技术能够有效获取这些信息,这将有助于提高电子商务运营管理的经营决策,在Web挖掘研究过程中,结合Web日志具有的数据量大,不确定等特点,提出了一种基于粗集理论的最小决策模型,运用这一模型,通过对决策表进行知识简化,可以导出简化决策有,最后获得最小解,电子商务系统的决策人员就可以依据得到的最小解,为提供个性化服务进行决策,应用基于粗集理论的数据挖掘方法,对Web日志进行挖掘,已经成为当前研究的热点问题。  相似文献   

16.
Web信息检索使人们能够在海量信息中找到所需信息,但由于自然语言多义性和用户检索时检索词的模糊性、不准确性,导致信息检索系统反馈结果往往不能完全满足用户需求。分析信息资源特点及Web信息检索基本原理、相关反馈技术,探讨信息检索模型中的相似度计算方法及查询扩展、检索结果过滤与重排、信息推荐服务、检索技术。  相似文献   

17.
随着大数据时代的到来,为了快速地获取有价值的数据及发掘蕴含在数据背后的信息,研究人员对数据可视化技术进行了大量研究。通过文献分析,研究了数据可视化的发展历程,探索了常用的几种数据可视化工具,重点介绍了Python的优势。同时基于高中信息技术教材,通过实例探究,呈现了通过Python实现文本数据及数值数据可视化的优势,旨在为数据可视化提供参考。  相似文献   

18.
为实现远程数据采集需求,提出了一种综合应用嵌入式Web服务技术和ZigBee技术的远程数据采集系统设计方案,并完成了系统软硬件设计。ZigBee传感器网络实时采集现场数据,并通过串行总线与嵌入式Web服务器通信,实现数据上传,远端用户通过Ineternet浏览器访问嵌入式Web服务器,获取远程实时数据。经实例验证,该系统具有实时和高效的优势,且运行维护成本较低。  相似文献   

19.
网络上存在众多新闻门户网站,新闻信息繁多,造成严重的新闻信息过载。针对该类问题,设计一个基于Python的网络新闻信息搜集与检索系统。该系统通过使用Scrapy网络爬虫框架进行网络新闻信息搜集,同时对新闻链接、标题进行去重,最后使用Slor检索服务对爬虫获得的新闻数据进行全文检索。与传统方法相比,该系统设计的去重方法在保证链接不重复的情况下,对标题进行去重,并引入Solr检索服务,可以帮助读者更快速地找到想要阅读的新闻。  相似文献   

20.
本文介绍了一种基于智能移动终端、GPS、GIS和3G技术的水利防汛移动助手系统。该系统使用外置蓝牙GPS或内置GPS装置获取当前定位信息,并在智能移动终端中应用GIS系统进行地图标绘,通过移动传输网络将位置和现场相关数据传送至服务器,服务器对数据进行分析与存储,再将指挥指令和业务数据回传至智能移动终端,从而实现移动终端和服务器数据的实时交互。智能移动终端作为数据采集器可以进行汛情和工情信息的及时采集,服务器则对终端的位置和回传数据进行接收、查看、分析,为辅助决策提供可靠的数据依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号