首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
随着信息技术的不断发展,互联网上的数据类型越来越多,信息量以几何级增长,庞大的数据给人们的生活带来便利的同时也给信息的查找带来了巨大的挑战。搜索引擎的通用网络爬虫越来越难以胜任越来越大规模的数据抓取任务。本文设计了一个分布式架构的主题网络爬虫,能快速、准确、稳定的抓取特定领域的信息。  相似文献   

2.
基于主题爬虫的个性化搜索引擎技术,借鉴Web个性化推荐服务思路,改善了以搜索引擎为代表的Web信息检索系统服务方式,有效地解决了Internet上"资源过载"和"信息迷失"的问题,相对满足了用户的需求。概述了网络爬虫和个性化搜索引擎,并对基于主题爬虫的个性化搜索引擎技术进行了介绍研究。  相似文献   

3.
面对数据大爆炸,人们很难获取有用的信息。网络爬虫技术成为了搜索引擎中最为重要的部分,能够有效的在海量数据中找到有价值的信息。首先介绍网络爬虫的抓取对象和抓取策略,然后介绍最常见的网页分析算法——Pagerank算法,最后通过实例实现网络爬虫。实例结果表明,网络爬虫能够准确的从海量数据中抓取有用信息。  相似文献   

4.
介绍了网络爬虫技术的运行原理,分析了作为搜索引擎核心技术的通用网络爬虫的搜索策略,进而实现了采用两种搜索策略的网络爬虫,并在互联网中进行了信息爬取,最后比较总结了两种搜索策略的技术特点及优化研究方向。  相似文献   

5.
在现代不管是社会的发展还是经济的发展,都会用到我们不断丰富和发展的网络信息资源,因为我们的网络信息资源是不断丰富和发展的。许多用户在面对纷扰杂乱的信息资源,在这时,人们为了方便,并且为了让用户迅速准确的找到自己想要的信息资源,就有很多人发明了网络检索工具,这样,就诞生了大量搜索引擎工具,搜索引擎是不可缺少的搜索工具之一,因为它可以帮助我们检索到大亮点网络信息资源。但是,像那种简单网页检索已经满足不了用户者的要求了。近几年来,我们急速发展的搜索引擎进入新一轮的快速发展时期,为了满足广大用户者的各种各样的需求,我们需要进一步提升我们快速发展的搜索引擎,将我们的搜索引擎作为我们互联网的入口,提升搜索引擎的地位,由于广大用户者的急切需求,国内各种各样的搜索引擎研发商的服务呈现更加多元化的发展趋势。例如文档搜索引擎正是可以满足我们广大用户者的需求,这一搜索引擎可以满足用户多元化需求的重要的应用之一。  相似文献   

6.
王真  刘海燕 《黑龙江科技信息》2011,(18):106+221-106,221
随着互联网的不断发展,搜索引擎现在已成为网络用户获取信息的一个不可或缺的检索工具。就搜索引擎的概念、评价指标及检索机制、分类、各种搜索引擎的比较以及它在网络信息检索中的作用进行了介绍。  相似文献   

7.
杨志 《现代情报》2007,27(9):134-137
随着网络信息量的急剧增长,人们习惯运用各种搜索引擎在海量互联网信息资源中来查找所需的信息,但查寻的结果往往不尽人意。本文通过利用不同主题范围的检索词在中英文搜索引擎检索的结果,对元数据标签Keywords在网页中的应用情况进行了调查和分析。并就提高搜索引擎的检索效率提出自己的一些建议。  相似文献   

8.
搜索引擎为网络用户检索海量信息提供了便利,本文从扩大检索范围、提高查全率以及缩小检索范围、提高查准率着手进行了搜索引擎检索策略的调整研究。  相似文献   

9.
搜索引擎研究新技术   总被引:2,自引:0,他引:2  
介绍了近期两类国内搜索引擎技术的研究状况:爬虫系统性能优化技术研究及高级文件搜索引擎核心技术研究。爬虫系统性能优化侧重于:对爬行方式的优化实现海量信息源的高效索引;对URL数据库存取算法的优化提高用户检索的响应速度。高级文件搜索引擎研究是通过对字符串匹配的扩展、属性过滤的扩展、查询结果优化排序、输出结果的优化选择等7种核心技术的有效结合,丰富了文件搜引擎的功能。  相似文献   

10.
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一,它的性能直接决定了在庞大的互联网上进行网页信息采集的质量.文章对网络爬虫相关技术以及聚焦网络爬虫的特点进行了分析和探讨.  相似文献   

11.
从用户角度评价网络搜索引擎   总被引:3,自引:0,他引:3  
王炼 《情报科学》2005,23(3):457-463
随着互联网的广泛应用,搜索引擎成为了越来越多的用户从海量信息中获取知识必不可少的工具,利用哪些搜索引擎以及怎样利用它们才能获得更多、更准确的信息成为网络用户所关心的问题。本文试从网络用户的角度介绍、分析和讨论互联网搜索引擎,结合历史和现状具体讨论了查全率和查准率以及相关性问题,从选择搜索引擎、使用搜索引擎、认识搜索结果和用户负担几个方面建立评价标准。  相似文献   

12.
在物联网技术迅速发展的背景下,网络数据呈现出爆炸式增长,对数据的应用需要在大量数据中记性挖掘搜索,搜索引擎结合这一需求就应运而生,不只是搜索数据信息,还要帮助人们找到需要的结果被人们所应用。信息数据的处理就需要爬虫技术加以应用来收集网络信息,基于此,本文先就爬虫技术的类型和发展趋势加以阐述,然后就大数据领域中爬虫技术实际应用方法详细探究,希望能从理论的研究下,为爬虫技术的应用推广起到促进作用。  相似文献   

13.
徐险峰 《现代情报》2004,24(5):72-74
随着互联网上图像信息的急剧膨胀,用户对网上图像信息的检索要求也在不断增长,于是各种基于Web的图像搜索引擎应运而生。本文着重阐述了图像搜索引擎的涵义、识别图像的方法以及检索途径,并对一些主要的中、英文图像搜索引擎做了简单介绍。  相似文献   

14.
随着互联网的不断发展,搜索引擎现在已成为网络用户获取信息的一个不可或缺的检索工具.搜索引擎目前存在诸多问题,例如查全率和查准率、功能问题、作弊问题、安全性问题、信息更新问题、规范化问题等.本文就这些问题进行一些探讨.  相似文献   

15.
网络爬虫是搜索引擎的一个基本组件,网络爬虫抓取页面的效率直接影响搜索引擎提供的服务质量。除了可以通过改进网络爬虫的爬行策略来提高网络爬虫效率之外,也可以通过优化网络爬虫程序某方面的设计来消除特定的效率瓶颈。通过对网络爬虫结构和实际运行数据的分析,针对爬虫的DNS解析瓶颈,设计了一种带缓存异步域名解析器模型,并通过实验和一般DNS解析器模型进行了比较,实验结果证明这种模型对于减少程序等待解析域名的这一操作时间十分有效,显然也能够提高爬虫的整体效率。  相似文献   

16.
随着互联网信息量呈现指数级增长,人们希望搜索引擎能够把用户最关心的信息排在前面以方便浏览。本文提出了一种基于分类特征选择的信息检索结果重排序方法,将分类特征与其它检索特征融合在一起,在保持分类搜索引擎结果文档召回率的前提下,该方法有效地提高了检索结果的平均准确率。  相似文献   

17.
网络搜索引擎在网络信息资源查找中起到了重要的作用,它可以帮助人们从浩如烟海的网络信息中找到自己想要的信息。但是现在的搜索引擎技术并不完善,存在大量内容相同的冗余网页。冗余网页不但浪费了存储资源,还给用户的检索带来诸多不便。本文描述了一个搜索引擎去重Agent系统,由系统代替用户对搜索引擎结果页面进行信息抽取,对获得结果进行对比,并去除其中内容重复的冗余网页,将去重后的结果提供给用户,从而为用户节省时间和精力。  相似文献   

18.
搜索引擎技术及研究   总被引:11,自引:0,他引:11  
张兴华 《现代情报》2004,24(4):142-145
网络信息的大量增加,用户要在如此浩瀚的信息海洋里寻找所需信息,就象大海捞针,无从下手,搜索引擎(Search Engine)正是为了解决这个“迷航”问题而出现的技术。本文从目录式搜索引擎、机器人搜索引擎、元搜索引擎等进行了区分,并对搜索引擎的组成即信息采集器(spider或Crawler)、索引数据库(lndex database)和检索索引库的检索软件(Search engine software)和用户接口四部分的工作机理进行了探讨。同时对搜索引擎的检索技巧即:布尔逻辑检索、字符串(短语)检索、截词检索、限制检索、搜索引擎的特殊检索功能及智能代理的信息过滤和个性化服务、提高信息检索结果的精度,有效性、采用分布式体系结构提高系统规模和性能、重视交叉语言检索的研究和开发等发展趋势等进行了探讨。  相似文献   

19.
于宁  庞海燕 《现代情报》2009,29(6):159-160,166
Scirus与Google Scholar是两个专业学术搜索引擎,为用户提供互联网上的专业学术信息。本文对Scirus与GoogleScholar进行了介绍并对二者信息来源、检索功能、检索实例等方面进行了比较分析。  相似文献   

20.
专题搜索引擎也称垂直搜索引擎,主要用来满足特定领域的用户需求。Heritrix是开源的网络爬虫,Heritrix的WebUI启动方式并不易用于广大用户。本文改变了往常对Heritrix用法,摒弃了Heritrix的WebUI启动方式,对Heritrix源码进行修改,将Lucene整合到Heritrix中,构建成一个完整的搜索引擎,并通过监听器监听搜索引擎状态,使搜索引擎能够进行自动爬取和数据更新。同时,本文添加了网页过滤模块以及对查询结果排序算法进行了改进,提高了搜索引擎的易用性和查询的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号