首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

2.
面向主题的Web信息融合模型   总被引:1,自引:0,他引:1  
评述国内外现有Web信息融合的研究成果,分析其中存在的主要问题与不足。针对现有Web信息融合对多维度、多粒度综合查询分析和决策支持不足的问题,分析面向主题的Web信息融合的基本原理,设计面向主题的Web信息融合模型,该模型由Web仓库模型、Web信息融合功能模型和人机交互接口三层组成,并探讨各层工作原理和需要实现的关键技术,最后给出原型系统实现及融合查询示例。  相似文献   

3.
4.
Web Archive的采集策略研究   总被引:4,自引:0,他引:4  
通过总结目前国际上Web Archive中常用的三种采集策略:完整性采集、选择性采集和混合型采集,对比分析各种采集策略的特点、关键问题和代表性的项目,最后分析选择采集策略需要考虑的关键因素,并提出一般性的建议。  相似文献   

5.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

6.
Web资源采集策略评析与思考   总被引:1,自引:0,他引:1  
Web资源的采集是目前业界讨论的焦点问题之一,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题,对国际Web资源采集的各种策略进行了评析,并对制定我国Web资源采集策略提出了几点建议。  相似文献   

7.
陈天文 《图书馆学刊》2010,32(10):100-102
为解决图书馆采集网络Web信息资源、组织专题数据库的迫切需求,通过对自动采集、入库关键技术,特别是URL地址转换的难点分析,指明了Web信息资源自动采集、入库的原理和思路,并以国家图书馆网站采集实例说明了自动采集、入库的过程。  相似文献   

8.
Web信息检索的关键技术   总被引:6,自引:0,他引:6  
Web上大量的、分布的、动态的信息造成了“信息过载”,如何在传统信息检索技术的基础上开展检索工作已经成为一项重要的研究课题。本文简要对Web检索技术进行了介绍,总结了其现存的缺陷,并且阐述了目前基于Web信息检索的一些关键技术。  相似文献   

9.
本文阐述了面向主题信息服务的发展方向,分析了垂直搜索引擎的特点,提出了面向主题信息服务的垂直搜索引擎的模块设计。  相似文献   

10.
Web页面中文文本主题的自动提取研究   总被引:13,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

11.
乔建忠 《图书情报工作》2011,55(13):108-146
主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。  相似文献   

12.
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。  相似文献   

13.
乔建忠 《图书情报工作》2013,57(14):114-120
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。  相似文献   

14.
任辉 《图书情报工作》2009,53(9):105-107
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。  相似文献   

15.
网络信息检索展望   总被引:34,自引:3,他引:31  
概括性地分析了目前一些新兴的网络检索摸式, 综合性地介绍了一些资深网络服务和技术专家的观点, 从而对网络检索未来进行了一定程度的描绘和预测。  相似文献   

16.
知识搜索引擎是在Web2.0环境下产生的新一代互动式知识搜索系统,其组织体系主要有两大特点:在知识组织过程中重视"人"的因素,在主题检索机制中引入分类组织的思想。这两点在国内三大知识搜索引擎——百度"知道"、新浪"爱问知识人"、雅虎"知识堂"都有不同程度的体现。  相似文献   

17.
通过计算网络影响因子对站点进行评价,着重介绍网络影响因子(WIF)在网络计量学中的具体应用。利用搜索引擎AltaVista对中国知名大学网站WIF的测评及其改进进行分析,并就网络影响因子作为网站评价工具的客观性问题进行了探讨。最后介绍了几种增加WIF可靠性的方法。  相似文献   

18.
通过计算网络影响因子对站点进行评价,着重介绍网络影响因子(WIF)在网络计量学中的具体应用。利用搜索引擎AltaVista对中国知名大学网站WIF的测评及其改进进行分析,并就网络影响因子作为网站评价工具的客观性问题进行了探讨。最后介绍了几种增加WIF可靠性的方法。  相似文献   

19.
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术.以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11 700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号