共查询到19条相似文献,搜索用时 46 毫秒
1.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。 相似文献
2.
3.
4.
Web Archive的采集策略研究 总被引:4,自引:0,他引:4
通过总结目前国际上Web Archive中常用的三种采集策略:完整性采集、选择性采集和混合型采集,对比分析各种采集策略的特点、关键问题和代表性的项目,最后分析选择采集策略需要考虑的关键因素,并提出一般性的建议。 相似文献
5.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进
行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能
够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。 相似文献
6.
Web资源采集策略评析与思考 总被引:1,自引:0,他引:1
Web资源的采集是目前业界讨论的焦点问题之一,各国都在积极探索Web资源采集的策略。本文围绕Web空间的划定、采集方式、采集频率等三个问题,对国际Web资源采集的各种策略进行了评析,并对制定我国Web资源采集策略提出了几点建议。 相似文献
7.
为解决图书馆采集网络Web信息资源、组织专题数据库的迫切需求,通过对自动采集、入库关键技术,特别是URL地址转换的难点分析,指明了Web信息资源自动采集、入库的原理和思路,并以国家图书馆网站采集实例说明了自动采集、入库的过程。 相似文献
8.
Web信息检索的关键技术 总被引:6,自引:0,他引:6
霍艳蓉 《现代图书情报技术》2002,18(6):31-32
Web上大量的、分布的、动态的信息造成了“信息过载”,如何在传统信息检索技术的基础上开展检索工作已经成为一项重要的研究课题。本文简要对Web检索技术进行了介绍,总结了其现存的缺陷,并且阐述了目前基于Web信息检索的一些关键技术。 相似文献
9.
10.
11.
12.
13.
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。 相似文献
14.
详细介绍一种生物主题爬虫的设计及实现方案, 通过优化初始种子模块、主题相关度分析模块、排序模块等四个模块的共同运行实现对网页信息的处理。用高效的主题爬虫取代传统搜索引擎中的普通爬虫, 为实现更准确的信息采集提供良好基础。 相似文献
15.
16.
知识搜索引擎是在Web2.0环境下产生的新一代互动式知识搜索系统,其组织体系主要有两大特点:在知识组织过程中重视"人"的因素,在主题检索机制中引入分类组织的思想。这两点在国内三大知识搜索引擎——百度"知道"、新浪"爱问知识人"、雅虎"知识堂"都有不同程度的体现。 相似文献
17.
通过计算网络影响因子对站点进行评价,着重介绍网络影响因子(WIF)在网络计量学中的具体应用。利用搜索引擎AltaVista对中国知名大学网站WIF的测评及其改进进行分析,并就网络影响因子作为网站评价工具的客观性问题进行了探讨。最后介绍了几种增加WIF可靠性的方法。 相似文献
18.
通过计算网络影响因子对站点进行评价,着重介绍网络影响因子(WIF)在网络计量学中的具体应用。利用搜索引擎AltaVista对中国知名大学网站WIF的测评及其改进进行分析,并就网络影响因子作为网站评价工具的客观性问题进行了探讨。最后介绍了几种增加WIF可靠性的方法。 相似文献
19.
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术.以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11 700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀. 相似文献