期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上，通过实验分析，发现超链接的主题主要取决于三个因素：父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性，从而提出了基于Web页面内容和链接结构的超链接主题预测算法，系统评价结果显示该算法有很好的效果。相似文献

13.

数字图书馆Web 学术资源信息的分块采集研究

王兰成朱建华《中国科技资源导刊 (中国信息导报)》2012,(6):76-80

在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。相似文献

14.

Web数据挖掘及其在数字图书馆中的应用 总被引：4，自引：0，他引：4

刘丽《中国科技资源导刊 (中国信息导报)》2003,(12):37-38

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是有用的信息和知识的过程。Web数据挖掘是数据挖掘技术在网络信息处理中的应用。它是从Web资源中抽取有用信息或知识的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。Web数据挖掘技术是一项综合技术,涉及Web技术、人工智能、计算机语言学、信息学、统计学等多个领域。相似文献

15.

网络舆情信息提取与预处理研究

陈桂鸿曹树金陈忆金《图书情报知识》2011,(6):50-54

本研究针对舆情信息源特征就舆情信息增量采集、提取和存储、文本信息预处理提出了基于Web—Harvest的定点信息采集以及基于输入法平台的新词收集策略,构建了一个互联网用语扩展词库,实现了信息预处理关键模块。相似文献

16.

大数据技术时代的农业信息资源共享

李晓静臧运平《中国科技资源导刊 (中国信息导报)》2013,(6):41-44

在分析大数据时代农业信息资源特点的基础上,考察大数据技术在农业信息资源共享方面的利用价值,从农业信息处理的4个方面,即信息采集-信息存储-信息挖掘-信息利用,介绍大数据技术在农业信息资源共享中的应用。这有助于实现农业信息资源的有效开发与高效利用,加快农业信息化的进程。相似文献

17.

论互联网新媒体档案信息资源的建设与服务

王兰成刘晓亮黄永勤《档案与建设》2014,(1)

文章面向互联网新媒体档案信息资源建设与服务,介绍了新媒体数字档案馆的主要特征,阐述了新媒体档案信息资源建设的来源构成与特点,分析探讨了新媒体网上档案信息资源开发建设中的信息采集、信息处理和信息服务等相关方法、技术及其研究重点,为改进与完善现有档案信息化工作的方法模式提供借鉴与参考。相似文献

18.

面向Deep Web的动态竞争情报智能采集策略 总被引：1，自引：0，他引：1

张玉峰吴金红王翠波《情报学报》2008,27(4)

企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键.Web资源可分为surface Web和Deep Web.Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息.针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略. 相似文献

19.

Web网页识别算法研究 总被引：7，自引：1，他引：6

韩彬斌王培康《情报学报》2001,20(1):77-81

WWW上的文本信息挖掘工作是网络信息处理领域的新课题。本文研究了两种机器学习算法———Rocchio算法和Widrow Hoff算法在Web网页识别领域中的应用 ,并对几种网页识别算法进行了比较分析相似文献

20.

面向开放互操作环境的本体存储库研究*

潘定潘琰《现代图书情报技术》2006,1(7):15-19

提出一种新颖的本体存储库系统体系结构，支持在大型开放企业环境中的语义信息共享。采用文档方式SOAP Web服务的松耦合机制实现应用程序、用户对本体的存取。系统使用本体Web服务(OWS)封装对本体的操作功能，支持概念的平滑转换，自动检验本体的完整一致性。原型实验显示系统对支持智能信息处理的可行性。相似文献