基于规则引擎的大规模网页信息抽取平台设计与实现 Design and Implementation of Web Information Extraction Platform Based on Rule Engine期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于规则引擎的大规模网页信息抽取平台设计与实现

引用本文：	任宪臻,朱义.基于规则引擎的大规模网页信息抽取平台设计与实现[J].北京城市学院学报,2010(5).

作者姓名：	任宪臻朱义

摘要：	信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.
关键词：	信息抽取规则引擎富客户端平台增量爬取
Design and Implementation of Web Information Extraction Platform Based on Rule Engine

REN Xianzhen,ZHU Yi.Design and Implementation of Web Information Extraction Platform Based on Rule Engine[J].Haidian University Journal,2010(5).

Authors:	REN Xianzhen ZHU Yi

Abstract:

Keywords:
本文献已被万方数据等数据库收录！