首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于规则引擎的大规模网页信息抽取平台设计与实现
引用本文:任宪臻,朱义.基于规则引擎的大规模网页信息抽取平台设计与实现[J].北京城市学院学报,2010(5).
作者姓名:任宪臻  朱义
摘    要:信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.

关 键 词:信息抽取  规则引擎  富客户端平台  增量爬取

Design and Implementation of Web Information Extraction Platform Based on Rule Engine
REN Xianzhen,ZHU Yi.Design and Implementation of Web Information Extraction Platform Based on Rule Engine[J].Haidian University Journal,2010(5).
Authors:REN Xianzhen  ZHU Yi
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号