首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于熵的新闻网页抽取方法的研究
引用本文:朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007,2(4):48-51.
作者姓名:朱红灿  龙朝阳
作者单位:湘潭大学管理学院,湘潭,411105
摘    要:为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。

关 键 词:信息抽取  信息块  DOM
收稿时间:2007-02-05
修稿时间:2007-02-05

An Entropy-Based Approach for News Article Extraction from Web Page
Zhu Hongcan,Long Zhaoyang.An Entropy-Based Approach for News Article Extraction from Web Page[J].New Technology of Library and Information Service,2007,2(4):48-51.
Authors:Zhu Hongcan  Long Zhaoyang
Institution:Management School of Xiangtan University, Xiangtan 411105, China
Abstract:In this paper,an approach for news article extraction from Web page is proposed and this approach applies information theory to DOM tree. Experiment on several news Web sites shows that it is practical.
Keywords:DOM
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《现代图书情报技术》浏览原始摘要信息
点击此处可从《现代图书情报技术》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号