Web新闻正文信息抽取技术研究 |
| |
引用本文: | 彭同坠.Web新闻正文信息抽取技术研究[J].科教文汇,2008(36):278-278. |
| |
作者姓名: | 彭同坠 |
| |
作者单位: | 兰州交通大学光电技术与智能控制实验室,兰州·甘肃,730070 |
| |
摘 要: | 信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。
|
关 键 词: | 中文信息处理 包装器 新闻页面 信息抽取 |
本文献已被 维普 万方数据 等数据库收录! |
|