首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于网页分割的Web信息检索方法
引用本文:俞扬信,产云洋. 一种基于网页分割的Web信息检索方法[J]. 图书情报工作, 2009, 53(3): 108-110
作者姓名:俞扬信  产云洋
作者单位:1. 江苏淮阴工学院;2. ;
摘    要:提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。

关 键 词:网页分割  信息检索  HTML标记  相似性  
收稿时间:2008-07-14

Information Retrieval Method based on Page Segmentation
Yu Yangxin,Yan Yunyang. Information Retrieval Method based on Page Segmentation[J]. Library and Information Service, 2009, 53(3): 108-110
Authors:Yu Yangxin  Yan Yunyang
Abstract:A Web information retrieval algorithm based on web page segment is designed.The key idea is to segment each web page into different topic areas or segments according to its HTML tags and contents since web pages are semi-structure. First the algorithm builds a HTML tag tree. Then it combines nodes in the tree by using both the content similarity and visual similarity.The retrieval and ranking algorithm makes use of this segmentation information to search and order the relevant pages.
Keywords:page segment  information retrieval  HTML tag  similarity  
本文献已被 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号