首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于HTML文档结构的向量空间模型的改进
引用本文:胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437.
作者姓名:胡健  陆一鸣  马范援
作者单位:上海交通大学计算机科学与工程系,上海,200030
基金项目:国家自然科学基金重大国际合作项目(60221120145)资助
摘    要:根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能。实验结果表明,PFTF模型对于这两个方面都有提高。

关 键 词:HTML文档结构  信息检索  向量空间模型  链接文本  TREC
修稿时间:2004年11月1日

Vector Space Model Based on HTML Document Structure
Hu Jian,Lu Yiming,Ma Fanyuan.Vector Space Model Based on HTML Document Structure[J].Journal of the China Society for Scientific andTechnical Information,2005,24(4):433-437.
Authors:Hu Jian  Lu Yiming  Ma Fanyuan
Abstract:According to the text term distribution and content representing ability of different fields of HTML document we propose an improved Vector Space Model (PFTF Model) and compare the retrieval performance of the classical Vector Space Model with that of the PFTF Model by the experiments of a single field and multiple document representations combination using the queries of trec12. The results of these experiments show that the performance of PFTF Model is better than that of traditional model.
Keywords:html document structure  information retrieval  vector space model  anchor text  TREC    
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号