首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
通过梳理搜索算法中出现的各种特征因子,提出一种更全面的特征因子分类方法,按其自身特点将特征因子划分为6类,分别是文字内容特征、Web拓扑特征、主题分布特征、文档类型特征、统计特征和时效性特征,并描述各特征项对主题相关性的作用、综合运用各类特征的通用化链接优先级计算公式以及特征选取原则。  相似文献   

2.
提出同步协作检索结果的相关性判断策略及其实现算法,设计并实现检索结果的分配、检索结果的用户相关性判断、相关结果的集成和用户结果判断权重的反馈,并通过实验验证其可行性。  相似文献   

3.
主题爬行是专业搜索引擎的基础,爬行策略与爬行算法是主题爬行技术的核心,通过分析主题爬行的基本原理,对爬行策略与爬行算法进行分类比较,展示爬行策略与爬行算法的研究进展及当前研究热点,为主题爬行技术的进一步研究提供参考。  相似文献   

4.
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节。目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任务引入主题描述模型用于网页内容的主题相关性判断。从任务的主题描述模型的角度出发,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性。最后通过对比该方法在国防产品信息抽取中结果,实验证明该方法大大提高了网页信息抽取的效率和准确性。  相似文献   

5.
在总结主题爬行器的"真、假隧道"策略的基础上,提出一种解决"假隧道"问题的KBES算法。通过实验分析KBES算法能在一定程度上提高锚与链接文本在启发策略中预测新链接相关性的效率。  相似文献   

6.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search 两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。  相似文献   

7.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

8.
乔建忠 《图书情报工作》2011,55(13):108-146
主题爬行技术的应用领域不断扩大,但对主题的界定并无统一的标准。从需求的角度将现有主题爬行技术分为三种基本类型:面向内容的、面向类型的和面向网站的,分别论述它们的关键技术和典型案例。最后提出一种将各需求统一在一个框架内的组合爬行技术简称DDCFC,简要描述其定义和逻辑架构。  相似文献   

9.
乔建忠 《图书情报工作》2013,57(14):114-120
针对主题爬行技术中的单一分类算法在面对多主题Web抓取和分类需求时泛化能力不强的局限,设计一种利用多种强分类算法形成的分类器组合,主题爬行器根据当前主题任务在线评估并为分类器排名,从中选择最优分类器分类的策略,并开展在多个主题抓取任务下的分类实验,比较每种分类算法的准确率和组合后的平均分类准确率以及对分类效率等评价指标的综合分析,结果证明该策略对领域局域性有所克服,普适性较强。  相似文献   

10.
11.
林鑫  周知 《图书情报工作》2015,59(9):97-103
[目的/意义]借鉴活跃度指数的设计思想,提出一种新的标签相关性判断策略,以改善标签相关性判断的效果和策略的通用性.[方法/过程]结合标签相关性判断的特点对活跃度指数的计算方法进行改造,进而提出一种基于多次活跃度指数迭代的标签相关性判断策略,并以社会化标注社区"豆瓣电影"的67 5351位用户的标签数据为例进行实验,以验证策略的效果.[结果/结论]实验结果显示,该策略的召回率为79.6%,准确率为93.3%,均较为理想,明显优于常用的Top-N策略.同时,该策略的通用性较好,适用于视频、音频、文本等各类型媒体.因此,该策略能够较好地解决标签的相关性判断问题.  相似文献   

12.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

13.
范晴  宋震 《津图学刊》2001,(4):16-19
借助互联网促进自身发展是当前图书馆界密切关注的话题。本文通过对图书馆主页现状的分析,阐述了高校图书馆在高速住处网下建立主页的一般要求及存在问题,对如何进一步 网络化、数字化服务作了初步研究与探讨。  相似文献   

14.
E-books have yet to assume a significant place in academic library collections. This article focuses on extracting common themes from the literature that might help the reader better understand why e-books have not yet become the cornerstone of the academic library. Patrons do not use e-books because they find the experience of using e-books incongruous with their experience of using other electronic resources, and many of the unexpected limitations they encounter when using e-books are not inherent to the format. Most often, they are purposefully imposed limitations tied to digital rights management techniques. Librarians do not purchase e-books because the titles they want to acquire are often not available electronically, because they are priced or packaged in a way that makes them less appealing than their print counterparts, or because acquiring e-books does not easily integrate into their normal acquisitions workflow.  相似文献   

15.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

16.
在分析现有站点页面预取研究方法的基础之上,认为站点页面预取过程实质上就是“点击流”信息资源获取、开发与利用,而“点击流”信息资源获取、开发与利用也就是“点击流”信息不断运动的过程。针对这一信息运动过程,应用全信息理论,剖析“点击流”信息的含义与层次,并以此为基础构建“点击流”信息运动过程模型(站点页面预取原理模型),进而提出基于全信息的站点页面预取方法体系,并指明各种方法的拓展方向。  相似文献   

17.
采用提问式融合与相关反馈方法的结合,对现有的TopN文献选取策略研究和分析,提出利用相关度系数选取数量可变的TopN文献进行扩展查询的提问融合算法,即基于可变N反馈的提问融合算法。通过实验对固定N和可变N算法进行对比分析,结果显示可变N反馈在一定程度上可以改进检索性能。  相似文献   

18.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

19.
基于UCL的网页信息自动标引技术研究   总被引:1,自引:0,他引:1  
参照都柏林核心元数据规范构建网页信息的标引框架,提取网页特征信息,采用ADO技术实现网页信息的自动标引,实验结果表明,标引信息映射到网页的正确率为100%。最后,将标引技术应用到互补结构网络智能代理终端,验证UCL标引方法的有效性。实验结果显示,通过基于UCL的网页信息自动分类及标引技术能够实现信息的主动服务,满足用户的个性化需求。  相似文献   

20.
信息检索中的相关性判断和系统评价述评   总被引:1,自引:0,他引:1  
信息检索系统的效果评价是信息检索研究必不可少的环节,也是检验信息检索理论和进行方法研究的重要途径之一.本文首先从相关性理论出发,讨论了信息检索中检出文档相关性的维度和度量问题,以及等级相关性判断和大规模数据集的相关性评估方法.其次,进一步介绍了信息检索系统效果评价的基本指标查全率和查准率,并对常用评价指标MAP、Bpref等进行了比较和分析.最后,笔者认为未来信息检索系统效果评价的研究应注重将用户纳入评价体系中,使评价结果更具有真实性和实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号