共查询到17条相似文献,搜索用时 78 毫秒
1.
基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。主要探讨如何识别出能表达原查询用户意图的查询重构以及如何对识别的查询意图进行聚类两个问题。人工评测结果表明,该方法能够取得较好的实验效果。 相似文献
2.
[目的/意义] 通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程] 以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论] 实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。 相似文献
3.
4.
从Sogou查询日志中选取样本查询且进行人工标注,通过对标注后新闻查询的分析,提出能用于识别新闻意图的新特征,即查询表达式特征、查询随时间分布特征以及点击结果特征。根据这3个特征,利用决策树分类器实现查询中新闻意图的自动识别,结果发现:①新闻类查询的查询目标主要集中在特定主题信息以及娱乐类信息方面,其查询主题大多为娱乐、政治、体育与经济类信息;②相对非新闻查询,新闻查询具有更可能包含实体、随时间分布波动较大、点击结果之间相似度更高的特点;③本方法对查询中新闻意图的识别效果较好,其宏平均准确率、召回率、F值分别为 0.76、0.73、0、74。 相似文献
5.
聚类搜索引擎发展现状研究 总被引:3,自引:0,他引:3
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎功能的分析,提出“以用户为中心”的聚类2.0搜索是未来聚类搜索引擎,乃至搜索引擎的发展趋势。 相似文献
6.
7.
[目的/意义] 搜索引擎是用户访问网络资源的重要入口,识别用户搜索策略有助于发现用户搜索的认知规律,让搜索引擎更好地理解用户搜索。[方法/过程] 采用Microsoft顺序分析与聚类分析算法对用户搜索日志中的搜索时间进行分析,识别用户利用搜索引擎时普遍采用的搜索策略,并概括不同类型搜索策略的特征。[结果/结论] 用户在搜索中存在“快速消费”策略、“试探”策略、“探索”策略和“终止与确认”策略,不同策略在搜索时间、浏览次数、用户认知过程等方面表现出明显的差异。 相似文献
8.
查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能.与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展.本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度. 相似文献
9.
查询优化与动态自动聚类系统 总被引:4,自引:0,他引:4
查询优化在大型检索系统中是十分必要的。查询优化包括静态形式、结合词集的形式和动态自动聚类形式。文章概要分析了AlltheWeb、Teoma、Vivisimo、GuideBeam等动态自动聚类的特点和机制,并提出了建立动态自动聚类系统的一些建议。 相似文献
10.
[目的/意义]了解、分析和识别用户学术搜索时所表达的信息需求是优化查询结果、提高学术搜索引擎用户体验的首要步骤,而用户进行学术搜索时通过查询表达式所表达的用户表意信息需求及潜在信息需求可称之为学术查询意图。本文总结学术查询意图类目体系有助于学术查询意图识别和检索结果页面的呈现。[方法/过程]在A.Broder的查询意图类目体系的基础上,结合百度学术搜索查询日志中查询表达式实例,构建学术查询意图的类目体系。以此为基础,总结不同类别的学术查询意图,并分析不同类别学术查询意图下查询表达式的特点。[结果/结论]学术查询意图主要分为学术文献类、学术实体类、学术探索类、知识问答类和非学术文献类五大类;得出不同类别学术查询意图在学术搜索中的大致比例;给出每类学术查询意图的查询表达式特征、查询情景和查询结果页。 相似文献
11.
传统的查询扩展方法,不能从根本上消除用户查询意图与检索结果之间的语义偏差和用户查询的歧义性问题,而交互式查询扩展可以有效地帮助用户更快捷、精确地从海量的网络资源中找到所需信息,为用户提供更满意的搜索结果。综合运用文献调研和问卷调查法,从用户使用及需求情况、使用原因、评价及建议等维度对交互式查询扩展进行实证分析。提出操作方式简单化、查询扩展个性化、交互显示人性化、检索结果精确化、检索环境移动化是交互式查询扩展的研究重点和主要发展方向。 相似文献
12.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。 相似文献
13.
14.
搜索引擎查询日志的词性标注和挖掘研究 总被引:1,自引:0,他引:1
利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以“的”为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。 相似文献
15.
提出一种结合全局分析和局部分析从单篇文档中抽取查询信息的算法。利用全局分析提取用户的查询兴趣,通过局部分析消除查询词的歧义性。实验结果表明,该方法能较全面反映用户查询的上下文信息,提高查询的相关度。 相似文献
16.
基于网格的国外搜索引擎系统的比较研究* 总被引:2,自引:0,他引:2
在详细介绍国外基于网格的搜索引擎系统的研究内容和研究方法的基础上,对这些项目的研究内容和方法进行系统的比较研究,并借鉴国外基于网格的搜索引擎系统的研究成果,对我国今后的研究方向提出建议。 相似文献
17.