共查询到16条相似文献,搜索用时 62 毫秒
1.
一种基于后缀树的Web搜索结果聚类方法 总被引:3,自引:2,他引:1
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性. 相似文献
2.
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确地定位自己想要的信息,集成了文档聚类功能的搜索引擎应运而生。本文讨论了文档聚类技术在搜索引擎中的应用问题,介绍了一些算法,重点分析了Vivisimo这个比较有代表性的聚类搜索引擎,并预测了搜索引擎聚类技术的发展趋势。 相似文献
3.
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。 相似文献
4.
一种基于SOM的中文Web文档层次聚类方法 总被引:10,自引:0,他引:10
近年来Internet迅猛发展 ,网上的信息急剧膨胀 ,如何高效、高质量地检索到用户所感兴趣的中文信息资源 ,是当前我国Internet资源发现的热点问题之一。本文将神经网络聚类方法之一SOM(Self OrganizingMap ,自组织特征映射 )的思想和方法引入中文Web搜索引擎 ,首先探讨了其网络模型和算法 ,而后提出一种聚类用户所感兴趣的中文Web文档的层次聚类方法 ,从而提高中文Web文档的检索质量 相似文献
5.
为解决搜索引擎结果繁杂而导致的浏览性不高的问题,提出一个基于用户行为学习的元搜索框架和结果聚类方法,并加以详细描述。利用该框架与方法,可以实时搜集用户行为进行推理学习,将学习到的有效知识存入知识库用以指导结果聚类,并随着用户的搜索过程不断调整完善。原型系统证明该方法是可行有效的。 相似文献
6.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法. 相似文献
7.
为了解决文献自动分类问题,提出了一种基于粒子群优化算法(PSO)的文档聚类算法并根据各种参数的变化策略进行了分析与比较.由于粒子运动的范围受到粒子最大速度Vmax的影响,本文通过改变Vmax的变化类型进行仿真比较,当Vmax为凹函数,PSO算法具有较好的收敛性.同时,对惯性权重和学习系数进行了研究,提出了相应的变化策略:惯性权重线性递减,自身认知系数线性递增而社会认知系数线性递减.给出了PSO聚类算法的详细步骤,并根据各种变化策略进行了仿真分析,取得了较好的聚类效果.与标准的遗传算法(GA)相比,本文提出的PSO聚类算法具有更好的收敛效果. 相似文献
8.
聚类搜索引擎发展现状研究 总被引:3,自引:0,他引:3
分析研究搜索引擎发展轨迹及国内外聚类搜索引擎的发展现状,通过对国内外现有聚类搜索引擎功能的分析,提出“以用户为中心”的聚类2.0搜索是未来聚类搜索引擎,乃至搜索引擎的发展趋势。 相似文献
9.
10.
11.
本文根据规范化数据库设计的原则,系统地、全面地分析了非规范化设计提高数据库效率的非规范化技术,提出了文献数据库优化设计的方法与策略。文章中所讨论的各种优化方法和策略均已实现。 相似文献
12.
[目的/意义]研究Web环境下的用户浏览行为的规律,分析用户在浏览行为中认知、物理和情感3个维度之间的对应关系以及认知维度的影响因素。[方法/过程]通过为被试设计指定任务,要求被试在完成任务时进行出声思考,对其口头报告进行转录、分割、编码,进一步使用SPSS对编码数据进行统计分析。[结果/结论]随着认知阶段的顺序变化,物理维度的新建与停滞动作逐渐减少、后退与停止动作逐渐增多,情感维度的消极情绪所占比例下降、积极情绪所占比例上升。设定认知维度的评价阶段的投入阈值,帮助用户发现具体搜索目标,有助于提高浏览行为的速度和效果,增加用户的积极情感体验。 相似文献
13.
14.
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。 相似文献
15.
[目的/意义] 搜索引擎是用户访问网络资源的重要入口,识别用户搜索策略有助于发现用户搜索的认知规律,让搜索引擎更好地理解用户搜索。[方法/过程] 采用Microsoft顺序分析与聚类分析算法对用户搜索日志中的搜索时间进行分析,识别用户利用搜索引擎时普遍采用的搜索策略,并概括不同类型搜索策略的特征。[结果/结论] 用户在搜索中存在“快速消费”策略、“试探”策略、“探索”策略和“终止与确认”策略,不同策略在搜索时间、浏览次数、用户认知过程等方面表现出明显的差异。 相似文献
16.
信息革命隐含于文献载体的灰色状态 总被引:2,自引:1,他引:2
以文献载体的历史演进过程为依据.提出了文献载体多元并存是载体变革出现重大变革前的一种灰色状态的论点,认为文献载体的灰色状态正是一种信息革命的前兆,亦是人类社会又一次腾飞的准备期。 相似文献