共查询到20条相似文献,搜索用时 15 毫秒
1.
朱婧 《西安文理学院学报》2016,(4):44-47
分析当前搜索引擎系统设计中应用蚁群算法的相关问题,以确保运用蚁群算法优化设计搜索引擎系统.结果证实,在搜索引擎系统中应用蚁群算法,仿真证明该算法在设计系统应用中具有有效性与优越性.结论表明,在搜索引擎系统中,应用蚁群算法,不仅能够优化搜索引擎系统中的搜索代价,还可以发挥蚁群算法的开放性与自我动态调整性,发挥积极应用价值. 相似文献
2.
许建豪 《南宁职业技术学院学报》2014,(2):90-93
分析现有电子商务网站的局限性及传统搜索引擎的区别,给出搜索引擎的六大模块的实现思想及模型,剖析基于语义的搜索算法的四大主要算法模块,并给出部分算法代码,设计与实现打折商品搜索引擎,最后利用四个测试指标与6大主流搜索引擎进行验证测试,测试结果表明本搜索引擎针对打折商品检索效果最优。 相似文献
3.
一种基于超级链接结构的WWW模糊聚类算法 总被引:2,自引:0,他引:2
搜索引擎是目前最主要的WWW信息检索的工具,然而,用户对当前搜索引擎的检索效果并不满意。论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软)矣类算法HTSC。对HTSC算法进行了理论分析,并对其中的核心算法进行了初步的实验验证。该算法可对搜索引擎返回的结果进行模糊聚类,以方便用户从中找到真正需要的信息。 相似文献
4.
贾丽柯 《商丘职业技术学院学报》2008,7(2):32-35
搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术.不断改进搜索引擎的性能,提高搜索结果的查准率和查全率是搜索引擎发展的目标.其中对于搜索结果的排序是一个重要的研究领域.在对一些排序算法的研究和对校园网特点分析的基础上,提出了一种基于校园网搜索引擎的改进算法,结果证明能更好的计算网页相关度,提高查询效率. 相似文献
5.
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。 相似文献
6.
针对垂直搜索引擎中精确抽取网页中特定字段的问题,对DIPRE算法进行了研究和改进。阐述了DIPRE算法在垂直搜索引擎中的重要作用,探讨了DIPRE算法在抽取复杂结构网页时的不足,并提出了改进,包括种子定位方式,将单模匹配扩展成多模匹配并引入定位索引,再根据已有技术对改进后的算法进行了实验验证。结果表明,改进后的算法在精度和效率上都符合预期。 相似文献
7.
互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率. 相似文献
8.
殷卫霞 《泰州职业技术学院学报》2009,9(1)
lucene全文检索技术是信息领域广泛使用的基本技术,它是一个基于java的全文信息检索工具包.文章在详细分析lucene技术的基础上,介绍了它在垂直搜索引擎中的应用,并对它的排序算法做了一些改进,使之提高搜索引擎的性能. 相似文献
9.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。 相似文献
10.
提出了一种基于Lucene评分机制的PageRank改进算法,实现两者之间算法的有效互补,并利用Lucene框架搭建一个校园网搜索引擎,用以验证新算法的特性. 相似文献
11.
针对搜索引擎查询结果集中的相同记录出现次数的统计问题,提出了分档统计的算法。该算法在时间上比逐个字符统计频率快,能够达到O(n)的时间代价,算法还针对长字符串(字串的长度与字串的个数相差不多)进行了优化,降低了计算规模。 相似文献
12.
李建忠 《韩山师范学院学报》2008,29(6)
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法. 相似文献
13.
操惊雷 《黄冈师范学院学报》2009,29(3):50-52,66
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。 相似文献
14.
15.
搜索引擎是目前最主要的WWW信息检索的工具,然而,用户对当前搜索引擎的检索效果并不满意.论文给出了基于文档文本内容和文档间超链信息的混合相似度计算方法,并给出了基于混合相似度的模糊(软)聚类算法HTSC.对HTSC算法进行了理论分析,并对其中的核心算法进行了初步的实验验证.该算法可对搜索引擎返回的结果进行模糊聚类,以方便用户从中找到真正需要的信息. 相似文献
16.
17.
《实验室研究与探索》2013,(12):105-108
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。 相似文献
18.
随着互联网的不断发展,信息呈爆炸式增长,导致信息过载问题日趋严重。在海量数据中提取有用信息的方式主要有两种,一种是通过搜索引擎,利用检索技术进行信息提取,另一种是以推荐信息为主的信息过滤技术。对基于协同过滤的个性化服务推荐算法进行了研究。 相似文献
19.
首先对Web数据搜索引擎技术进行了概述,在此基础上进一步阐述数据采集过程、Robot的搜索策略、HTML解析器基本算法及数据检索模型,最后指出目前搜索引擎存在的问题,提出未来搜索引擎的发展方向。 相似文献