首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
中文智能搜索引擎的研究与探讨   总被引:1,自引:0,他引:1  
随着网上信息激增,中文智能搜索引擎备受人们关注。分析传统中文搜索引擎的缺陷和性能,阐述中文分词、词性标注、语义分析、n元语法及PageRank排序等关键技术,对学习和研究中文智能搜索引擎具有一定参考价值。  相似文献   

2.
针对PageRank算法查准率和检索效率低的问题,通过增加用户点击率、网页发布时间以及主题内容相关度3个影响因子改进PageRank算法,提高用户查准率;利用MapReduce技术实现改进的PageRank算法,提高网页排序和检索效率;最后通过实验结果数据对比,发现用户检索效率和用户查询准确率有较大提高。  相似文献   

3.
搜索引擎是随着Web信息的迅速增加,从1995年开始逐渐发展起来的技术.不断改进搜索引擎的性能,提高搜索结果的查准率和查全率是搜索引擎发展的目标.其中对于搜索结果的排序是一个重要的研究领域.在对一些排序算法的研究和对校园网特点分析的基础上,提出了一种基于校园网搜索引擎的改进算法,结果证明能更好的计算网页相关度,提高查询效率.  相似文献   

4.
搜索引擎是互联网资源搜索的入口,搜索的快捷性、准确性是搜索引擎的核心竞争力,如何提高竞争力是业内企业的工作重点。已有的搜索引擎算法中,最具代表性的就是PageRank算法,针对该算法的改进方法也有很多,但效果并不很理想。分析了已有PageRank改进方法的不足,立足于用户搜索行为信息挖掘,采用时序关联分析方法,将关联比例作为权值加入到PageRank计算公式中,改变平均分配权威值的计算方法,从而得到了改进的PageRank算法——TCPR算法,使得搜索排序结果更符合用户的信息需求。  相似文献   

5.
PageRank算法是目前被广泛应用的一种度量网页重要性的方法,它根据网页之间的链接结构来给每个网页打分,本文剖析了Google的关键技术——PageRank算法,并主要从线性方程组的角度求解PageRank问题.  相似文献   

6.
随着WWW的迅猛发展,对获取和分析与特定主题相关的网页变得越来越来困难了.本文在对主题型Web搜索的关键技术及其实现要点进行研究和分析后,设计和实现了一个主题搜索引擎核心部分--主题型Web爬行器的原型.  相似文献   

7.
网络信息数量的日益增加,对人们从中获取有效信息的能力提出了更高要求。为了更好地响应用户需求,提高信息处理效率并降低人力成本,基于PyQt进行全文搜索引擎平台开发。采用模块化思想设计网络信息采集功能,然后将获取的信息经数据处理后建立索引库,采用PageRank算法对查询响应结果进行排序,实现检索器功能,并通过用户的点击决策,利用神经网络对排序结果进行二次修正。最后,在界面输入查询字符串后,便可快速得到已排序的链接响应,从而能更好地反映用户对检索结果的感兴趣程度,并提供个性化服务。  相似文献   

8.
针对大规模网页相关性排序工作中使用的多来源网页信息形式多样、利用困难的问题,提出了一种新的自动网页特征获取方法.该方法利用一组事先定义好的规则自动地从网页中获取相关性特征,这些特征可以有效地表达网页的实际内容并改善搜索引擎的排序性能.该方法所获取的网页相关性特征具有格式统一、噪声数据少的特点,能够非常方便地应用于网页的相关性排序.为了评价网页特征和用户查询之间的相关性,还提出了一个特征级别的相关性判定标准.最后,实验结果证明了所提出的特征获取方法和特征相关性等级判定标准对于提升搜索引擎的排序性能具有显著的作用.  相似文献   

9.
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。  相似文献   

10.
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。  相似文献   

11.
互联网的迅速发展,搜索引擎也引起了更多人的关注,但主题搜索引擎发展还不够成熟,在国内,它的研究正处于发展阶段,发展缓慢、数量少,用户还不满意.本文提出了一种基于主题预分类的PageRank算法,与传统PageRank算法比较,经验证,该方法在一定的主题下可以提高系统的查准率.  相似文献   

12.
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。  相似文献   

13.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

14.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

15.
对web文本聚类中的数据预处理、聚类算法及结果评估等进行了分析研究.在由lucene和nutch构建的搜索引擎的基础上,提出基于k—means聚类算法web页聚类系统设计方案,并论述了各模块的设计与实现方法.  相似文献   

16.
用户行为分析是改进搜索引擎的重要依据,为了更好地理解中文搜索用户的检索行为,在引入分词的基础上对搜狗搜索引擎在一个月内的真实查询日志进行了分析,对查询语言、查询长度、rank和网页深度与点击次数四个方面的用户行为进行分析。所得结论对改进中文搜索引擎的设计和更准确地评测检索效果都有较好的指导意义。  相似文献   

17.
由于DC元数据描述网络资源的优越性,基于DC元数据的搜索引擎系统能够克服传统搜索引擎无法理解网页描述语义、检索效率低的缺点。设计该系统最首要的模块就是自动搜集模块,如何自动搜集含DC元数据的网页,如何自动提取其中的DC元数据信息,并加以分析和处理,文章详细介绍了该模块的设计思路和具体的实现方法,并给出部分设计源代码。  相似文献   

18.
Spam页面可能极大地恶化诸如PageRank的基于排序的搜索算法。如何识别并抑制Spam页面已经成为一个很重要的问题。本文针对这个问题详细的分析了各种侦测和移除Spam页面的算法或方法,主要包括通用的方法、反面的方法和其它针对具体情形的方法三种类型。最后,文章对识别spam页面的关键技术及其前景进行了分析、展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号