首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对短语文本的分类、聚类、信息查询问题,提出了一种新的中文短语文本相似度计算方法.用该方法计算出的文本相似度及一个比较文本与多个被比较文本所得相似度变化趋势是合理的,因此可以满足短语文本分类/聚类和信息查询的需要.  相似文献   

2.
微博的普及导致微博平台数据量日益增长,因此从海量微博中快速准确地为微博用户推荐好友成为了巨大挑战。用户的社交网络和微博文本在一定程度上体现了用户的价值观和兴趣爱好,有相似兴趣的微博用户更有可能成为朋友。基于上述事实,以用户微博文本相似度为似然函数,使用K-means聚类对微博用户聚类,得到微博用户社交圈;在社交圈内部迭代计算用户之间的相似度,同时计算用户对其所在社交圈中其余用户的信任度;最后,根据用户之间的相似度和信任度完成微博好友推荐。实验结果表明,该算法优于传统的基于社交网络拓扑图的好友推荐方法。  相似文献   

3.
协同过滤算法是最常用、最经典的个性化推荐算法之一。在算法计算中相似度计算是影响算法质量的关键因素,该算法中相似度计算根据用户评分差值作为距离来衡量,忽略了项目自身特征属性对相似性计算的制约。因此提出一种基于项目特征的协同过滤推荐算法(IFCF),结合项目评分相似度,利用Logistic二分类算法思想将用户对项目的偏好分为喜爱与不喜爱两类,再利用贝叶斯概率原理将用户对各项目特征的喜爱程度差值作为相似度调整度,以达到提高项目相似性度量准确度的目的。实验结果表明,该算法能够有效提高推荐算法的精度。  相似文献   

4.
跨语言文本相似度计算在跨语言信息检索、数据挖掘、抄袭检测等领域有着重要应用,但是跨语言文本相似度计算因为不同语言文法、结构等问题,在空间映射、特征选择上与单语言文本相似度计算有很大差异。为解决上述问题,采用一种基于文本加权词共现关系的跨语言文本相似度计算方法,通过平行语料库构建跨语言词共现关系模型,使用该模型进行跨语言文本映射,对不同语言的文本进行相似度计算。该模型实际反映了某种语言中某些关键词共同出现时映射成另一种语言时的关键词概率分布。实验表明,该方法对跨语言文本排序的计算更接近人工评判标准。  相似文献   

5.
百度知道中用户提出问题较短,采用常规基于空间向量的 TF-IDF 句子相似度计算、基于语义依存关系的句子相似度计算等方法往往很难较好完成其相似度计算。鉴于此,基于长度较短问句的特点,引入问题元和词模思想,对用户问题进行分解,并与传统相似度计算方法相融合,提出新的相似度计算方法。对于长度低于20 个词的问句,与传统 TF-IDF 方法相比,F1 值提高了 12%。  相似文献   

6.
提出了一种基于用户兴趣及标签相似度的混合推荐算法,构建基于标签的用户兴趣模型,通过计算与资源相似度完成推荐,同时融合时间因素研究用户兴趣变化,提高了基于内容的推荐中相似度计算的准确率;根据用户兴趣相似度聚类用户,通过兴趣协同推荐减少对评分矩阵的依赖,一定程度上解决了协同过滤中推荐数据缺失问题;同时,结合用户基本信息有望缓解冷启动问题。实验表明该算法具有一定的有效性及可行性。  相似文献   

7.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。  相似文献   

8.
基于Lucene架构全文搜索引擎具有高效、简易等特点,但经分析研究基于lucene架构的搜索得分排序算法存在不足,提出了结合词项位置、文档浏览量、更新时间等因素的AHP二次检索公式.设计一种基于B/S的全文搜索系统,实现了对文本的索引、存储与搜索排序.实验证明,改进后的搜索系统为用户提供了个性化搜索服务,更有效地提高信息检索的准确度.  相似文献   

9.
user-based协同过滤算法在B2C电子商务中是一种重要的推荐方法,但是用户共同评价项目的稀缺性导致了协同过滤算法质量的下降。鉴于此,在考虑用户评分数据的基础上,对用户评分记录进行聚类平滑。考虑用户购买记录作为数据源之一,并用曼哈顿距离相似度计算方法计算用户购买记录,将两者线性组合得到混合相似度,使用混合相似度进行推荐,通过实验计算两者线性组合的最佳权重系数,比传统的利用用户评分记录和用户购买记录的精确度高。实验结果表明,基于混合相似度的协同过滤推荐能有效提高由于数据稀缺性造成的推荐准确度。  相似文献   

10.
Web信息检索使人们能够在海量信息中找到所需信息,但由于自然语言多义性和用户检索时检索词的模糊性、不准确性,导致信息检索系统反馈结果往往不能完全满足用户需求。分析信息资源特点及Web信息检索基本原理、相关反馈技术,探讨信息检索模型中的相似度计算方法及查询扩展、检索结果过滤与重排、信息推荐服务、检索技术。  相似文献   

11.
垂直搜索引擎是针对某一个特定行业的专业搜索引擎,是搜索引擎的细分和延伸,可以反馈给用户更准确和更专业的查询结果.在高校的校园网信息检索应用领域,实现了基于Lucene技术的中文校园网垂直搜索引擎,其可以为用户提供专业的信息检索服务.  相似文献   

12.
为了充分体现词典的语用功能,作者利用Lucene全文搜索引擎的优势,设计并实现了再现某一语言片断的上下文语境(即其原始所在的语篇)功能模块,借助该模块用户可以积极主动探索语言在现实语言使用中的各种搭配用法,以及出现这些用法的上下文语境,从而为自己的积极言语活动(如对话、写作、教学等)服务。  相似文献   

13.
Lucene是一个开源的全文搜索引擎工具包,可以跨平台使用,也可方便地嵌入到Web应用中实现企业门户网站的全文索引/检索功能。Struts是一个基于MVC的Web框架,具有良好的可维护性、可扩展性、可移植性和组件的可复用性。将Lucene和Struts结合起来,探讨了基于Lucene的搜索引擎在Struts中的应用。  相似文献   

14.
基于Lucene搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
Lucene是一个强大的全文索引引擎工具包,应用它可以快速地开发一个搜索引擎.介绍了基于英特网的中文搜索引擎的系统结构,Lucene的索引和搜索,并且设计实现了一个自己的搜索引擎--易搜中文搜索引擎.结果表明,基于Lucene的搜索引擎在索引和查找上的效率很高.  相似文献   

15.
通过对几种知名的国际语言测试的计分方法进行考察,发现语言测试的计分方法表现了动态计分、转换分数、设置不计分项、倒扣分的趋势;引起这种趋向的动因在于追求计分的精准性、方便考试用户、促使语言测试可持续性发展。国内的大部分语言测试还只是采取单一化的原始计分方法,不利于语言测试的质量提高和发展,不妨以国际语言测试的计分趋向为参照,对计分方法尝试进行改革,以使语言测试更加科学。  相似文献   

16.
利用Kendall协合系数检验来判断学校综合评分成绩计算公式中所选用的评分指标是否合理,并给出各评分指标权重的计算方法,为学校教学的科学管理提供重要依据。  相似文献   

17.
18.
对基于Lucene引擎的全文检索和SQLServer附带的全文检索功能组件Microsoft Search进行应用研究,实现相应的检索功能,进行性能测试比较.研究结果表明,Lucene可扩展性强,建立索引和检索的速度都比较快,可以动态添加或删除记录.在人事文档资源的检索应用背景下,Lucene的检索性能高于Microsoft Search.  相似文献   

19.
基于地图信息论的观点,将点群目标包含的信息重新分为统计信息、专题信息、拓扑信息、距离信息和方向信息.根据这5类信息描述参数的特点,给出了各个信息量相似度的计算公式.最后综合这5类信息给出了多尺度地理空间点群目标相似度的计算公式,并通过算例验证了公式的可行性和有效性,为地图综合质量的评价提供了一种新方法.  相似文献   

20.
提出一类基于不确定度的Vague集间的相似度量.通过与现有公式的比较,阐明该类公式有较强的分辨能力,这些公式是实用的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号