首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
基于粗糙用户聚类的协同过滤推荐模型   总被引:1,自引:0,他引:1  
【目的】将粗糙集引入到基于用户聚类的协同过滤中,提高推荐质量。【方法】提出一种基于粗糙用户聚类的协同过滤推荐模型:离线时采用粗糙K-means用户聚类算法,根据用户与聚类中心的相似度将其分配到K个类的上、下近似中,形成用户的初始近邻集;在线时从目标用户的初始近邻集中搜索其最近邻,预测项目评分并向其产生推荐。【结果】通过实验对比发现,该模型比传统的和基于项目的协同过滤推荐算法降低约14%的平均绝对误差,比基于用户聚类的协同过滤推荐算法降低约10%的平均误差。【局限】在考虑上、下近似对聚类中心调整的重要程度时,忽略了用户聚类数目和最近邻集用户数阈值的变化所产生的影响。【结论】该模型能有效提高推荐精度,具有较强的可行性和现实意义。  相似文献   

2.
文章通过对个性化推荐和数据建模理论研究,分析了普通的Web日志格式采集到的数据无法满足个性化用户分析、预测和推荐精度需要的局限性。提出定制Web日志数据建模的过程及方法,建立了定制Web日志模型原型。通过应用数据挖掘技术的关联分析、分类和聚类实验,实验结果表明,通过定制Web日志的方式采集的数据质量能够很好地满足发现关联规则、内容分类和用户聚类的需求,从而提高个性化推荐的精度。同时,定制的Web日志数据还具有简化数据预处理、多用途的优点。  相似文献   

3.
针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出一种基于用户多态聚类的数字图书馆个性化推荐方法。该方法以改进的海明距离计算候选邻居集,结合多态相似度进行二次聚类,预测用户的多态需求度并形成推荐。实验表明,使用多态聚类产生的推荐精确度上优于单一聚类产生的推荐。  相似文献   

4.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

5.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

6.
情境化推荐中基于超图模式的用户偏好漂移识别研究   总被引:2,自引:0,他引:2  
识别用户偏好漂移是维护用户偏好模式、确保偏好描述准确的关键之一,随着移动商务的迅猛发展,近年来越来越受到重视.一个研究方向是基于聚类实现偏好漂移的识别,但目前研究对于资源对象间多元的弱关联处理存在不足,为此本文结合情境化推荐的特征,构建了情境化资源的超图模型,在对资源相似度、资源簇相似度、用户偏好漂移度等相关概念定义的基础上,提出了一种识别用户偏好漂移的方法.该方法在两阶段层次聚类架构中引入多级超图分割算法,通过两组实验验证了方法的有效性.本文对方法复杂性和应用机制也进行了探讨.  相似文献   

7.
协同推荐中基于用户-文档矩阵的用户聚类研究*   总被引:1,自引:0,他引:1  
针对个性化推荐服务的需要以及用户聚类处理时用户-文档访问数据的高维稀疏性问题,采用“比对降维”的思想和K层次聚类算法,分析基于用户资源评价数据的用户聚类处理流程。在此基础上,采用Java开源技术设计并实现一个用户聚类的试验系统。  相似文献   

8.
[目的/意义]准确把握社交网络用户兴趣倾向,对用户进行分类并形成高聚合的用户群,对研究社交网络信息生态以及信息推荐有重大意义。[方法/过程]通过构造基于多维度的用户属性描述层次模型,根据模型数据需求从新浪微博抓取用户样本数据,对相关用户背景信息、用户博文信息以及用户行为信息的多维度属性下二阶变量进行量化,构造用户向量表达式,比较单一维度与多维度下的用户分类效果,进一步给属性赋予不同的权重值进行加权分析,在取得最优聚类效果后进行方差分析,对模型进行改进。[结果/结论]基于多维度属性加权后的用户聚类效果明显高于单一维度及多维度非加权条件下的用户聚类,且用户博文内容维度对于提高用户聚类效果的有效性最大。  相似文献   

9.
在电子商务中,协同推荐技术能够帮助用户发现感兴趣的东西.在协同推荐中,通常采用最近邻居的方法来产生推荐.随着商品数量的增多,协同推荐所需要的数据集也越来越稀疏,可用数据比例越来越少.为了解决这个问题,本文在传统的评分数据的基础上,引入用户的基本信息,对用户的基本信息进行离散化处理,将用户的基本信息转化成一个0、1的向量,在用户的信息的基础上计算最近邻居,根据最近邻居对用户缺失数据进行补充,在补充后的评分数据上进行聚类计算,并根据聚类结果对用户评分进行预测.实验表明引入用户的基本信息,并采用对基本信息离散化的处理方式进行缺失数据补充,在此基础上进行数据的聚类,能够提高预测评分的准确性.  相似文献   

10.
一种协同过滤方法及其在信息推荐系统中的实现   总被引:8,自引:0,他引:8  
本文提出了一种基于模糊聚类技术的协同过滤方法,应用模糊聚类技术从项目的属性特征上对项目进行聚类,用隶属度的值来表示项目属于每个模糊簇的程度,由用户-项评分矩阵和模糊簇的隶属度值,构造用户-模糊簇的偏好矩阵,进而利用用户-模糊簇偏好矩阵获得用户相似群体,为用户实现基于协同过滤的文档推荐。最后,利用过滤技术实现了一个科技文献推荐系统,对多种推荐策略进行了验证。  相似文献   

11.
设计一种个性化的信息检索服务界面,介绍实现该界面的主要支撑模块,阐述数据异步处理、聚类计算方法、检索日志挖掘以及相关文献推荐技术的应用,给出界面的实现形式。在具体实现中,采用后台脱机计算和前台联机计算相结合的方式,并使用异步处理技术,减少时间延迟,保证实用性。  相似文献   

12.
关联推荐及其在学术资源检索网站中的应用研究   总被引:1,自引:0,他引:1  
有效的关联推荐为用户的信息链式获取提供了极大的方便。结合实际项目,本文论述了应用于学术资源检索网站的关联推荐的总体框架和相似文献推荐、关联搜索词推荐、关联作者推荐、关联研究机构推荐、引证关联推荐等功能的技术实现方案,并给出了项目的实现效果。  相似文献   

13.
Document clustering of scientific texts using citation contexts   总被引:3,自引:0,他引:3  
Document clustering has many important applications in the area of data mining and information retrieval. Many existing document clustering techniques use the “bag-of-words” model to represent the content of a document. However, this representation is only effective for grouping related documents when these documents share a large proportion of lexically equivalent terms. In other words, instances of synonymy between related documents are ignored, which can reduce the effectiveness of applications using a standard full-text document representation. To address this problem, we present a new approach for clustering scientific documents, based on the utilization of citation contexts. A citation context is essentially the text surrounding the reference markers used to refer to other scientific works. We hypothesize that citation contexts will provide relevant synonymous and related vocabulary which will help increase the effectiveness of the bag-of-words representation. In this paper, we investigate the power of these citation-specific word features, and compare them with the original document’s textual representation in a document clustering task on two collections of labeled scientific journal papers from two distinct domains: High Energy Physics and Genomics. We also compare these text-based clustering techniques with a link-based clustering algorithm which determines the similarity between documents based on the number of co-citations, that is in-links represented by citing documents and out-links represented by cited documents. Our experimental results indicate that the use of citation contexts, when combined with the vocabulary in the full-text of the document, is a promising alternative means of capturing critical topics covered by journal articles. More specifically, this document representation strategy when used by the clustering algorithm investigated in this paper, outperforms both the full-text clustering approach and the link-based clustering technique on both scientific journal datasets.  相似文献   

14.
影响科技查新质量的相关因素   总被引:9,自引:0,他引:9  
文章分析了影响科技查新质量的相关因素:查新要点的提出、密切相关文献的筛选、相关文献对比分析、查新报告的撰写、查新审查制度的完善、查新人员自身业务素质,并提出了相应措施.  相似文献   

15.
GenBank数据库是世界上著名的生物信息数据库,包含了目前所有已知的核苷酸序列和蛋白质序列以及与它们相关的文献著作和生物学注释。详细介绍了它的Entrez检索功能。  相似文献   

16.
Document clustering offers the potential of supporting users in interactive retrieval, especially when users have problems in specifying their information need precisely. In this paper, we present a theoretic foundation for optimum document clustering. Key idea is to base cluster analysis and evalutation on a set of queries, by defining documents as being similar if they are relevant to the same queries. Three components are essential within our optimum clustering framework, OCF: (1) a set of queries, (2) a probabilistic retrieval method, and (3) a document similarity metric. After introducing an appropriate validity measure, we define optimum clustering with respect to the estimates of the relevance probability for the query-document pairs under consideration. Moreover, we show that well-known clustering methods are implicitly based on the three components, but that they use heuristic design decisions for some of them. We argue that with our framework more targeted research for developing better document clustering methods becomes possible. Experimental results demonstrate the potential of our considerations.  相似文献   

17.
如何有效的进行生物医学文献检索和信息挖掘,是计算机技术和生物信息技术研究领域中的一个经典课题。本文对生物医学文献中自然语言问题文档,片段,概念和RDF三元组,构建了高效的检索和问答系统。特别的,在文档检索中,我们搭建了基于顺序依赖模型,词向量,和伪相关反馈相结合的通用检索模型;同时,前k个文档被分离为句子和片段,并以此建立检索索引,并基于文档检索模型,完成片段检索;在概念挖掘中,提取生物医学的概念,列出相关的概念属于网络服务的五个数据库链接,通过得分排名得到最终的概念。在CLEF BioASQ几年的评测数据上,我们构造的检索系统都取得了不错的性能。  相似文献   

18.
在当今信息爆炸的时代,文献信息搜索系统是读者方便、快捷利用文献信息的好助手。文章对读秀学术搜索系统与文津搜索系统从首页、收录文献类型、分类、单条件检索、高级检索、聚类方式及记录细览区等几个方面做了分析比较,在此基础上提出了需要改进的地方及给图书馆的启示。  相似文献   

19.
User queries to the Web tend to have more than one interpretation due to their ambiguity and other characteristics. How to diversify the ranking results to meet users’ various potential information needs has attracted considerable attention recently. This paper is aimed at mining the subtopics of a query either indirectly from the returned results of retrieval systems or directly from the query itself to diversify the search results. For the indirect subtopic mining approach, clustering the retrieval results and summarizing the content of clusters is investigated. In addition, labeling topic categories and concept tags on each returned document is explored. For the direct subtopic mining approach, several external resources, such as Wikipedia, Open Directory Project, search query logs, and the related search services of search engines, are consulted. Furthermore, we propose a diversified retrieval model to rank documents with respect to the mined subtopics for balancing relevance and diversity. Experiments are conducted on the ClueWeb09 dataset with the topics of the TREC09 and TREC10 Web Track diversity tasks. Experimental results show that the proposed subtopic-based diversification algorithm significantly outperforms the state-of-the-art models in the TREC09 and TREC10 Web Track diversity tasks. The best performance our proposed algorithm achieves is α-nDCG@5 0.307, IA-P@5 0.121, and α#-nDCG@5 0.214 on the TREC09, as well as α-nDCG@10 0.421, IA-P@10 0.201, and α#-nDCG@10 0.311 on the TREC10. The results conclude that the subtopic mining technique with the up-to-date users’ search query logs is the most effective way to generate the subtopics of a query, and the proposed subtopic-based diversification algorithm can select the documents covering various subtopics.  相似文献   

20.
梁柱  沈思  叶文豪  王东波 《情报学报》2022,41(2):167-175
在现有的裁判文书检索系统上,非专业领域的用户检索具有局限性。目前,法律领域的智能检索仅在基于裁判文书的法律条文的推荐和分类上开展了研究,缺乏对裁判文书自动推荐的相关研究,因此,本文提出了一种利用类新闻的事实性文本智能推荐裁判文书的方法,结合目前的研究工作,总结裁判文书的结构和内容特征,利用类新闻的事实性文本模拟非法律专业用户的检索查询式,构建含有结构内容特征的裁判文书语料库,并自动推荐相关裁判文书文档。结果显示,利用裁判文书的法院意见结构内容特征,对新闻语料进行特征词表示之后,LambdaMART模型在文本匹配结果上表现良好,优于传统的全文检索技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号