首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
用于Web文本分类的快速KNN算法   总被引:12,自引:0,他引:12  
王煜  白石  王正欧 《情报学报》2007,26(1):60-64
KNN算法是一种简单、有效、非参数的Web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的Web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。  相似文献   

2.
陶剑文  潘红艳 《情报学报》2008,27(2):199-204
推荐系统是电子商务系统中最重要的技术之一.随着电子商务系统用户数目和商品数目日益增加,在整个商品空间上用户评分数据极端稀疏,传统的相似性度量方法均存在各自的弊端,导致推荐系统的推荐质量急剧下降.针对用户评分数据极端稀疏情况下传统相似性度量方法的不足,本文提出了一种基于相似项目与用户评分预测的协同过滤推荐算法,综合利用相似项目和相似用户评分信息预测用户对未评分项目的评分.通过聚类算法形成用户候选近邻集,减小了算法搜索空间,降低了最近邻用户的搜索时间,从而增强了算法的扩展性.实验结果表明,本算法可以有效解决用户评分数据极端稀疏情况下传统协同推荐算法存在的问题,显著提高推荐系统的推荐质量.  相似文献   

3.
一种基于k-最近邻的无监督文本分类算法   总被引:2,自引:0,他引:2  
k-最近邻分类(KNN)是一种广泛使用的文本分类方法,但是该方法并不适用分布不均匀的数据集,同时对k值也比较敏感.本文分析了传统KNN方法的不足及产生这些不足的根本原因,并提出一种无监督的KNN文本分类算法(UKNNC).该方法先采用误差平方和准则自适应地从k个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照,然后根据输入文档对各类参照邻居核密度的扰动程度进行分类.实验证明该方法具有更高的分类质量,能够有效适用于分布复杂的数据集,同时分类结果对k值不敏感.  相似文献   

4.
目前协同过滤被广泛应用于数字图书馆、电子商务等领域的个性化服务系统.最近邻算法则是最早提出和最主要的协同过滤推荐算法,但用户评分数据稀疏性严重影响推荐质量.针对上述问题,提出了一种基于Rough集理论的最近邻协同过滤算法,以用户评分项并集作为用户相似性计算基础,并将非目标用户区分为无推荐能力和有推荐能力两种类型;对于无推荐能力用户不再计算用户相似性以改善推荐实时性,对于有推荐能力用户则提出一种基于Rough集理论的评分预测方法来填补用户评分项并集中的缺失值,从而降低数据稀疏性.实验结果表明新算法能有效提高推荐质量.  相似文献   

5.
介绍一种生物序列数据库的搜索算法--QUASAR,即采用索引的后缀数组,通过筛选q-gram进行局部比对的方式来搜索查询序列在数据库中的近似匹配,并运用窗口推移和分块查找的方法来加快搜索和节省搜索空间。同时,将QUASAR和最流行的BLAST搜索工具进行简单比较。  相似文献   

6.
本文将潜在语义索引理论与支持向量机方法相结合,对文本向量各维与文本的语义联系进行特征抽取,建立了完整的基于潜在语义索引的支持向量机文本分类模型,分析了该方法与分词的维数以及SVM惩罚因子选择之间的关系.并在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离来修剪混淆点,提出了一种改进的NN-SVM算法:KCNN-SVM算法.利用该算法对降维后的训练集进行修剪.实验表明,用新的模型进行文本分类,与单纯支持向量机相比,受到文本分词维数以及支持向量机惩罚因子的影响更小,其分类正确率更高.  相似文献   

7.
基于矩阵划分和兴趣方差的协同过滤算法   总被引:14,自引:4,他引:10  
数据稀疏性是协同过滤系统面临的一个巨大挑战。本文提出了一种新的推荐算法———基于矩阵划分和兴趣方差的协同过滤算法。该算法采用矩阵分块的思想来缩小最近邻搜索的范围。矩阵分块时,采用聚类的方法,大大降低了矩阵的维度和稀疏等级。同时引入兴趣方差的概念,提高了计算最近邻的准确度。实验证明,本文提出的过滤算法在预测精度上较传统的推荐算法有很大的提高。  相似文献   

8.
基于搜索引擎分类信息的用户查询歧义消减   总被引:1,自引:1,他引:0  
用户在利用搜索引擎进行信息检索时,查询条件往往存在歧义,这导致搜索结果的多样性和冗余性.传统的方法主要是基于语义分析或构建知识库,此类方法在实际应用中的可行性不高.本文基于搜索引擎的分类信息,实现了一个简单有效的分类搜索系统.它首先根据用户的查询条件,将返回的搜索结果进行分类,并以树形目录的形式展示给用户,而后根据用户的点击数据,逐步确定用户的搜索意图,从而达到了查询歧义消减的目的.论文详细介绍了系统的设计思想、架构和工作流程.测试实例表明,该系统可以在一定程度上确定用户的查询意图,为用户返回更加准确的搜索结果.  相似文献   

9.
目前大部分社会网络搜索算法都基于最短路径原则,忽视社会网络上主体之间社会关系的强度和方向,导致搜索结果不能很好地满足用户需求。考虑到影响强度在社会网络上的重要作用,提出最大影响强度的路径优化原则,并基于该原则构造搜索算法。运用真实社会网络的数据,验证基于最大影响强度的路径优化算法优于基于最短路径的优化算法,即使在两者路径长度相等的情况下,前者的搜索效果也比后者更好。  相似文献   

10.
为论证科技期刊按需编制印刷版年终主题词索引的合理性,本文设计问卷,调查《中华烧伤杂志》读者年龄、职称等一般信息.将调查对象按照上述内容进行分类,调查其是否知晓本刊年终主题词索引、查询本刊文章及检索医学文献的常用路径,对数据行Pearson卡方检验及Bonferroni校正.结果是:327名调查对象中,与41~50岁及51~60岁调查对象比较,21~30岁调查对象对本刊印刷版年终主题词索引的知晓比例明显下降(P值均小于0.05);与高级职称调查对象比较,无职称(研究生)、初级职称、中级职称调查对象对本刊印刷版年终主题词索引的知晓比例明显下降(P值均小于0.05).各年龄段及各种职称等级调查对象中,不足38%通过纸版期刊查询本刊文章.可见年轻读者对印刷版年终主题词索引的知晓度降低,应用率也较低,大部分读者倾向于通过网络查询期刊文章.提示科技期刊印刷版年终主题词索引的编制已失去原有的作用和意义,按需省略是合理的.  相似文献   

11.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

12.
While relational maintenance has been found to be an important aspect of interpersonal relationships within the face‐to‐face world, the nature of relational maintenance among partners within computer‐mediated relationships is a relatively unexplored area. This study examined the use of maintenance strategies and perceptions of relational partners among (N = 178) undergraduate students within exclusively Internet‐based and primarily Internet‐based relationships. The findings indicated that positivity and openness were the most frequently used maintenance strategies. People who used positivity and on‐line activities had higher perceptions of attitude similarity than people using avoidance strategies, and people who used positivity and openness perceived their partner's quality of communication to be higher than those who used other strategies. People maintaining primarily Internet‐based relationships had higher relational communication and background similarity scores than people maintaining exclusively Internet‐based relationships. Finally, people maintaining exclusively Internet‐based relationships had different perceptions of on‐line friends and acquaintances based upon their frequency of on‐line interaction.  相似文献   

13.
刘伟 《图书情报工作》2015,59(12):128-134
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。  相似文献   

14.
专利权人关联网络的社会网络分析方法研究   总被引:1,自引:0,他引:1  
在方法体系层面上设计出适用于专利权人关联网络分析的社会网络分析方法体系框架,框架包括基于合作、基于引用和基于技术主题三个方面。其中,基于合作的专利权人合作网络分析方法包括全球规模、特定学科主题、特定专利权人和自我中心网络(ego网络)四种类型;基于引用的专利权人引用网络包括直接引用、专利共引和专利文献耦合网络三种类型;基于主题的专利权人主题关联网络包括专利分类号共现、分类号相似度计算和主题词共现三种类型。文章对整个方法体系的分析方法进行了系统的研究,包括基本原理、数据集的构建策略、分析方法的功能、不足、指标选取等方面。最后利用中国科学院2005~2008年的发明专利对基于合作和基于技术主题的专利权人关联网络进行了实证研究。  相似文献   

15.
Computational modelling of music similarity is an increasingly important part of personalisation and optimisation in music information retrieval and research in music perception and cognition. The use of relative similarity ratings is a new and promising approach to modelling similarity that avoids well known problems with absolute ratings. In this article, we use relative ratings from the MagnaTagATune dataset with new and existing variants of state-of-the-art algorithms and provide the first comprehensive and rigorous evaluation of this approach. We compare metric learning based on support vector machines (SVMs) and metric-learning-to-rank (MLR), including a diagonal and a novel weighted variant, and relative distance learning with neural networks (RDNN). We further evaluate the effectiveness of different high and low level audio features and genre data, as well as dimensionality reduction methods, weighting of similarity ratings, and different sampling methods. Our results show that music similarity measures learnt on relative ratings can be significantly better than a standard Euclidian metric, depending on the choice of learning algorithm, feature sets and application scenario. MLR and SVM outperform DMLR and RDNN, while MLR with weighted ratings leads to no further performance gain. Timbral and music-structural features are most effective, and all features jointly are significantly better than any other combination of feature sets. Sharing audio clips (but not the similarity ratings) between test and training sets improves performance, in particular for the SVM-based methods, which is useful for some applications scenarios. A testing framework has been implemented in Matlab and made publicly available http://mi.soi.city.ac.uk/datasets/ir2012framework so that these results are reproducible.  相似文献   

16.
[目的/意义] 在基于社会网络的用户画像研究中,针对传统用户建模难以处理复杂网络关系,群体构建多基于内容,以及群体相似度低或紧密性差的问题,提出基于网络结构和文本内容的群体画像构建方法。[方法/过程] 首先,采用卷积神经网络方法,融合网络结构和文本内容两方面特征将网络用户表示成空间向量,其次,在k-means算法基础上结合模块度计算方法,对空间向量进行聚类,然后,在爬取的中英文数据集上分别进行对比研究,最后,从中文数据集中选取1 000名重要性用户进行实例分析。[结果/结论] 实验结果表明,该方法的密度值比基于内容的方法平均增加0.105,熵值比基于结构(含基于结构和内容)的方法平均减少0.955,实例分析进一步说明文中方法的可行性。  相似文献   

17.
18.
本文系统性地研究面向查询的观点摘要任务,旨在构建一种查询式观点摘要模型框架,探究不同的摘要方法对摘要效果的影响。通过综合考虑情感倾向与句子相似度,从待检文档中抽取出待摘要语句,再结合神经网络和词嵌入技术生成摘要,进而构建面向查询的观点摘要框架。从Debatepedia网站上爬取议题和论述内容构建观点摘要实验数据集,将本文方法应用到该数据集上,以检验不同模型的效果。实验结果表明,在该数据集上,仅使用基于抽取式的方法生成的观点摘要质量更高,取得了最高的平均ROUGE分数、深度语义相似度分数和情感分数,较生成式方法分别提高6.58%、1.79%和11.52%,而比组合式方法提高了8.33%、2.80%和13.86%;同时,本文提出的句子深度语义相似度和情感分数评估指标有助于更好地评估面向查询的观点摘要模型效果。研究结果对于提升面向查询的观点摘要效果,促进观点摘要模型在情报学领域的应用具有重要意义。  相似文献   

19.
Web数据关联创建策略研究   总被引:1,自引:0,他引:1  
调研关联数据的关联关系创建算法和策略,分析同构模式下属性相似度和图形相似度算法以及相应的组合策略,对比研究异构模式下包含和不包含实例信息的架构映射方法,对可创建丰富语义关联的推导传递的思想进行剖析,并提出关联创建面临的挑战。  相似文献   

20.
Information filtering is an area getting more important as we have long been flooded with too much information, where product brokering in e-commerce is a typical example. Systems which can provide personalized product recommendations to their users (often called recommender systems) have gained a lot of interest in recent years. Collaborative filtering is one of the commonly used approaches which normally requires a definition of user similarity measure. In the literature, researchers have proposed different choices for the similarity measure using different approaches, and yet there is no guarantee for optimality. In this paper, we propose the use of machine learning techniques to learn the optimal user similarity measure as well as user rating styles for enhancing recommendation acurracy. Based on a criterion function measuring the overall prediction error, several ratings transformation functions for modeling rating styles together with their learning algorithms are derived. With the help of the formulation and the optimization framework, subjective components in user ratings are removed so that the transformed ratings can then be compared. We have evaluated our proposed methods using the EachMovie dataset and succeeded in obtaining significant improvement in recommendation accuracy when compared with the standard correlation-based algorithm.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号