共查询到20条相似文献,搜索用时 31 毫秒
1.
Web挖掘技术在电子商务中的应用研究 总被引:16,自引:0,他引:16
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。 相似文献
2.
3.
4.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能. 相似文献
5.
介绍了数据挖掘中聚类算法的定义、功能及常用算法,并根据南京化工职业技术学院的实际情况,构建数据源,设计基于聚类算法的图书馆书目推荐服务. 相似文献
6.
用户兴趣模型是个性化服务的核心,对用户兴趣的挖掘可以发现潜在的兴趣知识,提供更为优化的服务.本文将主题图技术与用户兴趣模型结合起来,研究了用户兴趣知识的主题图表示,并在此基础上运用无尺度图K-中心点聚类算法对构建的主题图进行深层次的聚类挖掘,建立了基于主题图的用户兴趣挖掘模型.在解释模型各个模块功能的同时,提出了该过程模型中的关键问题,并对建立模型过程中的无尺度图K-中心点聚类算法、文档中的主题图表示及主题概化和主题图合并等关键问题进行了深入的分析,最终构建了智能主题图,实现了过程建模和事物建模. 相似文献
7.
协同推荐中基于用户-文档矩阵的用户聚类研究* 总被引:1,自引:0,他引:1
针对个性化推荐服务的需要以及用户聚类处理时用户-文档访问数据的高维稀疏性问题,采用“比对降维”的思想和K层次聚类算法,分析基于用户资源评价数据的用户聚类处理流程。在此基础上,采用Java开源技术设计并实现一个用户聚类的试验系统。 相似文献
8.
随着互联网技术的迅速发展,WWW网站逐渐成为最受欢迎的信息检索服务系统,推动了我国信息化建设的发展。由于信息技术的迅速发展使得人们对信息资源的要求越来越高,停留在静态web网站的开发不能满足用户的需求,在动态web下开发大型交互网站成为大势所趋。动态web具有灵活性的特点,在动态web下开发大型交互网站,能够在将信息发送给用户的同时实现服务器与用户的交互,帮助用户获取实时的动态信息。本文将从当前web开发的总体形势出发,来对动态web开发下大型交互网站的设计进行初步探析。 相似文献
9.
传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法. 相似文献
10.
陈丽珊 《福建广播电视大学学报》2009,(1):70-74
本文针对目前基于聚类算法的入侵检测技术存在符号类型数据处理能力欠缺、误报率较高的问题。提出了一种基于聚类和关联规则修正的入侵检测技术。该方法将关联规则挖掘技术引入到聚类分析机制中.利用针对符号型属性的关联规则挖掘结果对聚类结果进行修正,从而有效降低由于在入侵检测单纯使用聚类分析所导致的误报。文中详细的阐述了改进的具体实现方案,并通过实验验证了该技术的可行性。 相似文献
11.
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确地定位自己想要的信息,集成了文档聚类功能的搜索引擎应运而生。本文讨论了文档聚类技术在搜索引擎中的应用问题,介绍了一些算法,重点分析了Vivisimo这个比较有代表性的聚类搜索引擎,并预测了搜索引擎聚类技术的发展趋势。 相似文献
12.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果. 相似文献
13.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。 相似文献
14.
15.
基于主题模型的科技报告文档聚类方法研究 总被引:1,自引:0,他引:1
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。 相似文献
16.
基于粗糙用户聚类的协同过滤推荐模型 总被引:1,自引:0,他引:1
【目的】将粗糙集引入到基于用户聚类的协同过滤中,提高推荐质量。【方法】提出一种基于粗糙用户聚类的协同过滤推荐模型:离线时采用粗糙K-means用户聚类算法,根据用户与聚类中心的相似度将其分配到K个类的上、下近似中,形成用户的初始近邻集;在线时从目标用户的初始近邻集中搜索其最近邻,预测项目评分并向其产生推荐。【结果】通过实验对比发现,该模型比传统的和基于项目的协同过滤推荐算法降低约14%的平均绝对误差,比基于用户聚类的协同过滤推荐算法降低约10%的平均误差。【局限】在考虑上、下近似对聚类中心调整的重要程度时,忽略了用户聚类数目和最近邻集用户数阈值的变化所产生的影响。【结论】该模型能有效提高推荐精度,具有较强的可行性和现实意义。 相似文献
17.
论文探讨利用R语言工具对图书馆新浪微博数据进行子主题聚类和挖掘,指出:在文本分词、构建词频——文档矩阵的基础上,使用Pamk算法和Kmeans算法进行微博聚类,获取图书馆服务质量评价与建议信息,挖掘图书馆核心微博用户,便于图书馆利用微博数据评估服务效果,改进服务质量。 相似文献
18.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠. 相似文献
19.
针对某政府网站某一时间段的服务器日志中抽取出的搜索引擎查询信息,提出了一系列规则来遴选出有代表性的核心查询词,并分别针对每个核心查询词进行共现与可视化聚类分析,创建基于共现频率的相似矩阵,采用非计量MDS算法导出三维可视化聚类图,并且采用基于瓦兹算法(Wards method)的层次聚类法验证了MDS算法三维可视化聚类结果的正确性、有效性与优越性.同时,我们针对日志的特点开发了适合本研究的一系列分析工具,从而能够帮助我们对同类网站、不同结构的日志信息进行挖掘、提取、选择和加工,并利用统计分析工具对加工结果进行可视化聚类分析和比较研究.实验结果表明,本分析方法充分发挥了MDS分析方法与各种向量空间聚类计算优点,能更好地观察对象间的聚类样式、形状以及距离,能够为构建基于主题图的政府电子政务平台优化研究提供理论方法和实证依据. 相似文献