首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
关联规则挖掘是数据挖掘领域的重要课题,但是,就评价关联规则是否有价值的依据,即兴趣度的度量方法,学术界没有一致的标准.传统的兴趣度度量方法包括支持度-置信度,提升度,改善度,有效度,影响度方法等.这些传统的兴趣度度量方法都存在各自的局限,本文首先比较分析了关联规则的客观兴趣度度量的相关研究成果,然后,针对它们的不足进行了改进,提出了两种比较有效的关联规则度量方法(New-lift,New-Improve),通过实验分析,进而提出新的度量框架,并实证了新方法的特征属性.  相似文献   

2.
关联规则挖掘算法通常生成大量的规则,但由于资源的限制,只有少量规则可能被筛选出来使用。因此关联规则的兴趣度评价成为数据挖掘领域中的一个重要问题。考虑到关联规则兴趣度评价本质上是一个多属性决策问题,本文首先基于关联规则的客观兴趣度度量和用户的主观偏好,建立了关联规则评价指标体系;然后提出一种基于组合评价方法的关联规则评价的框架及其具体实现步骤,以解决多种评价方法评价结果不一致的问题;最后以某超市购物篮数据分析为例,基于整体差异的组合评价方法实现了关联规则的组合评价以验证所提评价方法的可行性和有效性。  相似文献   

3.
关联规则兴趣度的度量   总被引:16,自引:2,他引:14  
本文对PS公式(关联规则兴趣度的一种度量公式,简单有效)的数学特性进行了深入的讨论,指出了它的优点和不足,并在此基础之上提出了一个新的度量规则兴趣度的方法.这种度量方法综合考虑了用户主观偏好、规则准确度、规则相关度对规则兴趣度的影响,克服了支持度-可信度框架的缺陷,可以用来简化寻找令人感兴趣规则的过程,优化现有的关联规则挖掘算法,因此,具有很好的应用前景.  相似文献   

4.
联规则挖掘是数据挖掘和知识发现领域的重要课题,但就判定关联规则是否成立的依据,即兴趣度的度量方法问题,学术界没有一致的标准.既有的兴趣度度量方法包括支持度-置信度方法,提升度方法,卡方分析方法等.这些传统的兴趣度度量方法存在各自的局限,表现为缺乏客观标准,缺少统计依据,只能度量正向关系等方面.为了克服这些问题,本文提出了一种基于统计推断的新的兴趣度度量方法,并对该方法与传统的方法进行了比较,证明了该度量公式的渐进分布形式,指出了新方法的优点,实证了新方法的特征属性.该方法用于关联规则挖掘,在判断规则成立的标准上是客观的,可以判定正负关联两种类型,在实际应用上是方便的,具有可操作性,较之原有方法有一定的优势.  相似文献   

5.
黄名选 《图书情报工作》2011,55(15):110-113
针对情报检索系统中存在的词不匹配问题,提出一种基于相关性-兴趣度架构的关联规则挖掘的局部反馈查询扩展算法,并论述查询扩展基本思想、扩展算法模型以及扩展词权值的计算方法。该算法主要特点是采用支持度-置信度-相关性-兴趣度框架衡量关联规则,避免产生负相关的、虚假的和无兴趣的规则,提高来自于关联规则的扩展词的质量。实验结果表明,该算法能有效地改善和提高信息检索性能, 有很高的实际应用价值和推广前景。  相似文献   

6.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

7.
通过对关联规则综合评价的探讨,提出基于支持度、置信度、Jaccard兴趣度、吸引度和收益因素,面向网上书店和数字图书馆的图书推荐模型,运用熵权法和相对比较法确定模型中指标的权重,并对模型的算法进行研究。通过开发的网上书店系统对模型的功能进行验证,结果表明:该模型能够很好地为用户提供推荐图书。  相似文献   

8.
关联规则挖掘是解决电子商务推荐问题的重要方法之一.针对传统关联规则挖掘算法在解决移动电子商务环境个性化推荐问题时反复扫描数据库,频繁项挖掘效率低,关联规则挖掘准确率低以及规则大量冗余等不足,提出一个基于事务矩阵和用户兴趣度的关联规则挖掘算法(Matrix-and-Interestingness-based Association Rules Mining,MIbARM).该算法仅需扫描一次数据库,并在挖掘过程中不断缩小算法搜索空间以避免生成冗余候选项,同时避免了冗余规则挖掘,从而提高了挖掘效率.最后,在四组人工数据和160种参数组合的数值实验环境下,引入Apriori、CBAR 及BitTableFI算法对MIbARM进行对比验证.结果表明,在不减少有趣规则的前提下,MIbARM不但可有效避免冗余候选项集的产生,而且大幅减少了冗余规则数量,极大提高了算法的搜索效率,同时提升了个性化推荐的质量,更适用于移动电子商务环境下的个性化推荐问题.  相似文献   

9.
基于本体构建的协同推荐研究   总被引:2,自引:0,他引:2  
通过构建领域本体,利用用户兴趣与领域本体中概念的映射关系,构建用户兴趣本体,发掘用户兴趣模式。研究用户兴趣本体相似度的计算方法,并通过用户兴趣相似度进行垂直加权,通过时间新颖度进行水平加权,从而利用改进的加权关联规则挖掘算法对用户感兴趣的领域本体中的概念进行挖掘,实现面向内容的协同推荐。  相似文献   

10.
针对数据挖掘中的关联规则挖掘广度及效率问题,提出了一种基于免疫优化的关联规则挖掘算法.将数据原始记录和候选模式分别作为抗原和识别抗体,通过免疫聚类竞争加速克隆扩增,提高抗体成熟力及亲和性,增强候选模式支持度.在算法执行过程中,支持度大于阈值的优秀个体都将被作为记忆细胞保存下来.这样,记忆细胞所代表的模式满足最小支持度要求,可以很容易提取出也同时满足最小置信度要求的关联规则.试验表明,该算法加快了关联规则挖掘的收敛速度,具有更强的全局与局部搜索能力,提高了所得关联规则的准确率.在高校教学质量评估及规则挖掘中体现出应用价值.  相似文献   

11.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

12.
基于数据挖掘的图书馆读者需求分析   总被引:16,自引:1,他引:16  
图书馆数字化发展,使数据挖掘等技术在读者需求预测方面得到了广泛使用。可以利用图书馆的借阅数据及调查结果,形成一个关于读者需求的数据仓库,挖掘出读者需求的规则和模式,并进行模糊推理,指导藏书建设。在这个思路下提出一个基于数据挖掘及模糊推理的需求分析模型。  相似文献   

13.
藏书事业的兴衰与各个朝代统治者所采取的行政措施有着极大的关系。明代统治者采取了发展社会经济、大兴教育和科举、保护藏书等一系列有利于藏书发展的政策和措施,为藏书营造了良好的社会环境,推动了明朝藏书事业的繁荣和发展。  相似文献   

14.
一种基于数据挖掘技术的馆藏资源个性化推荐服务   总被引:2,自引:0,他引:2  
本文介绍了一种如何将ID3决策树算法和关联规则应用于馆藏文献信息资源的个性化推荐服务当中去的方法.文中首先对读者借阅历史记录进行了挖掘和分析,利用决策树算法挖掘出可推荐的相关读者对象,再依据关联规则提取借阅历史记录并对其进行分析和挖掘,从中找出相关潜在的有用或有价值的规则,然后依据这些规则选择出最适合推荐的项目推荐给读者.该方式是为实现个性化推荐服务所进行的一种新的探讨,具有算法收敛性好,计算方法简单有效,可靠性高,推荐效果显著等优势,与传统推荐技术相比,能够更加全面、准确、清晰地进行文献推荐.理论和实践结果表明,所提出的这种方法是一种行之有效的形式.  相似文献   

15.
刑事案件的多维关联分析模型研究   总被引:2,自引:1,他引:1  
为了发现刑事案件中犯罪的特点与规律,本文建立了刑事案件的多维关联分析模型.首先,进行刑事案件的数据清理;然后,建立刑事案件多维数据模型,其中包括概念分层与建立数据立方体;在此基础上,利用改进的频繁谓词集算法寻找频繁谓词集,根据最小支持度与最小置信度要求,产生强关联规则;最后,对结果进行解释与评价.建立模型后,本文利用刑事案件的样本数据,详细地描述了整个模型的建立过程,并且利用大连市公安局提供的真实数据验证了模型的可用性与正确性并对结果进行了详细分析.本文建立的刑事案件多维关联分析模型为今后城市公安数据挖掘应用研究提供了参考.  相似文献   

16.
信息系统中一种面向粗糙集的数据挖掘方法   总被引:17,自引:2,他引:15  
程岩  黄梯云 《情报学报》2001,20(1):90-99
数据挖掘技术是信息系统的一个重要研究内容 ,它可以从大量数据中自动发现对决策有帮助的知识。许多数据挖掘技术仅仅适用于精确集 ,不适用于粗糙集 ,而现实中粗糙集是普遍存在的现象 ,因此开发出一种面向粗糙集的数据挖掘技术在信息系统的研究领域具有重要意义。本文结合粗糙集理论提出了一个信息系统的粗糙集模型 ,在此基础上设计出一个属性约简方法及从粗糙集中发现规则的算法 :Apriori_2。  相似文献   

17.
为探寻当前刑事案件的发案规律与特点,以便及时预防和打击刑事犯罪,本文研究提出了刑事案件的多层关联分析模型。首先提出了刑事案件的多层关联规则挖掘的模型框架,依据所建立的刑事案件多维多层数据立方体模型,设计了层间递减支持度策略。基于经典的Apriori算法,提出了适于多层频繁谓词集搜索的改进Apriori算法,按照最小支持度与最小置信度的要求产生强关联规则。由于多层挖掘产生的规则可能存在祖孙关系,本文设计了结果分析中的减少冗余规则。最后,利用大连公安局提供的甘井子区1999~2006年的18 629条刑事案件的真实数据,验证了模型的正确性与有效性。  相似文献   

18.
Open data is a global movement with the potential to generate significant social and economic benefits. Policies on open government data (OGD) inspire the development of new and innovative services that government agencies may lack. The International Open Data Charter adequately describes the importance of data mining. Governments that have signed this charter should focus on the following areas—(i) data mining, (ii) linkage, and (iii) in-depth analysis, i.e., distribution of open data that is freely accessible for elaborate analysis using machine reading. However, a series of practical difficulties is observed in connection with the data mining of OGD for in-depth analysis. First, most OGD do not have identifiers to prevent privacy disclosure. Second, owing to the nature of siloed data, the data sharing and collection methods vary with respect to heterogeneous OGD, and administrative or institutional barriers need to be overcome. This has created a demand for a novel technical solution that applies micro-aggregation and distance-based record linkage to address the aforementioned issues. Thus, in this study, a method capable of integrating two or more de-identified OGDs into one dataset to enable OGD data mining is proposed. In addition, the proposed method allows users to adjust the privacy threshold level to determine an appropriate balance between privacy disclosure risk and data utility. The effectiveness of the method is evaluated in terms of several metrics via extensive experimentation. This study emphasizes the importance of the research on efficient utilization of already-published OGDs, which has been relatively neglected in the past. Further, it broadens the research area for privacy-preserving data mining by proposing a method capable of mining heterogeneous data even in the absence of identifiers.  相似文献   

19.
指出作为处理海量数据的有效工具,文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘的相关技术和研究现状,介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文社科研究中的具体应用,以拓展文本挖掘的应用领域,并为人文社科研究的方法创新提供新的思路。  相似文献   

20.
数据挖掘技术在科技期刊网站中的应用   总被引:1,自引:0,他引:1  
卜延明  范洪涛 《编辑学报》2015,27(3):276-279
基于数据挖掘技术,对科技期刊网站系统中产生的数据进行分析,获取隐藏其中有价值的知识.根据科技期刊的行业特点,以及其信息系统的应用情况,通过整合所得到的相关数据,利用数据挖掘技术,对整合后的数据进行分析,从而在科技期刊经营模式中获取到大量有价值的规律和宝贵的经验.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号