首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
为有效精确地挖掘海量数据流特征,提出采用数据集中位分割和冗余数据碎片合并的方法设计决策树并构建云平台数据特征挖掘模型。传统的云平台下数据挖掘中对碎片信息不做处理,使文本碎片成几何级增长,导致有用信息的丢失。通过挖掘冗余信息中符合挖掘条件的碎片特征,使用KD树进行数据挖掘索引,在迭代过程中,对数据进行层进中位分割,并结合碎片合并技术,构建数据挖掘云平台模型,对中位数进行维度匹配分箱,使数据的挖掘和传输率最大限度地得到利用。仿真实验证明了采用碎片合并的方法能有效提取冗余碎片中的有用特征信息,数据挖掘性能得到大幅度提升,在数据信息提取和管理中具有很好的推广意义。  相似文献   

2.
数据挖掘是指把数据有目的有组织地收集起来,对这些数据进行分析使之成为有用信息,从而找出了海量数据的技术形态规则或知识的潜在规则的一种技术。本文概述了数据挖掘的含义、发展和解决的典型商业问题,并从数据挖掘的商业应用实例出发,介绍了如何利用数据挖掘技术来解决现实中出现的实际问题。  相似文献   

3.
随着信息化时代的来临,数据量呈现直线上升,如何从这海量数据中提取有效信息是信息化发展必须解决的问题。传统数据结构设计采用数组、链表或者关联容器的数据结构设计方法,无法解决数据海量时带来的空间离散性和数据关联性问题,数据分析效率低。为此提出一种基于数据挖掘的点线面多层数据结构设计方法,采用K-means算法对数据进行挖掘,提取数据特征,然后设计了点、线、面多层数据结构,最后采用反距离插值的方法对数据的空间性能进行分析,并以实际空间离散数据为对象进行分析。结果显示,采用新设计的数据结构后,数据分析耗费时间更短,性能更加优越。  相似文献   

4.
信息搜集手段的不断发展使得情报人员要处理的信息量越来越大,就出现了如何通过一种有效的方式处理海量数据,并从中发现情报的问题.数据挖掘正是从大量数据中提取知识的一种很好的工具.从数据中的知识发现过程与情报发现过程的相似性,对如何运用数据挖掘技术从信息中发现情报进行探索.  相似文献   

5.
数据挖掘在图书销售企业精确营销中的应用   总被引:2,自引:0,他引:2  
研究基于数据挖掘技术的精确营销的方法和理念,结合图书销售企业目前的营销现状和存在的问题,挖掘发现隐藏在海量数据中的知识.通过对企业管理信息系统的源数据库海量信息的数据进行数据分析、提取,确立主题,进行有效的数据组织,来构建数据仓库模型.应用Microsoft SQL server 2005 Analysis提出数据挖掘技术的解决方法,并使用其功能强大的数据挖掘技术:决策树、聚类分析和关联规则等应用广泛的分析方法,探讨基于数据挖掘技术的精确营销在图书销售企业的客户细分,用户购买行为分析以及营销策略.  相似文献   

6.
在当前的复杂数据挖掘方法中,多是基于关联规则进行关联挖掘,一旦数据之间的关联性被大量的冗余关联打破,形成数据的无序性,就会出现挖掘耗时,挖掘错误较多的问题.为了解决这一问题,本文提出一种基于信誉兴趣区间划分的数据优化查询算法.在海量的数据中,针对错综复杂的数据关系,通过信誉兴趣函数对数据进行较为清晰地划分.尤其在关联规则较为混乱的情况下,这种方法能够得到更为准确的数据分类区间.实验结果表明,这种数据挖掘方法针对大型数据库中的海量数据挖掘效果更佳,且挖掘算法速度更快,效率更高.  相似文献   

7.
提出一种基于最大熵功率谱估计的Hadoop云平台下网络音视频数据特征挖掘方法,实现对数据信息的高速访问。构建数据挖掘Hadoop云平台和数据挖掘访问模型,设计最大熵功率谱特征提取算法,采用分段思想将同一时间段的视音频数据进行群体分割,分段提取最大熵功率谱特征。将提取的特征信息进行维度匹配分箱和溯源处理,实现信息恢复,最终完成高速数据访问。仿真测试表明,该算法能有效地实现对网络音视频数据的特征挖掘,提高访问效率,访问响应时间较当前方法缩短明显。  相似文献   

8.
陈雨婕  刘亚琦 《今日科苑》2007,(24):109-110
如何从复杂的空间数据中发现隐含的、有价值的信息已经成为一个非常迫切的问题:空间数据挖掘和GIS的集成为解决问题提供了一种新的思路。文章结合空间数据挖掘和GIS的特点,提出了GIS和SDM的集成体系结构,在此基础上提出GIS与数据挖掘集成的实例及在企业客户关系管理中的应用。该体系利用GIS的图形显示和空间分析功能,结合空间数据挖掘技术对这个系统中的海量空间信息和非空间信息的处理,从现有的地理信息以及海量数据中挖掘出潜在模式和有用信息,对提高整个企业的自动化水平具有重要的作用。  相似文献   

9.
文章设计一种部署于互联网上的舆情监测应用系统,该系统能够对互联网上的网页、论坛、微博等多种信息媒介进行监测,并自动的采集各种页面上的数据。通过数据挖掘方法从互联网中不同的信息媒介中提取出有价值的信息,并对网络舆情的状况和发展趋势做出预测,实现对互联网上的网络舆情进行实时监测的应用目标。  相似文献   

10.
采用时空两维数据联合挖掘的方法,对低质量的图像在时间维和空间组成图像的输入,采用两维数据挖掘的方法同时在时间域和空间对图像信息进行提取,由于空间与时间域信息具有一定的信息耦合性,所以此方法能很好地实现信息挖掘。采用一组3帧图低质量像进行挖掘实验,结果显示,采用时空两维数据联合挖掘方法,可以很好地从低质量的图像中提取出信息,具有很好的应用价值。  相似文献   

11.
Eliminating noisy information and extracting informative content have become important issues for web mining, search and accessibility. This extraction process can employ automatic techniques and hand-crafted rules. Automatic extraction techniques focus on various machine learning methods, but implementing these techniques increases time complexity of the extraction process. Conversely, extraction through hand-crafted rules is an efficient technique that uses string manipulation functions, but preparing these rules is difficult and cumbersome for users. In this paper, we present a hybrid approach that contains two steps that can invoke each other. The first step discovers informative content using Decision Tree Learning as an appropriate machine learning method and creates rules from the results of this learning method. The second step extracts informative content using rules obtained from the first step. However, if the second step does not return an extraction result, the first step gets invoked. In our experiments, the first step achieves high accuracy with 95.76% in extraction of the informative content. Moreover, 71.92% of the rules can be used in the extraction process, and it is approximately 240 times faster than the first step.  相似文献   

12.
基于云计算信息处理系统体系结构设计   总被引:2,自引:0,他引:2  
刘燕 《科技通报》2012,28(8):100-102,106
研究面向云计算的智能管理系统的体系架构与集约化数据管理的理论和方法。建立面向云计算的智能管理系统原型,数据空间的模式规范化理论和需求归约化方法,实现云计算个性化管理;采用分离式管理架构,实现按需双向动态一致性维护,多源、非结构数据的抽取、融合与分析;建立面向数据安全与隐私保护的安全体系结构,保证系统中各类数据的安全和可信。  相似文献   

13.
闫永君 《情报科学》2021,39(8):126-131
【目的/意义】当前的信息用户行为特征挖掘方法无法将数据统一整合,且无法准确计算出时间序列内滑动 窗口内的数据均值,导致特征挖掘精度偏低。为此,提出了基于时间特性的信息用户行为特征挖掘方法。【方法/过 程】计算时间序列内滑动窗口内的数据均值,得出起始序列向量,再将用户行为划分成若干等值的时间片,通过取 样统计各种用户群体,得出用户的行为状态定性。以平均查询频率作为标准,观察用户的查询行为特征,输出信息 挖掘结果。【结果/结论】实验结果表明:所提方法挖掘出夜晚用户行为信息多于白天,休息日比工作日多,且在网络 波动下,虽然耗时增加,不过处于合理范围内。与传统方法相比,所提方法具有更低的挖掘误差,应用性较强。以 上实验结果证明了基于时间特性的信息用户行为特征挖掘研究能获取更准确的用户行为意向,提高用户兴趣预测 准确度,优化网络服务效果。【创新/局限】为进一步提高网络信息特征挖掘的效率,后续将重点研究多个网络用户 行为的并行分析,使该方法更适用于网络海量信息处理。  相似文献   

14.
Machine understanding and thinking require prior knowledge consisting of explicit and implicit knowledge. The current knowledge base contains various explicit knowledge but not implicit knowledge. As part of implicit knowledge, the typical characteristics of the things referred to by the concept are available by concept cognition for knowledge graphs. Therefore, this paper attempts to realize concept cognition for knowledge graphs from the perspective of mining multigranularity decision rules. Specifically, (1) we propose a novel multigranularity three-way decision model that merges the ideas of multigranularity (i.e., from coarse granularity to fine granularity) and three-way decision (i.e., acceptance, rejection, and deferred decision). (2) Based on the multigranularity three-way decision model, an algorithm for mining multigranularity decision rules is proposed. (3) The monotonicity of positive or negative granule space ensured that the positive (or negative) granule space from coarser granularity does not need to participate in the three-classification process at a finer granularity, which accelerates the process of mining multigranularity decision rules. Moreover, the experimental results show that the multigranularity decision rule is better than the two-way decision rule, frequent decision rule and single granularity decision rule, and the monotonicity of positive or negative granule space can accelerate the process of mining multigranularity decision rules.  相似文献   

15.
One of the most important opinion mining research directions falls in the extraction of polarities referring to specific entities (aspects) contained in the analyzed texts. The detection of such aspects may be very critical especially when documents come from unknown domains. Indeed, while in some contexts it is possible to train domain-specific models for improving the effectiveness of aspects extraction algorithms, in others the most suitable solution is to apply unsupervised techniques by making such algorithms domain-independent and more efficient in a real-time environment. Moreover, an emerging need is to exploit the results of aspect-based analysis for triggering actions based on these data. This led to the necessity of providing solutions supporting both an effective analysis of user-generated content and an efficient and intuitive way of visualizing collected data. In this work, we implemented an opinion monitoring service implementing (i) a set of unsupervised strategies for aspect-based opinion mining together with (ii) a monitoring tool supporting users in visualizing analyzed data. The aspect extraction strategies are based on the use of an open information extraction strategy. The effectiveness of the platform has been tested on benchmarks provided by the SemEval campaign and have been compared with the results obtained by domain-adapted techniques.  相似文献   

16.
A challenge for sentence categorization and novelty mining is to detect not only when text is relevant to the user’s information need, but also when it contains something new which the user has not seen before. It involves two tasks that need to be solved. The first is identifying relevant sentences (categorization) and the second is identifying new information from those relevant sentences (novelty mining). Many previous studies of relevant sentence retrieval and novelty mining have been conducted on the English language, but few papers have addressed the problem of multilingual sentence categorization and novelty mining. This is an important issue in global business environments, where mining knowledge from text in a single language is not sufficient. In this paper, we perform the first task by categorizing Malay and Chinese sentences, then comparing their performances with that of English. Thereafter, we conduct novelty mining to identify the sentences with new information. Experimental results on TREC 2004 Novelty Track data show similar categorization performance on Malay and English sentences, which greatly outperform Chinese. In the second task, it is observed that we can achieve similar novelty mining results for all three languages, which indicates that our algorithm is suitable for novelty mining of multilingual sentences. In addition, after benchmarking our results with novelty mining without categorization, it is learnt that categorization is necessary for the successful performance of novelty mining.  相似文献   

17.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

18.
李勇男 《情报科学》2021,39(11):127-132
【目的/意义】为了发现更全面、更具有普适性的反恐情报信息,本文在单层次关联规则挖掘的基础上研究 反恐情报的多层次关联规则挖掘方法。【方法/过程】根据反恐情报的数据特征提出统一最小支持度和多单项最小 支持度参数并用的方式筛选多层次涉恐特征频繁项集,在情报分析过程中保存部分特殊的冗余频繁项集、冗余多 层次关联规则和无趣多层次关联规则。【结果/结论】本文的研究可以发现涉恐数据中不同概念分层的关联规律。 [创新/局限] 文中提出的关联分析方法能够弥补普通的单层次关联规则挖掘在分析包含多层属性的涉恐数据中存 在的不足,为反恐预警和反恐决策提供更丰富、更科学、覆盖范围更广的参考。  相似文献   

19.
基于语义挖掘的智能竞争情报系统研究   总被引:2,自引:0,他引:2  
语义挖掘是一种从非结构化数据中准确地提取有用信息和知识的新兴数据挖掘技术。利用语义挖掘对这些非结构化数据和信息进行智能采集、分析和处理,可以帮助企业快速建立起经济有效的竞争情报流程。本文融合语义挖掘的相关技术来探索竞争情报的智能采集与分析原理,构建了一个基于语义数据挖掘的企业智能竞争情报系统。  相似文献   

20.
鞠海龙  彭珺 《情报科学》2021,39(10):170-177
【目的/意义】互联网数据中隐藏着的消费心理、消费需求等消费者情报对提升企业竞争力意义重大。对用 户购买行为产生及演进机制的发掘,不仅能让企业掌握更多自身产品和服务中的具体细节信息,还能从本质上发 现用户的需求偏好,推进企业实施科学经营决策。【方法/过程】本文提出一种利用因果事理图谱的消费者情报获取 方法,以京东平台手机在线评论数据源为例,首先通过利用基于规则和依存句法分析结合的自然语言处理技术对 数据源之间的因果关系变量进行识别和事件知识抽取,再结合LDA模型进行事件聚类,最后利用Gephi可视化等 方法实现对用户购买行为的起源与发展机制等特征的识别与呈现,探测用户潜在需求偏好。【结果/结论】结果显 示,用户购买手机的行为是一系列严密的因果事理逻辑演进过程,包括买前需求、购买决策、买后评价三个递进阶 段,用户经历产生购买需求;多维需求驱动购买决策演化;最后是否获得对应需求服务的过程影响满意度的评价。 【创新/局限】采用事理图谱的用户购买行为分析,为拓展大数据情报挖掘方法提供了借鉴。但基于规则的事件知 识抽取受数据库限制,导致该方法实施效率受到一定程度影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号