首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据仓库应用到文本信息越来越广泛,文章指出了数据清洗能提高数据的质量,阐述了数据清洗技术在文本挖掘应用中急需解决的问题.  相似文献   

2.
对海量数据采集与挖掘技术的问题,提出如何利用WEB文本进行多断点控制、并发采集、网上清洗等新技术方法进行海量数据采集及处理,构建了基于WEB文本海量数据挖掘的应用统计系统,实现了三千多万条原始数据的采集、转换、统计.  相似文献   

3.
马晓亭 《现代情报》2016,36(9):107-111
图书馆的大数据时代已经来临,大数据质量问题是影响图书馆大数据应用的重要因素,而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因,设计了基于大数据决策分析需求的图书馆大数据清洗系统,该系统不仅可以提高大数据清洗的效率和精确度,而且大幅度降低了图书馆大数据决策分析的复杂度。  相似文献   

4.
在数据装入数据仓库之前,应该对数据进行数据清洗.而数据清洗的核心工作就是清洗近似重复记录.聚类是将相似度高的数据对象聚集到一个类中,于是我们提出将该技术用于近似重复记录的发现上.本文主要介绍如何将SOM网络聚类强大的学习功能及良好的自组织性、自适应性和鲁棒性应用到数据清洗中。  相似文献   

5.
随着时代的信息化发展,大数据在各行各业中的应用越来越重要,然而大数据应用也面临着信息质量下降、数据处理困难等挑战,阻碍着大数据应用进一步发展,而云清洗系统可以针对这些问题逐一击破,着重探讨大数据云清洗系统的设计与实现。  相似文献   

6.
探讨了将推理机引入到SCI地址字段数据清洗中的方法。首先通过指出目前SCI地址字段数据清洗方法的不足阐述了进行SCI地址字段数据清洗方法研究的必要性,然后介绍了推理机的基本原理,并对应用于SCI地址字段数据清洗中的推理机进行了设计,包括待推理数据的生成、知识库的构建及推理控制策略的设计等,旨在提出适用于SCI地址字段数据清洗的方案。  相似文献   

7.
ETL即数据抽取、转换、装载的过程,它是构建数据仓库的重要环节,而数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合。数据清洗是一个减少错误和不一致性、解决对象识别的过程,目前有很多数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗,此方面研究不多。本文将以此为问题出发点,探讨ETL中的数据清洗技术在税务系统(贵州省省直属局和九个地市州的原始数据)中的应用。  相似文献   

8.
Web网络中存在海量文本,需要进行合理高效的文本抽取,实现Web文本数据挖掘。由于Web文本数据的高维特性,文本抽取过程中自动分类配对困难。提出一种基于RBF神经网络隐节点共振致密配对的Web数据文本抽取算法,进行Web数据文本特征采样与关联主特征挖掘,在每次移动中形成RBF隐节点共振致密配对,得到最优文本特征选择的路径,建立RBF神经网络分类器,实现基于蚁群算法的特征抽取算法改进。实验结果表明,该算法能有效实现对隐节点的共振致密配对,特征挖掘跟踪性能较好,保障了挖掘性能,系统所提取的特征分量与其他模糊分量差距较小,文本正确抽取召回率高于传统方法,在Web网络数据文本抽取中具有优越可靠的应用价值。  相似文献   

9.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。  相似文献   

10.
宁琳 《现代情报》2016,36(2):140
文本挖掘是数据挖掘技术的一个重要方面,本文根据句法规则的特征,利用文本挖掘技术,提出基于句法规则的文本知识挖掘设计模型,从数据准备、句法规则构造、文本预处理、文本知识挖掘、挖掘结果评价等方面对工作原理进行了分析,重点阐述了句法规则的构造过程,最后通过实验验证了该模型,该设计对实现文本知识的智能化挖掘具有一定的研究意义和应用价值。  相似文献   

11.
大数据转变成可视化数据依靠的是计算机领域中的文本挖掘技术。文本挖掘中最重要且最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。本文重点讲述如何利用文本挖掘技术对当前的电子商务市场表现进行研究。  相似文献   

12.
针对商业智能中存在的数据质量问题,提出在应用层使用本体技术来提升数据质量的方法。根据商业智能中大部分应用以报表形式展现的特点,在应用层构建了报表本体库,以指标作为基本单位对应用数据进行清洗和加载,建立了以指标间逻辑关系为基础的数据质量检查机制。应用结果表明,该方法能够解决在应用层引起的各种数据质量问题,提高了数据的可解释性和可信性。  相似文献   

13.
[目的/意义]提出融合母评论文本信息的评论短文本情感分类模型以提高互联网环境下短文本评论情感分析效果,适应舆情工作中的实际应用需求。[方法/过程]以短视频平台舆情事件的评论数据为实验对象,利用GRU提取母评论文本特征和直接提取评论区特征,分别将这些特征与CNN提取原评论文本特征并行融合进行情感分类。[结果/结论]相较于传统深度学习方法,引入的母评论文本特征使两个数据集的情感分类效果都获得了一定提升,F1值等均分别提升了2%和1%,说明本文提出的特征引入方案能够提升评论短文本的分类效果,为舆情工作中的情感监测实际应用提供了思路,验证了舆情相关理论研究对实际技术应用有借鉴和指导意义。  相似文献   

14.
定量专利分析的样本选取与数据清洗   总被引:3,自引:0,他引:3  
定量专利分析工作离不开正确的样本选取和严谨的数据清洗。作为定量专利分析的前提和基础,样本选取和数据清洗影响着专利分析的结论,并决定着专利分析的效果。样本选取和数据清洗的基本步骤是:选择数据来源、限定数据范围、生成样本空间、数据规范、字段拆分以及数据标引。  相似文献   

15.
个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究内容。提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到数字图书馆中电子资源的个性化推荐中。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快;本文方法极大地提高了文本挖掘系统的分类效率。  相似文献   

16.
基于多因素方差分析的文本向量特征挖掘算法   总被引:2,自引:0,他引:2  
文本向量特征挖掘应用于信息资源组织和管理领域,在大数据挖掘领域具有较大应用价值,传统算法精度不好。提出一种基于多因素方差分析的文本向量特征挖掘算法。使用多因素方差分析方法得到多种语料库的特征挖掘规律,结合蚁群算法,根据蚁群适应度概率正则训练迁移法则,得到种群进化最近时刻获得的数据集有效特征概率最大值,基于最优划分的K-means初始聚类中心选取算法,先对数据样本进行划分,然后根据样本分布特点来确定初始聚类中心,提高文本特征挖掘性能。仿真结果表明,该算法提高了文本向量特征的聚类效果,进而提高了特征挖掘性能,具有较高的数据特征召回率和检测率,时间耗时较少,在数据挖掘等领域应用价值较大。  相似文献   

17.
陈旭毅 《情报科学》2007,25(10):1530-1533
自动文本分类方法是文本分类中非常重要的一种分类方法,本文着重从模型与方法的角度进行探讨。首先给出了一个自动文本分类的形式化定义,然后提出了自动文本分类的流程模型。接着,对流程中的四个部分进行具体讨论。自动文本分类的应用非常广泛,为了叙述方便,以商务数据为例进行讨论,并且选择实例作为典型案例对自动文本分类后的可视化进行分析和具体研究。  相似文献   

18.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

19.
《内江科技》2016,(9):115-116
在数据抽取中,主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领域都有着广泛的应用。经过分类后的文本可以减少用户甄别信息时间,满足不同用户需求,发挥信息自身其最大使用价值。  相似文献   

20.
韩娜  马海群  刘兴丽 《情报科学》2021,39(11):180-186
【目的/意义】从大数据驱动角度出发,探索采用人工智能方法实现对政策文本协同性定量分析的可能性。 【方法/过程】以政策全文本数据为研究对象,使用知识图谱技术实现不同主题的本体构建,并应用数据挖掘中关联 规则构建推理模型,对图谱表示的政策文本进行协同性语义挖掘和推理。【结果/结论】围绕“开放数据”和“数据安 全”主题构建知识图谱,实现对政策文本的本体表示,在此基础上使用关联规则完成单文本和多文本在两个主题间 的协同性分析。【创新/局限】本文将知识图谱应用于政策文本分析领域,并完成协同性分析,为政策的全样本分析 提供可能性,后续需扩大样本规模,提升推理效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号