首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
爆炸式增长的信息量带来严重的数据质量问题。实体识别是数据清洗的一项关键技术,用以识别存在不同形式的同一对象,或区分同一形式的不同对象。介绍了实体识别相关技术,阐述了实体识别技术过程与方法,并对面向大数据的实体识别技术进行了展望。  相似文献   

2.
一种deep web数据源下重复记录识别模型   总被引:1,自引:0,他引:1  
使用deep web数据源下重复记录识别模型对从多个deep web数据源中抽取出来的半结构化和无结构化的数据进行处理.首先,在数据预处理模块中将所抽取的数据生成实体记录的形式,然后,在异构记录处理模块中利用在同构记录处理模块所得到的权值,计算各实体记录的相似度,得到重复记录.与传统的重复记录识别模型不同,所提方法是在模式匹配未知的前提下实现的;并且采用带有可选算法的多个相似度估算器以达到更好的匹配效率.实验证明,该重复记录识别模型是可行且有效的.  相似文献   

3.
为了改善传统实体解析算法在单机环境下采用人为方式设定属性权值及阈值难以对海量数据进行快速有效处理的缺点,基于Hadoop框架使用MapReduce计算模型,在多节点分布式环境下,通过不断调整网络学习属性之间的内在关系以及属性权值、阈值等参数后,再将模型放在Hive数据仓库中的真实数据集上进行有效性验证。分别使用5 000及9 000条数据进行实验,实验结果表明,基于学习的并行实体解析算法准确率、召回率和F1值较高。因此,基于学习的并行实体解析算法对于海量数据不仅能进行快速有效的处理,而且能有效降低人工经验中存在的误差,同时也能提高识别结果的准确度,提升识别效率。  相似文献   

4.
近年来,随着数据挖掘算法和新数据库的不断引入,大数据国际政治研究逐渐发展起来。这一新的研究方向目前已在暴力冲突研究、反恐研究、国际政治传播学研究以及公共外交中取得了一定成果。大数据与国际政治研究的结合可以在事件预测与辅助决策、微观理论和中层理论研究,以及宏观理论研究这三个层次上得以实现。然而,大数据国际政治研究也必须应对数据和算法的不完善性所带来的挑战。大数据国际政治研究的未来方向不仅仅是加强实际应用,而且更应该侧重完善学科的理论建构。为此,应开发新的数据源,倡导多种研究方法的协同运用,大胆创造新的算法-数据实体,建立新的研究合作机制,并积极运用可视化技术。  相似文献   

5.
大数据蕴藏的巨大商机引发了大数据产业化浪潮,互联网数据以其庞大的数据和简单的获得方式成为了首要分析目标。得益于互联网大数据的发展,安全领域的侦查手段从传统的事后侦查和重点监控,发展到可以进行预防性分析,在某种程度上可避免危害发生。使用互联网数据进行产业化挖掘面临着两个基本问题:多源数据的解析、清洗与整合;互联网身份的实体识别。结合具体安全服务,给出了一种普适的基于Map Reduce的互联网大数据去冗降噪的统计方法,可大幅降低数据存储空间,并在此基础上流程化地完成互联网虚拟身份识别模型。它能够量化互联网用户身份关系的可靠性和关联稳定性,并结合R语言给出了可视化展示。  相似文献   

6.
电类实验教学在高等院校中覆盖面广,实验过程中学生所测数据量大,人工评判数据工作繁琐。随着在线实验教学的普及,迫切需要一种实验数据智能评判的方法。依据Mean Shift思想提出一种基于距离的离群点检测(MSOD)算法,以理论计算值作为初始点,沿着概率密度梯度的方向寻找数据集最稠密的位置,与该位置的距离大于某一特定值的数据为离群点,离群点数据即为测量有误的数据。实验结果表明,MSOD算法识别错误实验数据的效果较好,可以有效地减少实验教学中重复繁琐的人工评判数据的工作,节约人力成本,提高实验教学效率。与现有的离群点检测算法比较,MSOD算法提高了错误数据识别的正确率,并且降低了时间成本。  相似文献   

7.
传统基于统计的命名实体识别方法存在需要大量人工标注的缺陷,导致识别准确率较低。为了提升识别效果,提出一种基于条件随机场的半监督学习方法(S-CRF)对命名实体进行识别。该方法将实体识别看作序列标注问题,对少量数据进行人工标注并构建实体集,通过K-means聚类算法选取有代表性的未标注数据文本进行自动标注,采用条件随机场对语料进行训练测试。选取中文应急预案文档进行实验,该方法在各个标签上的识别效果分别达到93.52%、93.04%、95.81%。实验结果表明,该方法优于传统规则方法,能有效提高应急预案命名实体的识别效果。  相似文献   

8.
在大数据环境下对网络上的不良内容进行识别是实现网络侦查和信息监管的重要手段。当前主要采用人工识别方法,效率低下,可靠性差。提出一种基于奇异特征提取和聚类的大数据环境下不良网络内容识别技术,构建大数据环境下网络不良内容的存储和数据传输模型,对不良内容进行信号模型构建,采用奇异特征提取方法对内容进行特征提取,以此为数据基础进行数据聚类分析,以实现对不良内容的准确识别。仿真实验表明,采用该算法对不良网络内容进行识别准确率较高,可有效实现网络信息的监管和跟踪。  相似文献   

9.
为了提高机器学习算法对实际场景中车牌识别能力,克服天气、车牌种类对识别的干扰,以实际场景拍摄的车牌为识别对象,设计并开发了一种基于大数据标签与机器学习的车牌识别系统。首先,在不同启用场景、不同天气下采集两万帧车牌,涵盖各省市汽车,作为大数据标签和学习基础,建立车牌图像和车牌文字字段的训练集数据库;然后,利用图像降噪、自动阈值分割、形态学处理以及边缘检测,完成车牌定位与分割;随后,通过建立支持向量机与随机森林分类器,对训练集样本进行模型学习,完成机器学习算子,完成针对车牌的最终识别;最后基于Windows系统、C++语言与OpenCV开源学习框架,编码实现算法和系统。经过与对照组的对标测试,所提算法具有更高的车牌识别能力。  相似文献   

10.
针对气象无人机探测数据量大、野值剔除和数据补偿困难、准确率低等问题,提出了一种自适应阈值的野值识别和基于探空数据经验模型的野值补偿算法。仿真结果表明:该算法简单、野值处理效果明显,能够满足探空的实际应用要求,很大程度上消除了野值对测量精度的影响。  相似文献   

11.
Web挖掘的预处理是生成用户模式和进行信息推荐的基础。文章研究了Web挖掘预处理的三个主要步骤:数据清洗、用户识别和会话识别,给出了各个步骤的关键算法,并提出了一种基于注册用户和Cookies技术、用户IP等综合因素来改进用户识别的算法。  相似文献   

12.
针对现有命名实体识别存在数据处理效率低的问题,该文提出了一种并行化Block-BAC模型.提出了前处理中的数据分块优化算法,并基于Hadoop实现并行化的运作机制;采用局部注意力优化机制,有效减少模型的隐层节点.与已有的BERT-BAC模型相比,在确保较高F1值(精确率和召回率的调和平均数)的情况下,该模型训练时间和实...  相似文献   

13.
本文以大数据技术为视角,探讨大数据技术应用于高职院校学生精准心理问题识别的意义,并以构建心理问题识别大数据平台为基础,将大数据技术应用于精准识别心理问题工作中,减少大学生心理危机事件的发生,为校园安全做好保障。  相似文献   

14.
大数据算法具有两面性:一方面,大数据技术的快速发展渗透到社会的各个领域,惠泽各方;另一方面,算法黑箱的不透明性、复杂性和隐蔽性给个人大数据、社会大数据和政府大数据也带来诸如算法杀熟、信息同质、交易不公等风险。立足国情,完善算法公正规范体系,健全算法风险法律防控,从而平衡科技创新与价值权益,使算法能客观公正地支撑大数据技术服务体系。  相似文献   

15.
命名实体识别是自然语言处理基础任务之一。针对“数字敦煌”项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-BiLSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著。最后将训练得到的模型应用于“数字敦煌”资源库命名实体识别任务,证明了方法的有效性。  相似文献   

16.
针对药品零售大数据信息,提出一种基于遗传模拟退火算法的关联规则挖掘改进算法。首先以遗传算法为主体,模拟退火算法作为其辅助,在遗传算法选择操作、交叉运算和变异运算中融入模拟退火算法,实现对算法的设计;然后运用Python语言实现了算法,并通过对药品零售大数据关联规则挖掘,发现药品零售大数据之间的关联,有效地量化了药品之间的相关程度;最后对改进算法进行有效性和可行性测试。仿真实验表明,相比遗传算法,该算法的挖掘速快,挖掘质量高,有效地提高品零售大数据关联规则挖掘的性能。  相似文献   

17.
针对常规有效信息过滤算法对数据间关联规则识别能力较弱等问题,提出物联网环境下大数据流中有效信息过滤算法。该算法根据数据权重向量维度,通过余弦夹角构建目标相似的大数据推荐模型;设置表层关联与隐含关联预测规则,利用预测函数确定数据间的关联程度;按照数据间的衔接性质,将数据集合划分成若干子集,模糊聚类物联网中的有效信息;根据用户主观倾向设置偏好函数,以协同过滤方式,得到有效信息过滤算法。实验结果表明,与常规有效信息过滤算法相比,该算法对数据关联规则识别能力提升 14.97%,满足当前物联网大数据流中对有效数据的过滤要求。  相似文献   

18.
钟亮 《教育技术导刊》2017,16(8):168-170
针对百度百科这一数据源,构建了化学知识图谱。首先,利用网络爬虫技术对数据进行采集与清洗;然后,采用中文分词、实体识别、实体关系识别等技术对知识图谱构建方法进行实证性研究,可视化实验所得实体及实体关系,并对实验结果进行了相关评价测试。最后,简要阐述了知识图谱的应用领域与发展优势。研究结果表明,实体关系识别的预测准确率较高。  相似文献   

19.
为了提高软件的执行效能及提高WMB(WebSphere Message Broker)上大数据消息数据处理的速度,首先定义了单笔柜面交易、硬件标尺、程序执行效率等概念.建立了企业服务总线上的软件执行高效算法(称为WMB*),算法主要解决了在WMB上提高各应用级系统对大数据消息数据及通讯协议的处理和转换速度,以达到提高软件的执行效率.在银行数据集上对不改变大数据消息数据结构和改变大数据消息数据结构的情况做了大量的实验,结果表明,在WMB上,用ESQL语言比JAVA语言在处理消息数据的速度快0.1个数量级,而在CPU占用率(ms/msg)上,用ESQL语言比JAVA语言低得多.WMB*算法适合在大数据上对银行交易数据进行挖掘.  相似文献   

20.
本文利用深度学习算法DBN (Deep Belief Network)实现农村电商跨平台、多模态数据的有效融合;建立多源电商平台的异构数据的采集、整合、识别、清洗、特征提取、分类和分析等信息处理过程;构建农村电商产品类型、品牌、产地、溯源等特征库,实现农村电商多平台异构数据的特征提取、实时处理和监测分析;形成较高精度无损异构数据融合、信息分析与可视化、管理与决策一体化系统。研究改善了大数据背景下跨平台农村电商数据收集和信息处理的能力,提升了政府对农村电商发展现状和趋势的实时感知能力,为政府对农村电商的管理和政策决策提供可靠的信息保障。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号