首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。  相似文献   

2.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

3.
客户关系数据库中拥有大量的客户记录,其中许多记录构成相似重复记录,检测、清洗进而合并相似重复记录可以提高存储空间的利用率,还可以加快记录查询的速度。在研究客户记录的基础上,提出一种客户关系数据库相似重复记录清洗算法,算法首先对记录进行排序,设定属性权重和记录相似度闸值,通过计算相邻记录的相似度判定记录是否相似重复,最后对检测到的相似重复记录进行清洗与合并。  相似文献   

4.
提出了一种基于同级属性的重复记录检测方法.首先给出了同级属性的判断方式,然后通过查找数据集中的同级属性,来缩减数据集中需要计算的属性个数,提升相似重复记录检测的效率.实验结果表明,受同级属性在数据集中所占比例的影响,该方法能够不同程度的提高相似重复记录检测的效率.  相似文献   

5.
为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。  相似文献   

6.
本文研究了如何从列表页面中抽取数据记录.系统分为两个阶段:第一步采用三种启发式方法相结合的方法,识别主数据区域的根节点;第二步将数据记录分离,提出了一种新的基于树编辑距离的聚类算法,来减少候选分割方案的数量,然后根据公式计算相似度,找出最佳分割方案.本文通过对大量不同领域的网页进行测试,结果表明本文方法具有较高的准确率.  相似文献   

7.
Deep web站点查询界面的潜在语义分析   总被引:1,自引:0,他引:1  
为了进一步提高搜索引擎的效率,实现对deep web中所蕴含的大量有用信息的检索、索引和定位,引入潜在语义分析理论是一种简单而有效的方法.通过对作为deep web站点入口的查询界面里的表单属性进行潜在语义分析,从表单属性中挖掘出潜在语义结构,并实现一定程度上的降维.利用这种潜在语义结构,推断对应站点的数据内容并改善不同站点的相似度计算.实验结果显示,潜在语义分析修正和改善了deep web站点的表单属性的语义理解,弥补了单纯的关键字匹配带来的一些不足.该方法可以被用来实现为某一站点查找网络上相似度高的站点及通过键入表单属性给出拥有相似表单的站点列表.  相似文献   

8.
郭丽  刘磊 《教育技术导刊》2013,12(4):130-131
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

9.
通过引入广义变精度粗糙集模型,定义了识别对象的相似度和α邻域的概念,建立了不完备信息系统的α-β下近似属性约简算法,有效地删除了属性的冗余信息和降低了噪声数据的干扰,从而得到了基于相似度的不完备信息的识别准则.实验表明,论文所研究的方法具有处理信息缺失多的能力和容错特性,对不完备信息的识别具有较好的准确率和稳定性.  相似文献   

10.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

11.
提出了规则合并的优化方法和重复记录聚类清除的方法.应用模糊等值理论,避免了传统等值理论非此即彼的僵硬方式,但清理过程中部分规则可能存在包含与被包含的关系,被包含的规则其等值度显然会相对较小,根据用户阀值提出了规则合并的优化方法,可减少重复记录的计算时间.基于同样的原因,规则间的包含与被包含关系将影响模糊等值度的误差分析,因此提出了利用忽略被包含的规则等值度提高误差分析精度的改进模糊等值理论误差分析方法.重复记录的核实通常需要人工逐条检测,易于出错,本文提出的聚类算法,可节省大量的用户劳动.最后给出一个实验,表明了规则优化的可能性.  相似文献   

12.
肖刚 《教育技术导刊》2019,18(10):182-185
数据库同步是实现不同系统之间数据共享的有效方法。现有异构数据库同步模型能有效解决记录的同步新增,但由于同步记录查询基于数据表名和关键字值,若不考虑同步数据库节点变化,将导致数据库不适用于某些遗留系统。针对该问题,提出同步控制和主从记录映射方法,在同步控制层记录主从记录映射关系。在采用双向中间件方法的同步技术基础上,设计基于标准数据格式的数据转换,降低数据转换模块开发维护成本,并根据模型应用WCF框架实现系统。实践应用表明,该模型可实现异构数库之间同步更新。  相似文献   

13.
电子病历中同一医疗概念的提及形式具有多样性,阻碍了医疗数据的分析和利用,研究电子病历实体标准化具有现实意义。设计并实现了基于深度学习的电子病历实体标准化算法,使用Siamese网络架构和LSTM网络搭建模型,采用Pairwise方法训练模型,在测试集上与传统基于编辑距离的方法进行比较。对手术实体标准化的实验结果显示,深度学习算法正确率达到79.71%,比传统方法提高了17.4个百分点,表明深度学习算法在电子病历实体标准化方面具有有效性。  相似文献   

14.
根据大数据技术的模块构成和电子书包所包含的系统和功能,对电子书包中教育大数据的模块内容进行分析。之后,在评价内容上从课程内容学习、参与互动交流、考试与作品和课外资源学习四个方面进行了细分和聚类.构建了基于电子书包的个性化学习评价模型。在评价结果上,依据柯氏四级评估模式和布鲁姆教学目标分类理论设计了基于教育大数据的个性化评价层次塔,该层次塔包括学习成效、概念转变、学习迁移和学习力四个层级。最后,结合教育大数据、教育云服务、个性化评价模型和评价层次塔,设计了个性化学习评价系统模型,包括信息采集模块、数据分析与处理模块、个性化评价模块和可视化反馈模块,并通过云管理层实现对教育云服务平台、云存储池和云集群计算平台的调控和管理,以期为后面开展个性化评价系统的设计与开发提供有益的指导。  相似文献   

15.
提出了一种基于四元数的彩色图像匹配算法.该算法将彩色图像用四元数矩阵模型描述,抽取四元数矩阵的奇异值作为匹配特征.对奇异值进行去噪处理,增+了匹配算法的抗噪能力.采用分层搜索策略,减少运算量,提高了匹配速度.实验结果验证了方法的有效性.  相似文献   

16.
精细化和理性化设计已成为城乡规划设计的趋势,大数据分析技术是城乡规划专业学生量化分析能力的重要构成和体现。城市大数据主要包括环境大数据和行为大数据。按照研究尺度,城市大数据的应用分为区域、总规、控规和街道设计4个层面。依据各类城市大数据特征和应用场景,城市大数据课程划分为理论教学、数据处理和综合实践训练3个模块,分别对应原理背景、软件技术、实践操作的能力提升。理论教学模块主要介绍最新前沿理念以及大数据原理、模式、类型等;数据处理模块主要培养学生的数据挖掘技术、数据处理和清洗校验技术、数据分析能力、数据可视化能力;综合实践训练模块指选取不同的研究课题和应用场景,进行大数据技术的应用实践。  相似文献   

17.
介绍一种无线数据传输系统的设计与应用。该系统以nRF24101无线收发模块和STR89C52单片机为核心。通过软、硬件设计,充分发挥“跳频”、“学习”、“配对防锵”等先进技术,实现了无线数据信息传输的安全可靠,具有低成本、易扩展、操作简单等特点,可应用于远程无线数据传输。  相似文献   

18.
“:数字紫金”中涉及大量的属性数据,如何对大量的属性数据进行有效管理,成为数据管理中的一个重要问题。自动创建模块可以实现专题数据录入界面的自动创建,并在数据库及其用户之间建立接口,实现对数据库的访问。  相似文献   

19.
在简单介绍了所研制的DR检测产品的系统组成和产品类型基础上,给出了该产品的配套软件.其主要有四个组成模块——图像采集模块、图像处理模块、图像存储和权限管理模块、评片工具模块.详细分析了这四个模块的功能,介绍了软件的快捷工具条,并给出了其外部接口设计.实际使用证明,该软件简洁适用,能够配合所研制的DR产品完成工件的探伤工作.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号