首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVu XML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。  相似文献   

2.
马坤 《现代情报》2012,32(12):44-49
为了提高文献录入效率和准确率,减少录入文献的人工审核,提出一种基于DOI和论文数据库的在线文献元数据获取方法,设计DOI解析代理集成异构的DOI注册代理机构的服务接口,通过RoadRunner算法实现基于论文数据库详情页的文献元数据抽取。最后实现在线文献元数据智能录入系统,验证上述方法的有效性和实用性。  相似文献   

3.
网络报纸的长期保存必须解决其元数据的抽取问题,CWM为我们提供了方便的技术框架模型。在介绍CWM的基本标准、技术、内容、框架体系基础上,基于提取的网络报纸整合数据链,利用CWM对整合数据链的不同部分分别进行元数据抽取,并分析不同部分可能的元数据集。设计出网络报纸的元数据抽取框架模型,指出抽取过程中应该解决的关键问题是解决对象-关系映射、元数据冲突及元数据导出。  相似文献   

4.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

5.
中文期刊论文元数据的选取和实现   总被引:1,自引:0,他引:1  
元数据在网页上的应用有助于被搜索引擎和专业论文平台收录,是提高期刊影响力的一种重要手段.对DCMI、IEEE的LOM和SCORM三种元数据标准进行了比较,介绍了DCMI的最新进展,建议在选择元数据时应该从图书馆用户、读者、编者、搜索引擎用户等角度综合考虑,总结了选择元数据时需要考虑的5个因素.考虑到都柏林核心元数据集(DCMI)的通用性和国际性,建议选择DCMI作为中文期刊元数据标准,总结出了中文期刊元数据集,给出了选出的元数据和DC术语的对应关系,并以<情报杂志)为例给出了在网页上的实现实例.  相似文献   

6.
陈静 《大众科技》2012,(6):46-47
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了改进,提出了Apriori改进算法.Apriori改进算法采用二进制数据垂直表示方法,只用扫描事务数据库一次得到一阶大项集的二进制数据垂直表示.K阶候选项集的操作只要基于这个一阶大项集,而不需重复扫描数据库,从而提高了挖掘算法的效率.  相似文献   

7.
裘江南  刘丽丽  许晶  王延章 《情报杂志》2012,31(6):149-155,161
目前应急领域元数据标准种类繁多,但不具有跨领域特征,缺乏一个通用的元数据标准,无法为多种类型的非常规突发事件信息描述和综合应急管理提供支持.针对此问题,对应急领域已有的元数据标准进行了对比分析,抽取各类元数据标准的共性要素,并在总结现有元数据标准结构与要素的基础上加以完善,构建了一个通用可扩展的适用于描述应急信息的元数据标准.  相似文献   

8.
中文数字化期刊的DC元数据标准设计实例   总被引:2,自引:0,他引:2  
刘廷元 《情报科学》2003,21(6):609-612
文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的DC元数据定义与限定;最后,提供了一个用DC1.1元数据和HTML4.0语法设计的中文数字化期刊元数据标准实例。  相似文献   

9.
开放存取期刊网站结构和页面分类研究   总被引:1,自引:0,他引:1  
通过对国内外20种期刊网站结构和页面内容的分析,总结出期刊网站的Surface、聚类、树形、干扰4种特性,把期刊网站页面分为卷期索引、期目录、论文元数据、全文4类页面,分析了不同页面种类之间的组合变化,提出了基于页面分类的OA主题蜘蛛设计方案.  相似文献   

10.
文章介绍了支持向量机各种训练算法,在对SMO算法进行深入分析的基础上,提出基于样本抽取的优化SMO算法,较好地解决了训练过程中子问题的求解复杂度和迭代次数及效率之间的矛盾。实验表明,优化SMO算法大大的提高了SVM的训练速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号