首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   2篇
  免费   0篇
科学研究   2篇
  2013年   1篇
  2010年   1篇
排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤.传统的手工抽取需要大量的人力物力,效率很低.针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率.  相似文献   
2.
在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图书元数据自动获取方法。首先定义元数据的描述、管理和结构元素,然后以扫描页面的DjVu XML文档为数据源,分析页面的格式、结构等特征,以行作为初始特征向量,采用基于有监督的机器学习方法进行元数据抽取,实验表明该算法能够取得较高的准确率和召回率,能够显著的提高图书数字化的效率。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号