首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
机构名称数据是科研成果数据库、会议论文数据库、企业业务数据库中必不可少的构成。针对当前机构档规模小、质量低、使用范围有限等缺点,为构建一个有机的机构实体关联网,对机构名称数据呈现的特点进行了分析,从用户需求角度明确机构名称实体对象,设计了机构名称的属性及其机构实体间的关系,在此基础上引入Schema词汇表对其进行语义描述,从而确立了机构名称的数据模型。  相似文献   

3.
在对目前各种作者重名消解方法进行总结的基础上, 针对中文文献题录数据特征, 将重名消解问题转换为同名作者文献的分类问题, 提出一种基于规则和相似度的重名消解框架模型, 并对其中的分解规则和合并规则进行详细的算法描述, 最后选取3个学科的重名作者数据集进行实验, 实验结果表明该模型能有效提高作者重名消解的准确率.  相似文献   

4.
5.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

6.
朱纯琳 《图书馆》2021,(1):49-55
数据是生成图书馆智慧的核心,掌握图书馆智慧服务的数据流动机制,构建智慧服务生态系统是充分发挥数据价值、提供高效智慧服务的重要前提。文章阐述了图书馆智慧服务的数据流动机制,构建了由服务主体、信息资源、服务环境和服务数据等要素构成的图书馆智慧服务生态系统。该系统具备数据流动、数据增值、数据决策三大特征,可以从强化服务数据实时反馈、培养馆员和用户数据素养、加强智能感知分析、提供智慧环境支持等方面进行构建。  相似文献   

7.
文章分别从数据处理、质量控制、数据保存以及安全防护四个方面来构建大数据驱动下高校图书馆数据监管体系,指出体系实施过程中要解决的监管计划制定、知识产权保护、监管人才培养等关键问题,以资借鉴。  相似文献   

8.
本文通过对中文文献数据的分析及高效输入的要求,大胆地提出了全屏幕一遍输入、联机校对、实时修改的中文文献数据输入方法。系统设计中始终以实用性、通用性、标准化、高速、准确为指导思想。在IBM-PC上用BASIC语言实现,结果表明这种方法是实用的高效中文文献数据的输入方法。  相似文献   

9.
杨绎 《图书馆杂志》2012,(9):29-32,37
随着计算机技术以及互联网的发展,人们早已从"信息匮乏"发展到了"信息爆炸"的时代。作为信息基础的数据无论从量上还是自身特点上也在不断发展,"海量数据"的说法由来已久,而在近两年,"大数据"(big data)逐渐成为一个热词,本文从文献计量的角度出发,以国内文献为研究基础,以关键词分析为主要方法,对"大数据"进行了研究。  相似文献   

10.
数据驱动的智慧化环境以改变人类感知比率和生活方式的形式,赋予实体书店转型发展更高的智慧、更强的动能。鉴于此,实体书店应充分发挥大数据等相关技术在经营管理中的创新支持能力和智慧服务能力,通过提供智慧化环境和个性化服务,提升阅读空间的魅力与吸引力,打造读者精神家园,实现由单一卖场向集阅读推广、展示交流、聚会休闲、社群交往等功能于一体的复合空间转移。  相似文献   

11.
��[Purpose/significance] In the era of big data, institution name data presents new features such as mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific research management, subject evaluation and subject service under big data environment, and improve the quality and application effect of data retrieval based on institution name.[Method/process] From the perspective of linguistics and model construction, this paper studied name normalization. This paper constructs a Framework Model for Normalization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of identifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized method of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment.[Result/conclusion] Experiments verify the validity of the model, which has some enlightening significance for the normalization of the names of other types of institutions.  相似文献   

12.
[目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。  相似文献   

13.
科研实体名称规范的关联数据模型构建   总被引:1,自引:0,他引:1  
[目的/意义]旨在研究将国家科技图书文献中心(National Science and Technology Library,NSTL)的科研实体名称规范数据发布为关联数据的难点——关联数据的数据模型。科研实体名称规范数据的数据模型研究,有助于NSTL科研实体数据的共享、互联、质量提升,融入到互联网中,同时也为其他机构使用、发布关联数据提供模型参考。[方法/过程]首先,分析比较国内外关联数据发布项目中所采用的数据模型,发现关联数据发布项目中的数据模型主要分为以Schema.org为核心和多种标准词表组合两类;结合NSTL名称规范数据的特点,设计两种形式的关联数据模型,并从关联数据模型对名称规范数据的表达程度、模型复杂度等角度进行比较,选择较优方案;最后以D2RQ为工具进行实验,将NSTL名称规范的样例数据发布为关联数据。[结果/结论]分析发现两种方案中以Schema.org为核心标准词表的方案相对于多种标准词表组合的方案有较优的表达完整度、较低的模型复杂度,更易于融入互联网,因此更适合作为NSTL名称规范数据的关联数据模型。  相似文献   

14.
数据论文的内容规范性研究   总被引:1,自引:0,他引:1  
黄国彬  郑霞 《图书情报工作》2019,63(22):129-140
[目的/意义] 科学数据的规范化管理、引用和重用已受到学术界的广泛关注。在此背景下,用于促进科学数据合理使用的数据论文、数据期刊大量涌现。然而,数据论文目前尚未形成统一化、标准化的体例。本研究归纳和提炼当前在数据出版界较为活跃的数据期刊所发表的数据论文的内容框架和核心模块,以期为相关人员或机构在数据论文的撰写、使用和管理提供参考。[方法/过程] 综合应用内容分析法和比较研究法,依据科学数据使用者查找、获取与重用科学数据的思维模式,基于不同数据期刊发布的投稿指南或写作须知,从主题相关性、数据质量、数据产生及获取方法、应用场景、使用方法、补充说明6个维度剖析数据论文的内容框架和核心模块。[结果/结论] 目前并没有一种数据期刊的数据论文投稿指南或写作须知能够全部涵盖数据论文的所有模块;数据论文内容构成与传统学术论文的内容构成既有联系又有区别;数据论文内容框架的必备模块侧重于描述科学数据的突出特性;当前尚未形成体现科学数据特性的规范化描述框架。  相似文献   

15.
[目的/意义] 对我国以CNMARC格式编目的中文古籍书目数据进行关联数据化发布研究,以期促进中文古籍文献的开放利用。[方法/过程] 利用Drupal平台从数据建模、数据映射、数据链接以及外部查看几方面对中文古籍书目数据发布为关联数据的过程进行研究。[结果/结论] 通过Drupal平台可以方便地进行中文古籍书目数据的关联化发布,但是也存在链接不完善情况,还需Drupal功能的进一步提升和与其他链接工具的结合使用。  相似文献   

16.
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。  相似文献   

17.
[目的/意义]利用关联数据名称唯一性特点,对书目数据进行语义化关联组织,使不同图书馆资源通过文献版本关系发现实现语义聚集。[方法/过程]分析书目关系类型及文献不同版本的特点,提出文献不同版本类型对应的版本关系,然后采用属性值顺序匹配方法,经过同种文献确定、版本关系发现两个步骤发现文献之间的版本关系,并利用美国国会图书馆、德国国家图书馆相关数据以及维基关联数据进行实证研究。[结果/结论]构建基于关联数据、书目数据的文献版本关系发现方法,实现同种文献不同版本的语义关联,发现实证数据间的版本关系,并指出其应用方向。通过该方法可以提供基于关联数据的知识检索服务,满足用户阅读、科研需求。  相似文献   

18.
王卉 《图书馆论坛》2021,(5):118-126
文章针对近代广东海关档案现存的语言、书写及专有名词不断变换问题,提出近代广东海关档案海关档案名称规范档的语义模型,为档案中多样化的相关名称表达提供数据规范。针对近代广东海关档案中不一致的名称,通过规范控制来分析其中的文字表征、发音特征以及相关的表达方式;参考《中国档案主题词表》及近代广东海关档案专有名词词典,从语义逻辑关系出发,构建近代广东海关档案名称规范数据的语义模型。近代广东海关档案名称规范数据语义模型的构建,不仅可以作为其他海关档案开发利用的参考框架,而且为进一步构建海关档案本体提供数据基础。  相似文献   

19.
在分析大数据时代农业信息资源特点的基础上,考察大数据技术在农业信息资源共享方面的利用价值,从农业信息处理的4个方面,即信息采集-信息存储-信息挖掘-信息利用,介绍大数据技术在农业信息资源共享中的应用。这有助于实现农业信息资源的有效开发与高效利用,加快农业信息化的进程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号