首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技术门槛,这对学者画像的应用推广造成一定阻碍。为此,在开放资源的基础上,通过引导句建模、自回归生成方式、训练语料微调等构建一种基于生成式预训练语言模型的属性实体抽取框架,并从模型整体效果、实体类别抽取效果、主要影响因素实例分析、样例微调影响分析4个方面对该方法进行验证分析。与对比模型相比,所提出的方法在12类学者属性实体上均达到最优效果,其综合F1值为99.34%,不仅能够较好地识别区分相互混淆的属性实体,对“研究方向”这一典型长属性实体的抽取准确率还提升了6.11%,为学者画像的工程化应用提供了更快捷、有效的方法支撑。  相似文献   

2.
书目记录的功能性要求   总被引:5,自引:0,他引:5  
这项研究以用户的需要为出发点, 采用实体分析技术分析确认书目数据的实体属性和实体间的关系, 定义一个结构清晰的逻辑框架, 同时推荐国家书目记录所必备的基本功能。  相似文献   

3.
构建语义化知识服务系统是数字图书馆在语义Web环境下的发展方向。针对目前各种语义Web技术在数字图书馆开发应用的现状和问题,本研究融合国际基于Topic的语义知识组织技术,结合国内的需求,提出了“语义主题模型”,目标为构建可实施的语义化知识系统。文章首先对以“概念化主题、主题关联、语义标签”为内涵的“语义主题化模型”概念进行定义;其次,设计基于此模型的语义化知识系统框架;再次,对相关应用进行了探讨;最后,对未来开发工作进行了规划。  相似文献   

4.
国际图联颁发的研究报告《书目记录的功能需求》(FRBR)为改革传统的编目条例与机读目录格式(MARC)提供了新观念与新方法。编目工作的实体--关系模型(E-R)模型)描述了编目工作涉及的对象(实体)、实体的属性及其相互关系;通过属性、关系对用户需求的映射,可以构建出具备最佳功能的书目记录与目录。E-R模型及其体现的新的思维方式有助于揭示编目工作的本质,为编目工作的变革指出正确的路向。  相似文献   

5.
数字人文的兴起为红色文献的保护和传承提供了新的技术与方法。文章引入知识本体与知识图谱,对皖西红色文献进行细粒度关联,进而加快皖西红色文献数字化开发进程,为实现皖西红色文献资源的知识关联、聚合、发现提供新路径。以“书目框架模型”(BIBFRAME)为核心,构建知识本体的核心词表,从“文献”和“内容”两个层次设计实体的语义关联;依据知识本体的结构,抽取皖西红色文献中的实体及其关联,构建红色文献数据库,并自定义检索任务来模拟真实的检索需求;以“六霍起义”、革命英雄“舒传贤”和“红色事件地点分布”为主题,构建知识图谱并基于图谱进行知识发现。结果表明,知识本体可以有效提取皖西红色文献的实体数据并联结知识图谱以协助研究者进行文献检索与知识发现,佐证了以知识本体为代表的数字人文技术方法在红色文献研究中的使用价值与应用价值。  相似文献   

6.
FRBR采用实体一关系分析方法建立的概念模型描绘了文献信息资源及其书目控制过程的宏观图像,具有简单、综观、实用的优点。为了完整地揭示文献信息资源实体一关系图中被掩盖的其他有意义的属性和关系,提供便于计算机处理的领域本体,有必要将FRBR的E—R模型改造成面向对象模型。论文介绍了面向对象的CIDOCCRM模型以及FRBR与CRM的对映关系。  相似文献   

7.
古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作。作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注。但是一些制约汉语古籍实体抽取方法的“卡脖子”问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题。本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括“基于规则的实体预标注”“基于深度主动学习的迭代实体抽取”以及“人机交互模式下的标注决策”三个主要部分。多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块“标注查询”与“自动推荐”的积极作用以及ZenCrowd-II算法的优势。最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统。HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发。  相似文献   

8.
大数据技术为干部人事档案治理提供了新的契机.文章针对近年干部人事档案审核中暴露出的造假现象,给出大数据多源融合分析的应用框架在干部人事档案审核中的可行性;构建包含出生数据、基本数据、学历数据、工作数据、行为数据和心理数据在内的干部全生命周期个人数据链条;围绕干部“三龄两历一身份”属性标签,给出基于大数据的审核与监管流程框架,提出面向干部属性标签的“干部画像”概念及其大数据分析模型与技术.文章旨在利用大数据分析技术的过程追溯、关联分析和行为预警,实现干部档案的审核与监管,构建干部档案的“数据铁笼”机制.  相似文献   

9.
“实体边界”是指元数据创建者用以确定是否需要建立一个新RDA实体描述所应用的一组标准,对应于传统编目“需要创建一个新描述”的相关规则。在编目实践中,判断“是否需要创建新记录或新描述”是编目策略的重要组成部分,AACR2等传统编目条例及原始RDA中均包含相关内容。2017—2020年,RDA指导委员会以新的编目概念模型IFLA LRM为纲,依托3R项目,在优化工具包用户功能的同时,推出了新RDA。由于新模型IFLA LRM对“实体—属性—关系”框架的重新构建,新RDA呈现出从结构到内容的重大变化,从而产生了“实体边界”等新概念。本文以传统编目规则对“创建一个新描述”的相关内容为切入点,深入阐述了新RDA关于“实体边界”的新概念和新思想,梳理了各RDA实体的实体边界类型,并对实体边界在编目实践中的应用进行了分析,以期促进对该新概念的理解和实际运用。图1。参考文献17。  相似文献   

10.
贾君枝  冯婕 《图书情报工作》2017,61(12):122-128
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。  相似文献   

11.
大规模中国历代存世典籍知识图谱构建研究   总被引:2,自引:1,他引:1  
[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。  相似文献   

12.
元数据是电子文件管理的基本工具,在维护电子文件真实、完整、可用、可理解等方面的重要作用已经得到了广泛关注。目前,国际主流的与电子文件管理相关的元数据模型中,没有任何一个模型的设计初衷是面向电子文件保存的。与此同时,电子文件保存单位元数据管理的需求又在呼唤着统一模型的出现。本文以保护既有应用、支持持续管理、坚守专业原则、采用模块化设计思路等为原则,从业务逻辑、实体及其级次、实体关系等方面对ISO 23081、PREMIS、PRONOM模型予以分析、对比与整合,面向电子文件保存构建元数据模型,主要包括文件、技术环境、责任主体、业务、法规标准五个实体。该模型可以与现有主流模型建立映射,为支持文件保存机构设计元数据应用纲要提供统一的概念基础和体系框架。图8。参考文献29。  相似文献   

13.
利用自然语言处理技术深入挖掘典籍文献,推进中文古籍文献的数字化,对于推动历史学习、增强文化自信与促进文明传播具有重要意义。命名实体识别研究是自然语言处理中的基础性环节,文章基于BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa等预训练模型,以“前四史”和《左传》为研究语料,构建人名、地名、时间等命名实体识别任务。实验结果表明:SikuBERT、SikuRoBERTa在无标点语料、小范围语料上能够取得较基准模型更好的效果;语体风格、语料规模对模型性能产生一定影响;BERT模型更为适应大规模语料任务。实验验证了基于《四库全书》繁体语料预训练的BERT模型在预训练-微调范式下典籍命名实体识别的可行性,构建了基于SikuBERT的典籍命名实体识别软件,为进一步开展典籍文本挖掘和利用提供参考。  相似文献   

14.
面向档案数据化实践的现实需求,参考元语言和语义框架理论,提出“档案语义描述语言”的学术概念,探讨其理论实质、设计理念和技术原理,构建其标准体系框架并就其建设实践提出若干策略建议。“档案语义描述语言”是经过人工设计的,专门用来以结构化形式描述档案语义信息并承担逻辑中介功能的工具性元语言符号系统,可以为档案内容信息的结构化数据描述提供系统性、整体性解决方案。“档案语义描述语言”致力于实现档案文本语义信息的逆向解码,遵循事件驱动、逻辑降维、实体消歧、语义压缩等设计理念,参照文档对象模型DOM进行XML数据建模,将档案文本的语义信息表示为树形语义框架。档案语义描述语言由基础标准、技术标准和管理标准构成,国家档案管理部门和标准化工作部门应当提前进行战略布局,通过制定建设规划,加强基础理论研究、启动试点项目、引入众包机制、推进人机协同、建立开放式进化机制等方式推进其体系建设。  相似文献   

15.
BIBFRAME可以实现书目数据的关联数据化以及图书馆数据与外部资源的链接,为智慧图书馆建设提供书目的数据化支持。在BIBFRAME模型特点及词表重用方式的基础上,利用采集到的国家图书馆书目数据,着重探讨了基于BIBFRAME中文书目关联数据化的映射设计过程,并归纳相应的映射处理方式;同时利用拟定义URI,分析书目数据内外部实体资源链接方式,以完善关联数据发布过程。通过此研究路径,提出了书目数据映射过程中的相关问题,构建了书目数据实体资源关联模型,为实现中文书目数据CNMARC语义关联数据化提供借鉴。图5。表1。参考文献23。  相似文献   

16.
计算机与现代通信技术的飞速发展为编目领域带来的不仅是挑战,更是一种新的思维方式。在这一点上,国际图联(IFLA)迈出了具有开拓性的一步,1998年正式颁布采用计算机领域“实体-关系”模型(E-R模型)的研究报告“书目记录的功能需求》(Functional Requirements for Bibliographic Records,简称FRBR)。该报告从探讨编目的对象——实体的属性与关系着手,揭示书目记录的功能需求,开启了编目工作的新思维,“面向对象编目”的概念应运而生。  相似文献   

17.
“常州市中长期宏观经济计量模型”是从主要经济社会指标的历史与现状出发,通过分析各指标之间的相互依存关系,利用现代化的计算手段和数量经济学方法对常州市经济发展的现状和未来经济结构及变化趋势进行仿真模拟。我们试图做到,只要把多种可调控的政策因素输入到模型中,就可以为中长期的主要经济指标进行定量分析预测,从而为编制“九五”计划和2010年远景目标的研究工作提供科学的依据。我们在建模时采用了国际上最新的经济预测软件G作为计算机辅导手段,G软件提供的迭代求解和模型微调技术对模型质量的改善起支撑作用。  相似文献   

18.
为解决实体书店的发展难题,文章基于开卷的图书零售数据和对实体书店的研究,分析了图书零售的发展趋势,以及图书在实体书店的角色转变,认为选品力是实体书店的核心能力,指出实体书店需针对图书的内容属性和第三方机构的数据积累,建立“选品模型”,提高选品的效率和质量,更好地发展图书业务。  相似文献   

19.
过期期刊典藏与借阅管理是公共图书馆面向读者的重要业务。论文以南京图书馆过刊管理工作需求为依托,应用protégé工具构建基于OWL语言的过刊本体语义模型,定义了6个核心类别与其特定属性,通过ALEPH系统转接与网络信息爬取方法添加实例,结合SPARQL链接查询端口提高过刊信息储藏效率、加深知识层次与数据关联,更好地在开放获取中匹配读者需求、提供个性化服务。  相似文献   

20.
文章先介绍了国际图联的FRBR模型中的实体定义,然后引入了数据结构中有关树形结构的一些概念,建立了以此为基础的FRBR书目记录的树模型,并描述了用树的性质对FRBR进行的各种操作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号