首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

2.
汉英双语标注集的研究与实现   总被引:1,自引:0,他引:1  
标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践,提出了建立标准的汉英双语标注集的必要性,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明,该方案具有良好的开放性和兼容性,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。  相似文献   

3.
徐琳宏  丁堃  陈娜  李冰 《情报学报》2020,39(1):25-37
基于内容的引文情感分析克服了传统基于引用频次的引用同一化问题,是引文内容分析领域一个重要的研究热点。然而引文情感分析依赖于带标注的数据集,目前大规模高质量的引文情感语料资源匮乏,严重制约了该领域的研究。因此,本文在分析引文情感表达方式的基础上提出了一套适用于引文情感表示的标注体系,并详细阐述了语料库建设的技术和方法。采用人机结合的标注策略,借助完善的引文标注系统,构建了规模较大的中文文献的引文情感语料库。统计结果显示,在中文信息处理和科技管理领域情感褒义和贬义总的引用的占比分别为22%和6%,引文情感标注kappa值达到0.852,表明该语料库能够客观地反映作者的情感倾向性,可为论文评价、引文网络分析和情感分析等相关领域的研究提供数据支撑。  相似文献   

4.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

5.
TimeML是在自然语言文本中标注事件和时间表达的一种规范语言。本文介绍了TimeML标准及其语料库 TimeBank,从其起源英文文本事件时间表达标注开始,分析TimeML在文本时间关系解析研究中的发展,并探讨了 TimeML在汉语文本时间关系解析研究中的应用。  相似文献   

6.
词性标注是语料库建设中的重要环节,同时也是自然语言处理领域的基础研究课题。针对词性标注任务中统计处理和规则处理两种方法各自的特点和局限,提出融合条件随机场模型和基于转换学习的方法来进行自动词性标注的方案。实验结果表明,该方案能够有效地提高词性标注的正确率。  相似文献   

7.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

8.
词典为语言的规范化和语言的习得过程提供了有利的保障,但作者发现现有的汉语词典在词类标注上还存在着许多问题。本文试以汉语“突破”一词为例,探讨了现代汉语词类归属问题在词典中的体现,并基于语料库的使用对“突破”的词类归属问题提出了可行性方案。文章并证实“突破”应属动名兼类词,从认知视角分析,动名词间的功能转化是概念转喻影响的结果。  相似文献   

9.
我国的英语语料库建设在进入21世纪后发展迅猛,建成了很多大型的英语语料库。笔者调查发现,这些语料库并没有被广泛使用,版权保护法律体系的不完善和语料库公众共享的困难是主要原因。因此,构建由《著作权法》《反不正当竞争法》及其他特殊的法律保护措施组成的多重法律体系,势在必行,只有这样才能更好地为语料库版权提供保护,并为公众合法使用语料库提供法律保障。  相似文献   

10.
郭海红  李姣  代涛 《情报工程》2016,2(6):039-049
本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模型,构建一个四级中文健康问句主题分类方法,并由5位标注员独立地对从某中文健康网站上收集的将近10万条高血压相关提问数据中随机抽取的2000条样本数据进行人工分类标注,以优化和测试该问句分类方法的可靠性,构建标注语料库,并分析公众的高血压相关健康信息需求。5位标注员使用该分类方法进行独立标注的四级类目评判者间信度kappa值为0.63,意味着分类结果可靠,一级大类获得高度一致性(kappa=0.82),略优于国际上的同类研究。分布在治疗、诊断、健康生活方式、临床发现/病情管理、流行病学、择医六个一级类别中的问句分别占样本总量的48.1%、23.8%、11.9%、5.2%、9.0%和1.9%。所构建的健康问句分类方法可用于组织大型健康问题集,以提高检索效率;分类标注的样本问句可作为高血压相关健康问句自动分类研究的语料;得出的高血压相关健康问句主题分布有助于指导健康网站的知识资源建设。此外,所设计和采用的问句分类方法构建方式、语料标注流程、评判者间信度测量方法等,也可为开放领域及其他受限领域开展用户问句分类与语料构建提供借鉴。  相似文献   

11.
[目的/意义] 自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程] 首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论] 两种方法共计标注近25 000条语句,语料标注的一致性系数达到0.983 9,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。  相似文献   

12.
社会标注在网络中的应用越来越广泛,它为信息资源的标引、组织、检索提供了一种全新的模式。国外学者对社会标注的信息标引功能和标引方式、社会标注系统在信息检索中的功用及基于社会标注的信息检索技术等方面进行了研究,取得了一系列成果,但还存在不足之处。该领域的研究趋势在于规范化社会标注的表达,去除标签噪声及垃圾,使标签序化、层级化等。  相似文献   

13.
语料库为语言学研究以及数据挖掘、知识发现提供了宝贵的基础数据和样本资源。针对语料库建设中存在的问题,结合复句信息工程的研究,提出了一个新的概念——语料仓库,对语料仓库的建设目标、特性、形式化定义、构建方法等作出探讨,证实语料仓库的建设切实可行,意义深远。  相似文献   

14.
云计算技术为语料库资源共享平台建设提供了新的思路和可行性技术路线,结合云计算、SOA等技术,基于语料库的建设目标和未来发展方向,文章提出了全国高校范围内语料库资源共享云战略,即设计和开发语料库资源共享服务平台(China Academic Corpus System),在我国高等教育系统内构建多级语料库云服务中心,为用户提供各种类型的语料库资源服务。文章主要描述CACS云计算共享平台的构建原则和服务架构,指出该平台在实现过程中需要注意的问题以及介绍天津师范大学外国语学院目前的应用实践。  相似文献   

15.
语料库翻译学是一种新的研究范式。关于语料库的建设、研究及应用越来越受到学者们的重视,这大大推进了语料库翻译学的繁荣与发展。文章通过自建小型语料库的方式来研究语料库翻译学,总结了语料库翻译学的几个发展阶段和主要研究内容,以期完整呈现其来龙去脉。  相似文献   

16.
面向医学领域的语义互联模拟系统(MOSISS)是数字资源语义互联研究的实例支撑。语义标注子系统是MOSISS的重点子系统。在基于本体的语义标注思想指导下,阐述该子系统的设计思想、体系结构以及功能,探索多领域本体在语义标注中的应用,为用户提供一种共享数据的方式。  相似文献   

17.
提出维吾尔语情感语料库的构建规范,设计和实现维吾尔语情感语料库辅助整理系统。该系统结合维吾尔语情感语料的具体特点,多方面分析维吾尔语情感词汇的特征,利用条件随机场(CRFs)模型进行维吾尔语情感词汇的自动识别。测试结果验证该系统能够大幅度降低人工劳动,高效快速地标注维吾尔语情感词语料。  相似文献   

18.
[目的/意义] 中国拥有海量的古代典籍,利用计算机对古籍文本进行自动断句与标点有助于加快古籍资源的转化利用。现有研究主要存在两个亟待解决的问题。首先,将古籍断句与标点分为两个串行任务,会引起错误传递。其次,自动标注的标点也较为混乱,对长距离可嵌套的成对引号标注研究较少。[方法/过程] 通过对大规模古籍语料库的标点符号频率统计,结合现有标点符号用法标准,明确古文自动标点的符号体系。根据点号含有断句信息,提出断句标点一体化处理方案,直接在没有断句的古籍文本上进行自动标点。并通过设计多元引号标记集和段首填充占位符,解决长距离可嵌套成对引号的自动标注难题。算法上根据序列标注方法,采用SikuRoBRETa-BiLSTM-CRF在1亿多字的繁体古籍文本语料上完成模型训练。[结果/结论] 在开放测试集《左传》上,点号标注的F1值为77.09%,断句达到91.72%;对单个引号的标注F1值达到89.28%,成对引号为83.88%。结果表明本文的方法有效地提升了古籍文本的自动断句与自动标点效果,有效地解决了引号的自动标注问题。  相似文献   

19.
随着信息技术的迅速发展和网络技术的普及,语料库得到了快速发展,不同类型的语料库和语料库工具的开发为语料库资源共享提供了广阔的空间.文章通过对语料库共享平台建设现状以及建设必要性的分析,提出由图书馆起主导作用的语料库资源共享平台建设的设想.  相似文献   

20.
关键词自动标引系统实现   总被引:1,自引:0,他引:1  
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号