首页 | 本学科首页   官方微博 | 高级检索  
     检索      

新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评
引用本文:黄水清,王东波.新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评[J].图书情报工作,2019,63(22):5-12.
作者姓名:黄水清  王东波
作者单位:1. 南京农业大学信息科学技术学院 南京 210095; 2. 南京农业大学领域知识关联研究中心 南京 210095
摘    要:目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。

关 键 词:新时代  人民日报  自动分词  条件随机场模型  语料库  NEPD  
收稿时间:2019-10-08
修稿时间:2019-10-17
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号