首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 532 毫秒
1.
法律框架网络语料库系统构建的目的是实现对法律语料的处理,从而为法律语言学及法律查询者提供强而有力的检索工具。本文提出了法律框架网络语料库系统的设计原则及语料选取原则,并讨论了系统设计模型、数据库设计以及实现功能,尤其是语料统计功能、知识发现功能使该系统具有比一般语料库系统更为复杂的功能。  相似文献   

2.
袁煜 《人天科学研究》2011,10(1):186-188
正则表达式的应用贯穿于基于语料库的外语研究与教学实践,从语料准备、语料标注、到建库、库文件管理、语料检索都离不开这种功能强大的形式语言。研究通过示例介绍了正则表达在语料处理、语料库课堂教学及基于语料库的个性化研究的三个主要方面的应用,并针对初学正则表达式的外语研究、教学人员给出了编写建议。  相似文献   

3.
本文以河北省主要旅游景点的旅游文本为主、初步建立起一个小型封闭的语料库,并针对该语料库自动分词过程中人名的识别与切分出现的问题进行分析探讨。所收集语料来源于河北省主要旅游景点旅游文本,共计73471字,通过对语料的分词处理发现人名标注出现问题的频率较高。笔者将人名在语料自动切分中出现的问题归为三类,分别探讨问题出现的原因,并根据现有研究成果和旅游文本语料的特点为解决此问题做出简单设想,分析想法的可行性。  相似文献   

4.
来云 《现代情报》2017,37(11):121-124
图书馆智能化咨询问答机器人是图书馆智能化机器人中的一种重要类型,系统设计是研究的首要内容,语料技术则是其服务效能的核心要素。本文从图书馆智能化咨询问答机器人的系统设计方案、问题语料库和答案语料库的建设与来源、分类类型、语料问题的分类与扩展、个性化分析与处理等方面,对图书馆智能化咨询问答机器人系统设计与语料技术进行了研究。此项研究对于图书馆智能化咨询问答机器人的全面研究具有参考和借鉴意义。  相似文献   

5.
孙辉  王颖  张智雄 《现代情报》2016,36(1):64-73
工具书语料是构建知识库的基本知识来源。本文给出基于工具书语料的知识库构建和检索流程,从概念关系模型构建、初始实例获取和知识库编辑等方面探讨基于工具书语料的国史知识库构建;除了实现对象属性检索和语义关联检索外,利用工具书衍生的变体词表还可以实现问答式检索。文章还指出工具书语料在知识来源揭示、超文本检索方面的作用。  相似文献   

6.
使用Web数据挖掘技术,在互联网海量的网页数据中,搜集一些包含多语种语言信息的特殊网页,对这些网页中含有的语言信息进行分析,归类,处理,从中提取我们所需要的多语种语料,为一种全新的可视化翻译语言VILA语言建立一个能满足其需要的词汇库。随着互联网数据的快速更新,通过这种方式来获取的语料,更能够提高其时效性和实用性。  相似文献   

7.
提出一种改进后的递增式语料抽选方法 ,通过在递增的每个抽选阶段对所获语料进行二次筛选 ,加强对语料中语音单元的平衡控制能力 .该方法的实验佐证以 1 0年《人民日报》等报刊杂志为待选语料 ,共约 2 0 0 0万个句子 ,包括 8472个前后语境子音 .从这批待选语料中抽选获得的语料仅包括 1 7865个句子 ,但对出现次数超过 1 0的前后语境子音的覆盖率却达到了 94 3% ,语料中前后语境子音的分布方差为 0 1 8× 1 0 -3 .该方法除了在音子单元的覆盖率和分布均匀化方面的优异性能外 ,还具有较低的计算代价和存储代价 ,适宜于从报刊杂志、互联网等海量的真实语料中抽选语音识别声学模型的语料 .  相似文献   

8.
文章以国家图书文献中心(NSTL)的多语种科技语料为研究对象,以一部科技类的英汉双语科技词典为资源工具,提出一种英汉跨语言文本分类系统的构建方法,实验结果验证了采用本方法进行跨语言分类的可行性,也为下一阶段建立跨语言分类实用系统奠定了基础。  相似文献   

9.
中文一体化医学语言系统(CUMLS)整合了10余个生物医学领域的主题词表、分类表、术语表及医学语料,形成由医学词表、词义网、构建工具组成的知识组织系统。基于CUMLS,实现了医学文本主题、分类自动标注,以及知识导航、智能检索、文献相关性检索等知识服务,结果表明CUMLS对网络环境下医学信息资源的知识组织与知识服务具有良好的实用价值及有效性。  相似文献   

10.
彭秋茹  王东波  黄水清 《情报科学》2021,39(11):103-109
【目的/意义】对近几年的人民日报语料中文分词结果进行统计和分析有利于总结新时代的中文语料在分 词歧义方面的规律,提高分词效果,促进中文信息处理的相关研究和技术的发展。【方法/过程】本文以2015年以后 的共4个月新时代的人民日报分词语料为研究对象,通过统计词频、词长、从合度等信息,从名词、动词、数词、量词、 副词、形容词、区别词、方位词、处所词、时间词、代词、介词、连词、助词、习用语、否定词、前后缀等类型来讨论变异 词的切分规律。【结果/结论】结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字 词要比三字词、四字词的切分变异从合度更高。【创新/局限】本文首次面向新时代的人民日报语料讨论了中文分词 歧义的问题,但缺少与旧语料的对比分析。  相似文献   

11.
在文本自动分类中,目前有词频和文档频率统计这两种概率估算方法,采用的估算方法恰当与否会直接影响特征抽取的质量与分类的准确度。本文采用K最近邻算法实现中文文本分类器,在中文平衡与非平衡两种训练语料下进行了训练与分类实验,实验数据表明使用非平衡语料语料时,可以采用基于词频的概率估算方法,使用平衡语料语料时,采用基于文档频率的概率估算方法,能够有效地提取高质量的文本特征,从而提高分类的准确度。  相似文献   

12.
王天润 《内江科技》2009,30(1):163-163
语料的收集途径主要是平时所用翻译语料和网上的电子文本的收集,从事翻译教学的教师.应该建立自己的小型语料库,其语料分类首先要考虑自己翻译教学和研究的需要。翻译教学小型语料库的使用,将会大大提高翻译教学和教学研究的效率和质量。  相似文献   

13.
介绍了双语语料加工的发展状况,分析了短语对齐技术。探索了使用语言学知识和统计方法来实现双语语料的对齐加工技术。  相似文献   

14.
财务预测仅是计划工具,而全面预算既是计划工具,又是控制、协调和业绩评价工具,文章论述 了全面预算应处理好的六大关系。  相似文献   

15.
农振辉 《大众科技》2014,(7):186-187
要利用Photoshop制作出高质量、具有个性艺术特点的图像,关键点和难点之一就是选区的创建[1]。Photoshop图像处理的绝大多数操作,均在选区中进行。用户可以利用选区工具、菜单工具、钢笔工具、通道技巧等办法,创建出适合的选区,然后再对图像进行处理,得到用户满意的艺术效果。  相似文献   

16.
财务预测仅是计划工具,而全面预算既是计划工具,又是控制、协调和业绩评价工具.文章论述了全面预算应处理好的六大关系。  相似文献   

17.
李江华  时鹏  郑剑 《情报杂志》2012,31(7):187-190
本体表示领域知识,语义Web的发展使得本体被广泛的应用,如何评价本体对领域知识的表达能力是一个亟待解决的问题.笔者分析了影响评价本体表达领域知识能力的因素,提出了一种基于语料的本体评价方法,从本体对语料的术语覆盖率、关系覆盖率、关系扩充率和实例扩充率四个方面进行综合评价,实验表明,该方法对于给定的领域语料能够有效地评价本体的表达能力.  相似文献   

18.
[目的/意义]旨在提出一种基于领域词典的突发公共安全领域舆情事件自动识别方法,有效识别公共安全领域的热点舆情事件,预防危机舆情事件,提高政府公信力。[方法/过程]首先以中国应急服务网中的公共安全事件语料为数据来源,提取并筛选公共安全领域的高频词汇;然后结合人工干预方式选择部分高频且与领域高度相关的种子词;随后以互信息方法计算种子词与语料中的其他词汇共现概率(点互信息),同时以与种子词具有较高点互信息的词汇作为领域候选词,并结合人工审核方式对候选词汇进行调整。最后在对待识别语料进行文本表示的基础上,将其与词典中的领域词汇进行匹配,并以语料中出现的公共安全领域词汇的数量和权重来判断待识别语料是否为突发公共安全舆情事件。[结果/结论]在标注语料上的实验结果表明,与经典的Naive Bayes方法相比,提出的方法能够有效提高公共安全领域热点舆情事件的识别准确率。  相似文献   

19.
近期的认知语言学和心理学研究表明,隐喻、转喻是人们对抽象概念认识和表达的工具;同时语言使用者的隐喻和转喻认知思维也是词义变化发展的内在机制。本文选取有代表性的身体部位词汇为例,探索词义源于隐喻和转喻的发展变化,并发掘这种认知机制在身体部位词汇语义延伸中的特殊作用。通过对语料的分析,笔者还发现,身体部位词汇各义项之间的关系并不是任意的,而是系统的;连锁状和辐射状的词义延伸方式具有认知理据。  相似文献   

20.
近期的认知语言学和心理学研究表明,隐喻、转喻是人们对抽象概念认识和表达的工具;同时语言使用者的隐喻和转喻认知思维也是词义变化发展的内在机制。本文选取有代表性的身体部位词汇为例,探索词义源于隐喻和转喻的发展变化,并发掘这种认知机制在身体部位词汇语义延伸中的特殊作用。通过对语料的分析,笔者还发现,身体部位词汇各义项之间的关系并不是任意的,而是系统的;连锁状和辐射状的词义延伸方式具有认知理据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号