首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
自动分词是中文信息处理的基本工作 ,在诸多重要领域如篇章理解、机器翻译、文本检索、文本的语音输入输出、文本校对、自动标引等领域都得到广泛的应用。本文介绍了在输入法测试系统中的自动分词的应用 ,提出了必须采用适当的分词方法配合应用系统需求的思路  相似文献   

2.
基于组合度的汉语分词决策算法研究   总被引:1,自引:0,他引:1  
提出了汉字组合的组合度概念,讨论了组合度与组合的成词能力之间的关系,利用决策树的方法挖掘了组合度与分词模板的关系.在此基础上得出了一种新的分词算法.实验表明组合度对组合成词能力的影响远远大于组合频率的影响.这种分词方法对汉语分词的歧义问题、人名、地名识别问题;新词识别问题等都有一定的作用.  相似文献   

3.
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。  相似文献   

4.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.  相似文献   

5.
针对人工智能在信息搜索领域的实际应用,本文介绍了一种基于中文分词算法的英语学习资源查询系统。该系统通过一种基于中文分词算法的搜索策略,结合事例推理技术实现对英语学习资源的智能搜索。系统测试结果表明,用户可以通过该系统搜索到所提问问题的类似事例以及解决该问题的相关知识条款。  相似文献   

6.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

7.
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快.  相似文献   

8.
计算机中文分词技术的应用   总被引:1,自引:0,他引:1  
现在随着网络和通信技术的快速发展,信息的传递和检索都是包含在文本文档中,对全文检索技术和中文分词技术的研究也是更加的深入,本文研究分词技术最大匹配的方法,介绍了一个自行设计和实现的基于最大匹配的分词组件。  相似文献   

9.
互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。  相似文献   

10.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

11.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

12.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

13.
一个基于改进的反序分词词典的中文分词算法   总被引:1,自引:0,他引:1  
中分词是中信息处理最重要的预处理。章对传统的反序分词词典进行了改进,设计了反序词典词根HASH表,并给出了相应的分词算法,实验表明,改进是有效的。  相似文献   

14.
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进.  相似文献   

15.
先秦文献《孟子》自动分词方法研究   总被引:1,自引:0,他引:1  
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。  相似文献   

16.
研究了在Java环境下使用Jacob组件将word模板和数据库信息进行自动合成的相关技术。分析了Jacob的工作原理,给出了一个应用实例和关键代码;实例中采用Jacob技术,对固定模板格式的word文档与数据库信息进行合成,成功实现了毕业设计立题卡的自动生成。  相似文献   

17.
借助于统计语言模型将汉语分词转换为字序列标注并实现汉语分词已经成为近年来汉语分词的主流方法,但统计语言模型训练时间较长一直是这一方法中的最大问题.提出了一种基于三词位的字标注汉语分词方法,并在bakeoff2005提供的语料上进行了对比实验,结果表明该方法可以取得接近四词位字标注分词方法的性能,但在模型的训练时间上明显优于四词位标注方法.  相似文献   

18.
卢旭  刘钊 《教育技术导刊》2021,20(1):242-244
图像分割是计算机视觉领域的一个重要方向,是图像处理的核心环节.伴随深度学习技术的发展,结合深度学习的图像分割技术在精确度上远超传统图像分割方法.卷积神经网络(CNN)与全卷积神经网络(FCN)的提出极大促进了图像语义分割技术发展,研究人员提出了很多新型网络模型,分割精准度大幅度提升.从传统语义分割方法、深度学习与传统方...  相似文献   

19.
文章以汉语中一个特殊的语言现象——含“交集歧义”语段的非歧义句作为切入口,考察了分词加工在留学生句子阅读过程中不同的理解。文章指出,留学生主要靠词语的熟悉度以及与心理词汇的匹配程度来激活句子的分词加工;语段前的提示信息对分词的启动效应不明显;合词连写对句子理解的干扰性很大,是理解错误的主要原因。因此,适当增加分词连写的材料,有助于留学生理解句子,同时巩固和建构词的结构和界限,为阅读合词连写材料打下基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号