首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。  相似文献   

2.
一个基于改进的反序分词词典的中文分词算法   总被引:1,自引:0,他引:1  
中分词是中信息处理最重要的预处理。章对传统的反序分词词典进行了改进,设计了反序词典词根HASH表,并给出了相应的分词算法,实验表明,改进是有效的。  相似文献   

3.
描述了汉语自动分词中切分歧义的发现和歧义字段的消除,给出了基于词典的汉语词自动切分和基于统计的词类与词性歧义消除的模型和实现方法.  相似文献   

4.
设计了一个基于Web文本挖掘的分词系统。具体介绍了如何将Html格式的文档转化为Txt格式文本,以及利用MM法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。  相似文献   

5.
中文信息处理分词过程中对歧义切分字段和未登录词的识别问题一直困扰着我们,至今仍然没有很好的解决方案。笔者认为问题产生的根本原因在于源头上没有识别的标识,就此本文提出了CCSS(Case of Chinese Segmentation Solution)方案,寻求建立一套文本编辑软件及与之兼容的智能系统,将自动分词与人工分词相结合,在文本编辑阶段彻底解决汉语分词问题。  相似文献   

6.
分析现有的词表切分法、自动切分算法的不足,通过改进Lucene系统的分词功能,设计了一个基于Lucene的中文数码产品搜索引擎,重点探讨了该搜索引擎的中文分词功能,实验证明本方法对中文词语可以设定正向匹配的字数,从而灵活的有效地进行中文分词。  相似文献   

7.
深入探讨基于词典的分词过程、常见词典结构以及分词算法。在分析现有系统的基础上,设计一个新的词典结构,对经典的分词算法进行改进,通过词典加载功能改善未登录词的识别问题,通过双向匹配算法获取最优分词结果,改善歧义识别问题。  相似文献   

8.
计算机中文分词技术的应用   总被引:1,自引:0,他引:1  
现在随着网络和通信技术的快速发展,信息的传递和检索都是包含在文本文档中,对全文检索技术和中文分词技术的研究也是更加的深入,本文研究分词技术最大匹配的方法,介绍了一个自行设计和实现的基于最大匹配的分词组件。  相似文献   

9.
本文介绍了汉语自动分词和网络语言的特点,利用双字哈希索引分词词典机制进行汉语分词,证明其方法的有效性.  相似文献   

10.
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。  相似文献   

11.
针对远程教育答疑环节存在的问题,设计实现一个自动答疑系统。阐述自动答疑系统的总体设计、主要算法和基于Visual-Prolog的实现技术。测试结果表明,系统答疑准确率较高,响应速度较快。系统允许用自然语言提问,并自动返回准确或相近答案,提高了远程答疑的效率。  相似文献   

12.
为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。  相似文献   

13.
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果.在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景.  相似文献   

14.
中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。  相似文献   

15.
康桂珍 《现代教育技术》2012,22(1):103-106,102
文章设计与实现了一个试题自动提取系统,论述了该系统的特点及构建原则;阐述了系统的结构和功能;并详细描述了系统所采用的关键技术。系统针对考试系统中试题的自动提取展开研究,把试卷中的问题归类为试题库中若干张表,以解决试题库中人员管理问题、题型问题、课程问题及安全问题等。同时该系统对试题提取过程中的重复性问题、难度问题、章节问题等进行重点处理,在试题添加过程中加进适当的因子进行控制,以保证试题抽取的科学性、合理性和规范化。  相似文献   

16.
In 2 studies, we compared the effectiveness of 4 different methods for acquiring initial reading vocabulary. Training emphasized similarity of word beginnings (onset plus vowel), similarity of word endings (rimes), phoneme segmentation and blending, or simple repetition of whole words. These 4 training regimes were compared with a control group given only regular classroom instruction. Beginning nonreaders acquired the trained words fastest in the onset and rime conditions, and most slowly in the whole word condition. Retention was excellent after 1 week and after 4 to 6 months, with no differences due to method of acquisition when only children who met the learning criterion were considered. Generalization to reading new words and nonwords was 40% to 50% on the first encounter for all children who acquired the entire word set during learning. In Experiment 2, the same pattern of results was obtained for delayed readers in Grade 2.  相似文献   

17.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

18.
网络信息的急剧增长给人们搜索信息带来一定的困难,搜索引擎的出现及时地解决了这个问题.而在搜索引擎中核心的部分专一是中文分词算法,它在一定程度上影响着检索的速度.简单介绍中文分词的重要性、方法以及现在存在的问题,对中文分词的进一步发展提供一定的依据,推动搜索引擎发挥越来越强大的作用.  相似文献   

19.
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号