基于JAVA的小型中文分词系统 |
| |
引用本文: | 宋哲伦.基于JAVA的小型中文分词系统[J].教育教学论坛,2013(24). |
| |
作者姓名: | 宋哲伦 |
| |
作者单位: | 河北大学附属医院,河北保定,071000 |
| |
摘 要: | 互联网信息飞速增长,网络资源不断增加,于是搜索引擎应运而生,它的出现为我们在网络上搜集我们所需要的资源提供了很大的方便,但是人们并不满足于早期的搜索引擎的功能和速度,于是搜索引擎开始不断地被更新和完善,而分词对于搜索引擎的更新和完善起着很重要的作用。分词作为搜索引擎的重要组成部分,对搜索引擎的查找正确率以及查找速度具有很大的影响。它将用户输入的语句分割成一个个词语和单字,这样检索程序就能很容易地理解用户所需要的信息,从而为用户返回正确且有价值的信息资料。本文通过对正向最大匹配、逆向最大匹配等分词算法以及词典的整词二分、TRIE索引树、逐字二分和双哈希构造方法进行理论分析,了解各种分词算法和词典构造方法的优点和缺点,并用Java编程实现正向最大匹配、逆向最大匹配的分词算法以及一维线性表、首字哈希、双哈希三种词典构造方法,最终整合实现了Java分词系统。
|
关 键 词: | 中文分词 词典 最大匹配 双哈希 |
本文献已被 万方数据 等数据库收录! |
|