中文分词技术及其实现 |
| |
引用本文: | 付年钧,彭昌水,王慰.中文分词技术及其实现[J].人天科学研究,2011,10(1):18-20. |
| |
作者姓名: | 付年钧 彭昌水 王慰 |
| |
作者单位: | 1. 湖北省科技信息研究院,湖北武汉,430071 2. 长江科学院信息中心,湖北武汉,430010 |
| |
摘 要: | 为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。
|
关 键 词: | 信息处理 中文分词 文本处理 信息挖掘 搜索引擎 N-gram模型 JAVA |
本文献已被 维普 万方数据 等数据库收录! |
|