期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

一种快速中文分词词典机制 总被引：3，自引：0，他引：3

吴晶晶荆继武聂晓峰王平建《中国科学院研究生院学报》2009,26(5):703-711

通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 相似文献

2.

中文专利权利要求书分词算法研究 总被引：1，自引：1，他引：0

翟东升马文姗《情报杂志》2011,30(11)

中文专利权利要求书是一种半结构化的文本,应对各种检索需要,迫切需要将中文专利权利要求进行分词处理.本文在总结中文专利权利要求书的特点的基础上,提出了一种基于领域词典和规则相结合的面向中文专利权利要求书的中文分词模型,并对词典、规则的构建进行了说明.该方法在封闭式测试条件下取得了较好的分词结果,能够将文本分割为有意义的实体,并且对未登录词的识别效果较好. 相似文献

3.

中文分词现状及未来发展

熊泉浩《科技广场》2009,(11):222-225

中文自动分词技术是自然语言处理领域一项很重要的基础工作,随着信息的几何级增长,对目前的分词方法提出了更高要求.本文从中文分词的研究现状出发,首先列举了一些具有代表性的典型分词系统,比较了当今主流的三种分词方法:基于字符串匹配、基于理解和基于统计的分词方法,并对分词问题中的歧义和未登录词识别两大难点进行了重点讨论,最后总结归纳了中文分词技术的研究进展.并对其未来发展方向进行了展望. 相似文献

4.

一种基于TFIDF方法的中文关键词抽取算法 总被引：4，自引：1，他引：3

徐文海温有奎《情报理论与实践》2008,31(2):298-302

本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献

5.

基于专业术语提取的中文分词方法

郑阳莫建文《大众科技》2012,14(4):20-23

针对在科技文献中,未登录词等相关专业术语其变化多端,在中文分词中难以识别,影响了专业领域文章的分词准确度,结合实际情况给出了一种基于专业术语提取的中文分词方法。通过大量特定领域的专业语料库,基于互信息和统计的方法,对文中的未登录词等专业术语进行提取,构造专业术语词典,并结合通用词词典,利用最大匹配方法进行中文分词。经实验证明,该分词方法可以较准确的抽取出相关专业术语,从而提高分词的精度,具有实际的应用价值。相似文献

6.

全文检索搜索引擎中文信息处理技术研究 总被引：2，自引：0，他引：2

唐培丽胡明解飞刘钢《情报科学》2006,24(6):895-899,909

本文深入分析了全文检索中文搜索引擎的关键技术，提出了一种适用于全文检索搜索引擎的中文分词方案，既提高了分词的准确性，又能识别文中的未登录词。针对向量空间信息检索模型，本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数，并且用量化的方法表示出其重要性，能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试，测试表明该方法能够提高分词准确度满足实用的要求。相似文献

7.

一种改进的单向扫描中文分词方法

《黑龙江科技信息》2017,(33)

本文以Hash表为基础,设计了一种改进的单向扫描中文分词方法,该方法在同等切分精度条件下的分词效率优于传统最大匹配算法。相似文献

8.

中文分词技术及其实现

付年钧彭昌水王慰《人天科学研究》2011,10(1):18-20

为了实现个性化的主动信息服务,网络信息挖掘（Web Mining）技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。相似文献

9.

基于条件随机场的中文分词方法

迟呈英于长远战学刚《情报杂志》2008,27(5):79-81

提出了一种基于条件随机场(Conditional Random Fields,简称CRF)的中文分词方法.CRF模型利用词的上下文信息,对歧义词和未登陆词进行分词统计处理取得了理想的效果.以SIGHAN2006 Chinese Language Processing Bakeoff提供的数据作为实验数据.实验数据表明,基于CRF的中文分词方法取得了很好的效果,在Uppen,Msra两种语料的封闭测试中准确率分别达到了95.8%和95.9%. 相似文献

10.

中文分词算法综述 总被引：2，自引：0，他引：2

张丹《黑龙江科技信息》2012,(8):206

中文分词是中文信息处理的关键技术之一,本文对多种中文分词算法、自动分词理论模型进行了详细的阐述和讨论,为中文分词的进一步发展提供基础和方向。相似文献