首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。  相似文献   

2.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

3.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

4.
古汉语自动分词技术是实现古汉语文本深度处理的重要前提。经过多年探索,该领域已有了实质性进展。但是古汉语自动分词仍然面临一些关键问题:分词粒度界定、歧义消解和未登录词处理等。通过对基于词典和统计、机器学习序列标注以及深度神经网络模型等自动分词方法研究现状的梳理,指明充分利用深度学习技术是古汉语自动分词的未来发展趋势,并对古汉语自动分词的探索提出了三个方面的展望:扩充古汉语分词语料数据量、构建适应不同文本领域的分词模型、开发一体化模型。  相似文献   

5.
在分析现有几种中文自动分词算法的优劣且能实现优势互补的基础上,提出一种多种方法融合的中文自动分词算法.利用Visual-Prolog开发基于该算法的自动分词系统,并探讨了开发过程的关键技术.实验表明,采用所述算法和技术的自动分词系统的准确率较高、分词速度较快.  相似文献   

6.
传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义.本文介绍一个能对Web页文本信息进行语义过滤的系统,通过分词、生成语义框架和计算框架间相似度,对相似度大于阈值的Web页进行过滤.试验表明,语义过滤能较好地甄别文本的不同观点,准确度较单纯关键字过滤有明显提高.  相似文献   

7.
李畅  吴振强 《考试周刊》2011,(26):177-179
传统的算法处理分词过于粗糙,而且往往会引起分词歧义。为弥补传统分词算法的固有缺点,本文在吸收了成熟算法优点的基础上,提出了改良型的中文分词算法(正向扩词分词算法和反向扩词分词算法)。这两种新算法与传统最大匹配算法相结合,不但提高了分词的精度和速度,而且降低了分词服务程序的开发难度。经过实践验证,分词准确率达到大多数系统对中文分词的要求。  相似文献   

8.
《分词规范》与《正词法》1在中文信息处理中有着同样重要作用,两者既有各自的侧重点又存在一些共性的,两者所规定的词均与"语法词"、"词汇词"存在着联系,但《正词法》规定的分词连写方式并不能够解决中文信息处理的分词问题,只有充分利用《正词法》的研究成果,再结合中文信息处理的特点,才能使《分词规范》更加完善,促进中文信息处理分词问题的解决。  相似文献   

9.
基于碎片分词的未登录词识别方法   总被引:1,自引:0,他引:1  
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。  相似文献   

10.
先秦文献《孟子》自动分词方法研究   总被引:1,自引:0,他引:1  
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。  相似文献   

11.
《祖庭事苑》是中国禅宗史上最早解释禅宗语词的辞书,该书在文本辑佚、古籍考订、文字训诂研究等方面都具有重要的参考价值。从解疑析错、探明语源、审音辨形三个方面,考辨书中的12则词条,以此管窥《祖庭事苑》的训诂学成就。  相似文献   

12.
在分词工作常用数据结构模型的基础上,提出了字符串完全分词网络模型,讨论了该模型的基本性质,给出了其中的路径查找基本算法。该模型能反映中文分词问题自身的特点,便于分析分词问题中的统一性质。利用该模型将全切分图的生成、修改、路径查找等工作分解为统一平台上相对独立的过程,能较好地配合多种常用分词算法,简化对各种算法的研究和描述。该模型与自然语言理解后续工作使用的数据结构如句法树等也有很好的相似性。  相似文献   

13.
张永亮 《文教资料》2012,(16):27-29
芥川龙之介的小说《地狱变》发表于1918年,是根据日本古籍《宁治拾遗物语》卷三中的《绘佛师良秀喜欢火烧自家记》和日本古籍《古今著闻集》卷十一中的《弘高的地狱屏风图》的故事创作出来的。本文通过梳理良秀画《地狱变》的时间历程,并通过文本引证结合对良秀人物分析的方法来探讨良秀的至上艺术之旅,即"睁着眼"而不是"回首"去寻找至上艺术。  相似文献   

14.
基于神经网络的人工智能分词是中文分词技术的一个重要发展方向。介绍了当前神经网络分词的研究现状,给出神经网络分词的一般模型,重点阐述BP等算法在歧义解决中的应用,介绍了BP算法在未登录词识别方面的应用,最后对分词技术的发展进行了展望。  相似文献   

15.
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。  相似文献   

16.
《古籍研究》自1986年创刊以来,受到国内外同仁的大力支持,成为古籍研究领域颇受欢迎的学术阵地,它刊登了大量的高品质的学术论文.然而在1988年因故停刊,根据古籍整理与研究工作的需要,应学术界同行之要求,经兄弟单位共同努力,在1994年决定《古籍研究》正式复刊.复刊后程千帆先生担任《古籍研究》的顾问,在任职期间,先生积极努力的工作,为《古籍研究》积极投稿,为《古籍研究》的长久发展做出了不朽的贡献.  相似文献   

17.
正向最大匹配法在中文分词技术中的应用   总被引:2,自引:0,他引:2  
分词是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术.正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合.从而实现中文文本结构化的表示.  相似文献   

18.
自动分词是中文信息处理的基本工作 ,在诸多重要领域如篇章理解、机器翻译、文本检索、文本的语音输入输出、文本校对、自动标引等领域都得到广泛的应用。本文介绍了在输入法测试系统中的自动分词的应用 ,提出了必须采用适当的分词方法配合应用系统需求的思路  相似文献   

19.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

20.
Web文本挖掘中的特征表示与特征提取技术   总被引:2,自引:0,他引:2  
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号