首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
中文分词技术综述   总被引:2,自引:0,他引:2  
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。  相似文献   

2.
自动分词是中文信息处理的基本工作 ,在诸多重要领域如篇章理解、机器翻译、文本检索、文本的语音输入输出、文本校对、自动标引等领域都得到广泛的应用。本文介绍了在输入法测试系统中的自动分词的应用 ,提出了必须采用适当的分词方法配合应用系统需求的思路  相似文献   

3.
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。  相似文献   

4.
Web文本挖掘中的特征表示与特征提取技术   总被引:2,自引:0,他引:2  
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。  相似文献   

5.
先秦文献《孟子》自动分词方法研究   总被引:1,自引:0,他引:1  
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。  相似文献   

6.
为了实现个性化的主动信息服务,网络信息挖掘(Web Mining)技术成为近年来一个新的研究课题。挖掘通常涉及输入文本的处理过程,中文分词是中文信息处理的基础,汉语文本基于单字,汉语的书面表达方式也是以汉字作为最小单位,词与词之间没有显性的分界标志,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序,因此分词成为汉语文本分析处理中首要解决的问题。就中文分词技术进行讨论,并以2-gram模型为例,研究用JA-VA实现中文分词的过程。  相似文献   

7.
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。  相似文献   

8.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

9.
本文介绍了“计算机用现代汉语词类研究”项目的技术方案,即:先参考词库和词类词典对语料进行自动分词自动标注词性处理人工校对和调整后,再利用分词条程序将语料收入数据库,最后进行各种统计分析的方案。  相似文献   

10.
设计了一个基于Web文本挖掘的分词系统。具体介绍了如何将Html格式的文档转化为Txt格式文本,以及利用MM法来实现对文档的汉语自动分词。并采用最大匹配加回退一字方法,处理交段长度为1的交集型歧义字段。  相似文献   

11.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。  相似文献   

12.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。  相似文献   

13.
目前知识工程研究已逐渐成为教育技术学研究领域的热点问题,其中构建领域本体是知识工程的一个重要方面。从已有的基于本体的应用研究来看,领域本体可以在学习者模型建立、网络教学支撑平台开发、智能答疑系统开发、资源库建设等诸多方面发挥重要作用,而构建领域本体是各种应用得以实现的前提。然而构建领域本体是一项浩大的工程,需要大量领域专家的参与,当前是手工完成的,建设周期长。面对一个知识迅速增长的时代,仅仅依靠领域专家来手工构建领域本体显然不能满足需求。因此,本研究提出一种基于文本挖掘的领域本体半自动构建方法,即借助于面向文本的智能信息处理技术从教科书或科技资料中提炼出概念、概念定义和概念之间的关系,并辅之以学科专家和知识工程师的参与,从而加快领域本体建设速度。整个构建过程由“文献材料选取”、“文献材料文本处理”、“概念关系标注”、“形式化表示与存储”、“知识库评价”等五个环节组成,涉及信息提取、中文分词、术语自动提取、术语定义自动抽取等技术以及基于术语部件的概念间属种关系、并列关系半自动发现方法和基于术语互信息值的概念关联关系半自动发现方法等方法。文章还针对当前开展的全国中小学教师教育技术能力培训的学习资源需求,选取“教学设计”这一课程作为研究个案,以基于文本挖掘的领域本体半自动构建方法来建设教学设计学科领域本体,以便进一步丰富和优化教师教育技术能力远程培训的学习资源。  相似文献   

14.
为了解决背诵作业检查占用课堂时间较多的问题,文章在科大讯飞开放平台的语音识别技术基础上,将背诵识别结果进行分词、标点过滤、拼音转换等一系列处理,然后运用LD文本比较算法计算文本相似度以及其他评价指标,准确地反映了学生背诵的完成情况,对智能自动检查学生背诵作业提供了一种有效的解决方案。  相似文献   

15.
中医古籍文本分词是中医古籍结构化表示及深度挖掘的基础性工作.有监督的中医古籍文本分词简易可行,但存在耗费大量人力物力、专业门槛高、主观性强、扩展性不好等问题.为此改进TextRank算法,提出ConnectRank算法,根据字符连通度实现中医古籍无监督分词.基于《伤寒杂病论》《黄帝内经》《难经》等700篇中医古籍文献语...  相似文献   

16.
随着人工智能的发展,深度学习方法被广泛应用到图像、语音处理等领域。在教育考试领域,国内外众多机构和研究者对作文自动评分展开研究。基于汉语水平考试(HSK)作文语料库,对已标注作文文本进行特征提取和筛选,在此基础上,采用支持向量机(SVM)和BP神经网络两种深度学习方法对作文等级分类,比较两种方法不同训练函数在HSK作文预测结果上的差异。  相似文献   

17.
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。  相似文献   

18.
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果.在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景.  相似文献   

19.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。  相似文献   

20.
自然语言信息处理研究的核心问题是语言的自动理解和自动生成。随着自然语言处理各项底层技术如分词、词性标注、句法分析等不断的发展和逐渐成熟,为更深层的技术研究奠定了坚实的基础。目前,自然语言处理中的高级技术——语句改写受到众多研究人员的广泛关注,并将语句改写的一些成果应用到信息抽取、搜索引擎、机器翻译等多个领域。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号