共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。 相似文献
4.
Web文本挖掘中的特征表示与特征提取技术 总被引:2,自引:0,他引:2
陈淑珍 《三明高等专科学校学报》2004,21(2):53-57,87
Web文本挖掘是人工智能一个崭新的研究领域。分词、特征表示和特征子集提取技术是文本挖掘过程中前期的基础性工作。介绍了文本挖掘中分词、特征表示及特征子集提取的常用技术及发展趋势。 相似文献
5.
先秦文献《孟子》自动分词方法研究 总被引:1,自引:0,他引:1
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。 相似文献
6.
7.
文本自动分类是目前最常用的文本信息自动处理技术,也是人工智能、自然语言处理和信息检索领域的研究热点。对文本自动分类所涉及的相关问题进行了全面论述,并简单介绍了基于神经网络的文本分类器的设计与实现。 相似文献
8.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。 相似文献
9.
毕广吉 《天津教育学院学报(自然科学版)》1997,(3):1-7
本文介绍了“计算机用现代汉语词类研究”项目的技术方案,即:先参考词库和词类词典对语料进行自动分词自动标注词性处理人工校对和调整后,再利用分词条程序将语料收入数据库,最后进行各种统计分析的方案。 相似文献
10.
11.
汉语自动分词技术是中文信息处理的关键技术,目前已经成为中文信息处理的瓶颈。正向最大匹配法是一种基于词典的分词方法,它能够有效地实现对中文文档的扫描,将文档分解成为词的集合,从而实现中文文本结构化的表示。 相似文献
12.
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 相似文献
13.
基于文本挖掘的领域本体半自动构建方法研究——以教学设计学科领域本体建设为例 总被引:5,自引:1,他引:4
目前知识工程研究已逐渐成为教育技术学研究领域的热点问题,其中构建领域本体是知识工程的一个重要方面。从已有的基于本体的应用研究来看,领域本体可以在学习者模型建立、网络教学支撑平台开发、智能答疑系统开发、资源库建设等诸多方面发挥重要作用,而构建领域本体是各种应用得以实现的前提。然而构建领域本体是一项浩大的工程,需要大量领域专家的参与,当前是手工完成的,建设周期长。面对一个知识迅速增长的时代,仅仅依靠领域专家来手工构建领域本体显然不能满足需求。因此,本研究提出一种基于文本挖掘的领域本体半自动构建方法,即借助于面向文本的智能信息处理技术从教科书或科技资料中提炼出概念、概念定义和概念之间的关系,并辅之以学科专家和知识工程师的参与,从而加快领域本体建设速度。整个构建过程由“文献材料选取”、“文献材料文本处理”、“概念关系标注”、“形式化表示与存储”、“知识库评价”等五个环节组成,涉及信息提取、中文分词、术语自动提取、术语定义自动抽取等技术以及基于术语部件的概念间属种关系、并列关系半自动发现方法和基于术语互信息值的概念关联关系半自动发现方法等方法。文章还针对当前开展的全国中小学教师教育技术能力培训的学习资源需求,选取“教学设计”这一课程作为研究个案,以基于文本挖掘的领域本体半自动构建方法来建设教学设计学科领域本体,以便进一步丰富和优化教师教育技术能力远程培训的学习资源。 相似文献
14.
为了解决背诵作业检查占用课堂时间较多的问题,文章在科大讯飞开放平台的语音识别技术基础上,将背诵识别结果进行分词、标点过滤、拼音转换等一系列处理,然后运用LD文本比较算法计算文本相似度以及其他评价指标,准确地反映了学生背诵的完成情况,对智能自动检查学生背诵作业提供了一种有效的解决方案。 相似文献
15.
16.
17.
宋瑞祺 《山西财经大学学报(高等教育版)》2007,10(Z1):95
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。 相似文献
18.
齐忠琪 《中国教育技术装备》2009,(21):95-96
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果.在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景. 相似文献
19.
目前,带标注语料库因为标注质量等原因严重影响了汉语的自动分词和测评,而其中影响较大的就是语料库中分词的不一致。本文总结并分析了前人对于分词不一致的各种研究,廓清了分词不一致的概念,提出分词不一致最好按照所属类别统一处理,同一类型的词应该处理成相同的切分形式。 相似文献
20.
自然语言信息处理研究的核心问题是语言的自动理解和自动生成。随着自然语言处理各项底层技术如分词、词性标注、句法分析等不断的发展和逐渐成熟,为更深层的技术研究奠定了坚实的基础。目前,自然语言处理中的高级技术——语句改写受到众多研究人员的广泛关注,并将语句改写的一些成果应用到信息抽取、搜索引擎、机器翻译等多个领域。 相似文献