共查询到18条相似文献,搜索用时 56 毫秒
1.
基于百科资源的多策略中文同义词自动抽取研究 总被引:3,自引:1,他引:2
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13. 相似文献
2.
句子相似度计算是自动问答系统的重要理论基础和关键实现技术.目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便.依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息.通过对各类方法实验结果的比较,指出各自的优势和不足.同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点.另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度.通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考. 相似文献
3.
中文搜索引擎的比较研究 总被引:5,自引:0,他引:5
通过对典型中文搜索引擎的比较分析,指出中文搜索引擎目前存在信息量不足、查询方式单一、采用技术落后、多媒体信息量不足、专题性中文搜索引擎较少和数据库更新不及时等问题,提出了中文搜索引擎的元搜索引擎、智能化检索和多媒体检索等发展趋势和发展对策。 相似文献
4.
5.
【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。 相似文献
6.
从词表规模、词表结构、词汇性能三个方面对我国11部经过不同程度修订的叙词表进行统计分析,并对40年来我国叙词表的修订情况进行简要概述,以便于了解我国叙词表修订的状况、水平和存在的问题,为今后叙词表编制或修订提供参考。 相似文献
7.
分别介绍了中华人民共和国法规、澳门、香港特别行政区法规以及台湾地区法规的主要法律形式及其网上检索方法,具有较强的实用性。 相似文献
8.
9.
中文数据库主题检索能力比较研究 总被引:2,自引:0,他引:2
对中国知网系列数据库、维普资讯系统和万方数据知识服务平台三大中文数据库检索系统的主题检索能力进行了比较研究,深入分析了这些检索系统在主题检索方面存在的缺陷和不足,探讨了在后控理论的基础上进一步优化和完善系统主题检索能力的方法。 相似文献
10.
11.
中文信息检索系统中的自然语言理解技术研究 总被引:2,自引:0,他引:2
分析自然语言理解技术在信息检索中的应用及其对信息检索系统的影响,指出自然语言理解技术对信息检索技术的研发有支撑作用;介绍国内外在自然语言理解方面所开展的“理性主义”与“经验主义”研究,重点论述中文自然语言理解研究的三个流派及其各自的核心技术和不足之处,指出该技术面临的发展困境,并提出目前可采取的解决办法。 相似文献
12.
中医药本体概念描述体系的自动构建研究 总被引:3,自引:0,他引:3
对中医药本体概念描述体系自动构建所需要的数据基础进行深入研究,在全面阐述数据加工方法及技术的基础上,利用自然语言处理(NLP)理论与方法对中医药领域中已有的公认领域知识进行重构与利用。成功实现中医药学知识描述体系的自动构建与获取,从而为中医药知识的挖掘与发现、利用奠定数据基础,并对领域本体的构建与进化进行有益的探索,为专业领域本体的自动构建提供理论依据及技术支持。 相似文献
13.
14.
自然语言处理中语法分析研究 总被引:1,自引:0,他引:1
孙鑫 《现代图书情报技术》2004,(Z1)
语法分析是自然语言处理中的关键环节 ,本文就自然语言处理中应用到的上下文无关语法、转换语法、剖析、转换网络和扩充转换网络等语法分析方法进行了论述。 相似文献
15.
������ʱ����峡������� 总被引:4,自引:0,他引:4
通过对我国已出版的多部叙词表的调查分析,认为汉语叙词表语义场的构成有其一定的特点和规律,等同义场和相关义场的构造是汉语叙词表编制的薄弱环节。介绍自然语言叙词表的特点及计算机自动构造的三种方法,指出基于文本的叙词表自动构造方法与汉语的词法相结合,将有助于对汉语叙词表等同义场、等级义场和相关义场的构建。 相似文献
16.
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。 相似文献
17.
中文生物医学文本无词典分词方法研究 总被引:1,自引:0,他引:1
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进。实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%。最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异。研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值。 相似文献
18.
针对自然语言提问的特点,提出基于短语索引的用户提问的处理方法,给出了短语结构索引的生成方法,设计了提问处理流程。在此方法中,系统接收完整的句子作为提问,采用自然语言处理技术对提问逐步处理,从提问中抽取短语作为检索对象。与关键词相比,短语可以表达更为具体的概念,有助于提高系统的查准率。图1。表1。参考文献13。 相似文献