共查询到15条相似文献,搜索用时 62 毫秒
1.
词性标注的方法研究*——结合条件随机场和基于转换学习的方法进行词性标注 总被引:1,自引:0,他引:1
词性标注是语料库建设中的重要环节,同时也是自然语言处理领域的基础研究课题。针对词性标注任务中统计处理和规则处理两种方法各自的特点和局限,提出融合条件随机场模型和基于转换学习的方法来进行自动词性标注的方案。实验结果表明,该方案能够有效地提高词性标注的正确率。 相似文献
2.
[目的/意义]构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程]本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论]实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。 相似文献
3.
[目的/意义] 在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法/过程] 基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果/结论] 基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。 相似文献
4.
结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197 个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。图8。表11。参考文献13。 相似文献
5.
[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。 相似文献
6.
7.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。 相似文献
8.
搜索引擎查询日志的词性标注和挖掘研究 总被引:1,自引:0,他引:1
利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以“的”为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。 相似文献
9.
基于CRFs的角色标注人名识别模型在网络舆情分析中的应用 总被引:4,自引:0,他引:4
本文在理论分析CRFs优于HMM和MEM等序列标注模型的基础上,提出一种基于CRFs的字角色标注人名识别模型.重点阐述了该模型的构建过程,包括角色定义、特征模板建立、特征函数生成及其参数训练、角色标注和基于模式的人名抽取等步骤,并通过实验验证模型的识别效果,探讨包括特征组合、字长窗口等在内的各种影响因素,探索模型的最佳识别条件,同时对CRFs和HMM在人名识别实验中进行了比较分析,认为CRFs在付出更大的实验复杂度的代价下,其人名识别效果明显优于HMM.论文最后通过实例探讨了CRFs-RL-PnR模型在网络舆情分析,包括新闻人物自动抽取、焦点人物时序分析等中的实践应用. 相似文献
10.
以某大学图书馆的所有馆藏书目为研究对象,在对图书关键词标引信息进分析的基础上,总结中文关键词的基本特点及其抽取规律,构建一个基于字序列标注的中文关键词抽取模型,提出中文关键词抽取的基础思路和实现方案,并通过实验论证模型的合理性、正确性和实用性,认为字序列标注方法优于词序列标注,基本上可以解决不分词情况下的中文关键词抽取问题。 相似文献
11.
12.
[目的/意义] 随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程] 厘定古文信息处理的概念,分析古文信息处理的研究现状,给出古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。[结果/结论] 在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。 相似文献
13.
14.
[目的/意义]科技文献中各种特征项及其之间的关联是构成多种多样共现现象的基本单元,通过挖掘共现特征项之间的关联,共现分析可以从不同角度探测科学与技术活动规律的方方面面,为科研管理者和研究者等提供一个全方位、多角度观察科学发展的新视角。[方法/过程]通过对多重共现的基础理论研究,构建一套独特的多重共现数据模型基础理论体系,该理论体系包括:多重共现的定义、多重共现的研究范畴、用于多重共现的变量符号、多重共现的矩阵定义、多重共现的数据组织形式以及多重共现的延展系数计算公式与应用范畴。此外,基于多重共现的交叉图可视化方式,构建可用于分析3个或以上特征项共现关系的知识发现方法,包括共现关联强度、被引关联强度以及共现突发强度的分析方法。[结果/结论]通过该基础理论体系的构建,拓展共现现象的研究范围,为共现分析走向多角度、多维度的多重共现分析提供基础理论的支持。并通过实证研究,选取不同的多重共现应用案例,证明该方法可应用于研究领域、研究机构、机构间对比、研究学者等方面的分析,同时具有较好的分析效果。由于该方法体系具有分析角度多维化和分析方法多样化的特点,通过该方法的分析,除能够实现一重、二重共现等的分析效果外,还能揭示出比一般共现更为广泛和深入的知识内容。 相似文献
15.
在综合国内学术信息检索服务的现状和现有理论方法研究的基础上,以检索词推荐为研究对象,构建基于文献特征项共现网络的学术信息检索词推荐模型。模型包括基础文献存储模块、文献特征项抽取模块、文献特征项共现网络预处理模块、基于特征项的文献检索模块及检索词服务前端5个部分。利用实验验证基于特征项的共现网络用于检索词推荐的可行性,结果表明推荐模型结果与各检索项的检索词更具有相关性,推荐质量较好。 相似文献