首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
分析文本中词语关联规律对于解决信息检索与文本语义研究中许多问题具有重要的价值和意义。首先建立测试平台,对词对语义与构成词对的两词在文本中语义的相符性进行人工判断,然后依据两词语在文本中所处位置差异、文本类型、分句长度、词频等标准,对数据进行分组统计和聚类分析得出两词在文本中的关联规律,最后指出不足及下一步研究的方向。  相似文献   

2.
蒋婷  孙建军 《图书情报工作》2016,60(20):112-122
[目的/意义] 概念非等级关系抽取是本体构建的必要步骤,学术文献作为一种重要的学术资源类型,本文主要利用其结构特点来进行本体概念非等级关系的抽取。[方法/过程] 首先,在本体概念抽取的基础上,对文献中概念的类型进行分类,以便于后期关系动词搭配的概念类型来排除不符合条件的三元组;其次,确定学术文献中的关系类型,并采用C-value方法抽取表示关系的动词,进行本体关系的表示;再次,评价概念对的关联性,利用互信息法对概念对进行排序并去除非相关概念对,实验表明该方法非常有效;最后评价概念对与关系动词的关联,分析影响三元组关联的因素,再采用实验确定模型挖掘三元组,实验比较现有的关联规则挖掘的方法。[结果/结论] 结果表明本文提出的三元组选择模型效果明显超过现有的关联规则挖掘方法,并且在语料集扩大的情况下这种优势更为明显。  相似文献   

3.
根据互信息、RBF神经网络和关联规则原理,提出了一种抽取WEB文本分类规则的新方法。先根据互信息选择和各类相关程度大的若干词条,然后采用RBF神经网络方法对选择的特征进行进一步提取,得到维数较小的文本特征向量空间。之后再根据挖掘出的关联规则获取WEB文本分类规则,建立文本分类器,在保证了分类精度的前提下抽取出利于理解的文本分类规则。  相似文献   

4.
阐述了数据挖掘的概念,介绍了Apriori算法,对计算机等级考试答卷数据进行关联规则挖掘,分析影响计算机等级考试成绩的因素,并找出课程知识点之间潜在的关联规则,指导教师对教学过程进行决策和研究,为提高教学质量奠定了基础。  相似文献   

5.
中文文本关键词自动抽取方法研究   总被引:5,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

6.
方平  柳晓春 《图书馆》1990,(6):21-29
情报检索语言是根据情报检索的需要而创制的人工语言,按照结构原理可以分为分类语言,描述语言和代码语言三大类型,其中分类语言(分类法)和描述语言(主题法)是最基本的类型。有关主题法的研究,在我国一度是比较薄弱的环节。但是自1978年以来,我国主  相似文献   

7.
利用关联规则算法,对PubMed数据库中的4种抗肿瘤药物主题词和副主题词组配模式进行分析,并以文献和教科书标准,抽取出与这四类药有关的、有效的语义关系搭配模式,从而为文献检索和建立知识库提供依据。  相似文献   

8.
基于模糊处理的中文文本关键词提取算法*   总被引:2,自引:0,他引:2  
研究关键词提取算法,在分析可能影响关键词提取词语的各种属性并将其量化的基础上,提出并实现一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。  相似文献   

9.
中文文本解构与知识发现研究   总被引:2,自引:0,他引:2  
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一.文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的.  相似文献   

10.
从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。  相似文献   

11.
对1991-2010年间的16 656条我国SSCI文献数据进行关联规则分析。在对关联规则结果进行冗余规则剪除、有效性检验和模板匹配的基础上,得到基于主导地区、合作模式和成果流向角度的我国SSCI文献的数量关联特征。通过关联特征发现:我国主导的社会科学研究合作范围狭窄、合作对象单一,在跨国合作中不占据主导地位,缺乏把握成果流向的话语权。  相似文献   

12.
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。  相似文献   

13.
提出一种新的基于负关联规则与频繁项集挖掘的信息检索系统模型,详细阐述系统模型的设计思想、各模块的功能,以及检索系统实现的三种关键技术(即频繁项集挖掘技术、负关联规则挖掘技术和查询优化扩充技术)及其检索算法。实验结果表明,该检索系统能有效提高和改善信息检索性能。  相似文献   

14.
一种基于N-Gram改进的文本特征提取算法   总被引:3,自引:0,他引:3  
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。  相似文献   

15.
黄名选 《图书情报工作》2011,55(15):110-113
针对情报检索系统中存在的词不匹配问题,提出一种基于相关性-兴趣度架构的关联规则挖掘的局部反馈查询扩展算法,并论述查询扩展基本思想、扩展算法模型以及扩展词权值的计算方法。该算法主要特点是采用支持度-置信度-相关性-兴趣度框架衡量关联规则,避免产生负相关的、虚假的和无兴趣的规则,提高来自于关联规则的扩展词的质量。实验结果表明,该算法能有效地改善和提高信息检索性能, 有很高的实际应用价值和推广前景。  相似文献   

16.
基于领域中文文本的术语抽取方法研究   总被引:3,自引:0,他引:3  
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。  相似文献   

17.
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

18.
提出一种基于XML规则定制的中文语法校对技术方案,通过XML规则自定义或扩展中文语法校对功能。该技术已在开源校对工具LanguageTool上得以实现,相应的中文语法校对XML规则库也已建立。在多个中文语料库上进行应用测试的结果显示了该技术的可行性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号