共查询到19条相似文献,搜索用时 187 毫秒
1.
中文文本关键词自动抽取方法研究 总被引:6,自引:1,他引:5
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求. 相似文献
2.
李海涛 《现代图书情报技术》2004,20(10):33-35
从项目实践出发,对纯文本文档的处理技术进行了深入的研究,包括文档内容的识别、抽取、关联修改等,并在此基础上分别用Visual C#.NET和Java实现了纯文本资源自动解析系统和基于纯文本的参数配置系统。最后结合实际应用,总结了纯文本技术的应用特点,指出了其应用价值和发展方向。 相似文献
3.
由于微博简单迅捷、互动性强的特点,使其成为信息沟通的桥梁和纽带,成为突发事件的重要信息源头,也成为虚假信息滋生的温床。因此,加强微博舆情监测、分析、预警具有十分重要的意义。本文阐述了基于Web文本信息抽取方法,以及基于文本抽取的舆情分析技术,为用户掌握舆情动向、趋势强弱变化,进行热点、敏感信息预警与决策提供支持。 相似文献
4.
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现. 相似文献
5.
实体关系抽取的技术方法综述* 总被引:3,自引:0,他引:3
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。 相似文献
6.
实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键.目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一.本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法.具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习B... 相似文献
7.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。 相似文献
8.
医学文献集合的主题抽取和主题聚类实践 总被引:1,自引:0,他引:1
文献中的重要关键词能够反映其核心主题,因此对文献主题的发现和抽取问题就转化为对文献中的重要关键词集合的抽取.文章在调研了国外在主题抽取和聚类方面采用的技术方法的基础上,提出了在医学学科领域从文本信息资源中抽取主题并进行主题领域判断的技术方案,并详细阐述了其中的主题聚类的技术环节.为了验证该技术方案的有效性,文章以骨关节炎领域为例,对文中提出的技术方案进行实践验证.验证的结果表明文章提出的技术方案有着实际的有效性.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献
9.
近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献
10.
11.
12.
开放获取资源统一访问平台全文检索工具的设计与实现 总被引:2,自引:0,他引:2
就如何实现OA资源的全文检索进行探讨,分别阐述目前OA资源检索平台的现状及实现全文检索的难点,提出并实现以搜索引擎为代理自动完成对OA资源全文进行检索的技术方法,且对该方法从系统设计和技术细节两方面进行解析。测试表明,以搜索引擎为代理的OA资源统一访问平台的全文检索工具的检索效率及质量基本令人满意。 相似文献
13.
基于主题模型的科技报告文档聚类方法研究 总被引:1,自引:0,他引:1
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。 相似文献
14.
15.
中文生物医学文本无词典分词方法研究 总被引:1,自引:0,他引:1
为了在不利用词典的条件下实现对中文生物医学文本的有效切分,结合中文生物医学文本专业术语多、新术语不断出现和结构式摘要的特点,引入一种基于重现原理的无词典分词方法,并在实际应用过程中从分词长度上限值的设定和层次特征项抽取两方面对其进行了改进。实验结果表明,该方法可以在不需要词典和语料库学习的情况下,实现对生物医学文本中关键性专业术语的有效抽取,分词准确率约为84.51%。最后,基于本研究中的分词结果,对生物医学领域的词长分布进行了初步探讨,结果表明中文生物医学领域的词长分布与普通汉语文本有非常大的差异。研究结果对在处理中文生物医学文本时N-gram模型中N值的确定具有一定的参考价值。 相似文献
16.
国内文本分类研究论文的统计分析 总被引:1,自引:0,他引:1
介绍文本分类是一个跨信息检索、机器学习和计算语言学的综合研究领域,是信息处理的重要研究方向,指出它在自动标引、信息检索、文本过滤和文献组织等领域中有着广泛的应用;并通过应用文献计量学的方法对1998-2005年国内文本分类的研究论文进行统计分析,探讨近年来我国文本分类研究现状和主要发展趋势。 相似文献
17.
基于Web挖掘技术的信息检索系统设计与实现 总被引:2,自引:0,他引:2
本文详细介绍一个基于Web文本挖掘技术的信息检索系统的设计与实现。基于Web文本挖掘技术的信息检索技术融合了文本挖掘的思想,它将单一的资源发现或者单一的信息提取的传统的信息检索方法结合起来,从而达到在WWW发现资源并将其中的信息提取出来进行处理的目的。 相似文献
18.
19.
基于领域本体实现Web文本挖掘研究 总被引:1,自引:0,他引:1