共查询到20条相似文献,搜索用时 31 毫秒
1.
信息抽取的功能和实现方法 总被引:1,自引:1,他引:0
信息抽取是近十年来发展起来的一门数据挖掘技术,它主要解决实现从海量的自然语言文本中快速、有效、直接地抽取出指定的信息。分析了信息抽取的主要概念,介绍了信息抽取的主要功能和实现方法,并为完善其功能提出了几个任务 相似文献
2.
3.
4.
基于模式匹配抽取技术的网上产品情报获取 总被引:1,自引:0,他引:1
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。 相似文献
5.
自由文本信息抽取技术 总被引:13,自引:0,他引:13
信息抽取是从自由文本语料库构建数据库,实现情报自动收集的有效途径之一。近十多年来,信息抽取技术逐步走向成熟,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上,结合信息抽取所面临的挑战,分析了信息抽取的三个趋势。 相似文献
6.
基于关键词驱动的信息抽取系统的每个关键词都必须对应着相应的抽取规则。为了确保信息抽取系统具有较好的可移植性,设计了一种信息抽取规则描述语言。它由1-N条规则表达式构成。每条规则表达式由测试规则和提取规则两部分构成。它具有很强的描述能力和较高的处理效率,能满足信息抽取的实际需要。 相似文献
7.
WNBTE网页正文抽取方法研究 总被引:1,自引:0,他引:1
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。 相似文献
8.
[研究目的]为了帮助政府、企业和科研人员从海量的听证公开文本中发现科技相关政策和热点,快速、全面地识别出有价值的信息。[研究方法]梳理听证公开文本的类型与特点,并对其中有价值的信息进行合理的界定与分类;根据文本的内容特征和话语特征提出事件句识别、事件类型检测和事件论元抽取的三阶段式事件抽取方法,以实现有价值信息的抽取;对抽取的有价值信息进行深入分析。[研究结论]与基准模型相比,该研究所提方法在事件句识别召回率上提高33%,F1提高17%,在事件类型检测的精确率上提高1%,在事件论元抽取的精确率上提高18%,召回率提高4%,取得了一定效果,为此类文本进一步分析提供了新研究思路。 相似文献
9.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。 相似文献
10.
11.
12.
基于正则表达式的大规模网页术语对抽取研究 总被引:2,自引:1,他引:1
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%. 相似文献
13.
14.
作为信息抽取的重要组成部分,事件抽取的研究具有广阔的应用前景和巨大的现实意义.文章阐述事件及事件抽取的基本概念,简单介绍事件抽取的发展历史,并从元事件抽取和主题事件抽取两个方面出发,详细介绍主要的研究方法与研究现状,总结事件抽取发展所面临的挑战,并在此基础上展望事件抽取的研究趋势. 相似文献
15.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。 相似文献
16.
国内外知识抽取研究进展综述 总被引:1,自引:0,他引:1
信息泛滥与知识贫乏的问题越来越突出,用基于NLP的技术从文献中抽取知识有望解决这一矛盾.首先对知识抽取的含义进行界定,接下来论述知识抽取的意义.通过对国内外知识抽取研究现状的分析,总结知识抽取的抽取对象、抽取模式.发现国内关于知识抽取研究差距较大,从文献中抽取知识并进行实验研究的还很少,有待重视. 相似文献
17.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向. 相似文献
18.
19.
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。 相似文献
20.
事件抽取是指识别文本中描述在某个时间(或时间段),某个地点或地区,由一个或多个角色参与的某动作的事件。首先对我国关于事件抽取研究的文献进行了总结,给出事件抽取的主要方法及模型。并针对文献中对这些事件抽取方法的效果进行统计分析,探讨各种事件抽取方法或模型的效果及适用性。经过对现有研究文献的统计,结论为:当前有关事件抽取的研究仍在继续,主要集中于金融资讯、会议信息、突发事件、个人简历等来自网页、微博微信等自媒体信息或军事法律等专业文件的事件抽取,所采用的算法包括SVM、CRF、ME、模式匹配、聚类算法等;CRF算法应用与个人简历事件抽取效果最好,采用模式匹配算法的有效文献量相对较多,触发词方法的综合效果较优于模式匹配算法,但较多领域存在触发词算法的查全率较低的问题。 相似文献