首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
随着互联网的快速发展,Web信息抽取技术的研究及应用已越来越多,本文介绍了Web信息抽取技术的概念及国内外的发展历程,分析了Web抽取信息的原理;对目前主流的Web信息抽取技术进行了归纳分析,阐述了Web信息抽取的评价指标。  相似文献   

2.
Web抽取技术是众多对网络信息资源挖掘中重要的一项技术。近年来,Web抽取技术发展很快,已渗透至各个领域,应用到很多行业,但真正涉及陶瓷产品应用这一块的不多,本文在分析了Web抽取技术现阶段发展现状的基础上,针对陶瓷产品的特点提出了陶瓷产品信息Web抽取的技术路线,以便获得和整理陶瓷产品信息,规范陶瓷产品的信息资源。  相似文献   

3.
基于Web的信息抽取技术研究综述   总被引:1,自引:0,他引:1  
蒲筱哥 《现代情报》2007,27(10):215-219
本文在讨论Web信息抽取技术的发展历程、概念及其功能,Web信息抽取技术方法的分类及技术特点分析。Web信息抽取系统的构建研究及其性能评价的基础上。分析了当前研究存在的问题以及未来的研究方向。  相似文献   

4.
一种基于XML的Web信息抽取方法   总被引:6,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

5.
分析了信息抽取的研究现状,提出了一种基于领域本体的Web信息抽取模型,对模型中的各部分功能进行了简要说明,明确了信息抽取的系统流程,提高了信息抽取效率。  相似文献   

6.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

7.
目前的Web信息抽取技术中,基于内容方式又需要复杂的语言知识和自然语言处理技术。如何将基于结构方式和基于文本方式有效的结合起来克服各自的缺点。  相似文献   

8.
随着Web信息抽取的研究和发展,抽取技术已经逐渐成熟,通过软件来实现从Web页中抽取所需要的信息已成为可能。对基于.NET技术实现的Web信息抽取系统进行了研究,分析并提出了HTML文档下载和清理、HTML到XML格式转换、数据定位及抽取、抽取数据的保存等需要研究解决的关键技术问题,并探讨了相应的解决方案。  相似文献   

9.
Web商业信息普遍存在互联网HTML文件中,使用传统手工方法来收集这些信息存在很大的局限性,针对Web上存在的大量商业信息,基于Web挖掘技术,提出了使用正则表达式来收集大规模Web商业信息.实现方式是首先获取网页源文件,接着使用设计好的正则表达式对源文件进行编译,从而抽取其中的Web商业信息.实验表明,这种方法抽取的准确率达到93%以上.  相似文献   

10.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

11.
侯锟  罗海龙 《科技广场》2007,22(3):117-118
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。  相似文献   

12.
侯锟  罗海龙 《科技广场》2006,38(4):70-72
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。  相似文献   

13.
浅析信息资源数字化的存储技术   总被引:2,自引:0,他引:2  
臧国全 《情报科学》2000,18(12):1113-1115
本文讨论了数字化信息的生成技术、数字化信息的逻辑存储技术、数字化信息的物理存储技术和数字化信息的压缩技术。  相似文献   

14.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。  相似文献   

15.
自由文本信息抽取技术   总被引:13,自引:0,他引:13  
李向阳  苗壮 《情报科学》2004,22(7):815-821,829
信息抽取是从自由文本语料库构建数据库,实现情报自动收集的有效途径之一。近十多年来,信息抽取技术逐步走向成熟,已成为与信息检索相平行的技术之一。对信息抽取技术进行系统的归类、总结,已显得较为迫切。在对当前多种主要的信息抽取技术进行分析、比较的基础上,结合信息抽取所面临的挑战,分析了信息抽取的三个趋势。  相似文献   

16.
郝小花  王柯 《情报科学》2001,19(9):972-975
本文描述了基于Java技术的Web信息发布三层体系结构,讨论JavaApplet、JavaScript、JavaServlet、JSP、JavaBeans、JDBC等Java技术对客户端表示层、应用服务和数据服务层各层的支撑,阐明Java作为Web信息发布主流技术的必然趋势。  相似文献   

17.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向.  相似文献   

18.
试论网络信息资源的有效配置   总被引:12,自引:4,他引:12  
张晓娟 《情报科学》1998,16(3):257-260
本文论述了网络信息资源配置的意义、依据、特点及内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号