首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

2.
彭同坠 《科教文汇》2008,(36):278-278
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。  相似文献   

3.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.  相似文献   

4.
WNBTE网页正文抽取方法研究   总被引:1,自引:0,他引:1  
李纲  戴强斌 《情报科学》2008,26(3):333-336
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。  相似文献   

5.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

6.
朱学芳  冯曦曦 《情报科学》2012,(7):1012-1015
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。  相似文献   

7.
《内江科技》2016,(7):36-37
在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。  相似文献   

8.
随着互联网技术兴起,人类信息积累速度越来越快,对网页信息自动抽取的需求随之变大。本文对现今网页信息扫描和抽取特点进行分析,对其存在的问题给予阐述,并结合PHP语言,解析如何运用其相关技术对网页信息实现企业级别的精确提取。  相似文献   

9.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。  相似文献   

10.
董旻  方曙  杨志萍 《情报杂志》2007,26(6):73-75,78
提出一种利用JTree和XPath技术实现动态网页信息抽取系统的方法,介绍了系统主要组件的功能和实现方法,并进行实际的抽取试验,论述了此设计的优点。  相似文献   

11.
基于Web资源的信息抽取技术   总被引:7,自引:0,他引:7  
郭志红 《情报科学》2002,20(12):1282-1284
Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息供其它信息集成系统所利用,成为该领域的研究热点。本文介绍了一个简单的Web信息抽取模型,对于基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。  相似文献   

12.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向.  相似文献   

13.
句子级知识抽取在情报学中的应用分析   总被引:3,自引:0,他引:3  
通过比较句子级知识抽取与词语级知识抽取的差异性,分析句子级知识抽取在情报学中的意义,表现在四类典型应用系统:学术抄袭检测系统、参考文献自动标注系统、文献自动综述系统、知识库构建系统。分析了知识抽取的难点与关键技术,针对难点与关键技术提出了知识抽取的3个转向:抽取对象转向以学术文献为主;抽取技术转向以内容结构分析为主;抽取目标转向以构建知识元数据库为主。  相似文献   

14.
马玉春  孙冰 《情报科学》2005,23(9):1376-1380
针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视化信息抽取的原则,设计了一个可视化信息抽取的实验,取得了良好的效果。  相似文献   

15.
网络信息安全问题,已经成为制约网络经济进一步发展的重要瓶颈.Web数据挖掘技术是提升网络信息安全防范绩效的关键技术.本文在构建基于Web数据挖掘的网络信息安全防范模型后,还对建立在Web数据挖掘基础上的网络信息安全防范模型运行的基本原理、Web挖掘的数据资源、Web挖掘的技术方法、防范模型的主要应用、模型运行的注意事项等进行了深入分析.  相似文献   

16.
Web挖掘应用研究   总被引:4,自引:0,他引:4  
随着互联网的广泛应用,利用数据挖掘技术对Web中的信息进行深度分析成为研究的热点。本文在对国内外Web挖掘应用最新成果研究的基础上,从个人和企业的实际应用出发介绍数据挖掘技术在Web中的各种应用,并以电子商务网站的Web挖掘为实例,详细介绍了如何在Web中利用数据挖掘技术获取企业或个人所需的信息。  相似文献   

17.
基于Web的信息抽取技术研究综述   总被引:1,自引:0,他引:1  
蒲筱哥 《现代情报》2007,27(10):215-219
本文在讨论Web信息抽取技术的发展历程、概念及其功能,Web信息抽取技术方法的分类及技术特点分析。Web信息抽取系统的构建研究及其性能评价的基础上。分析了当前研究存在的问题以及未来的研究方向。  相似文献   

18.
文章提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。  相似文献   

19.
基于Web使用挖掘的用户个性化服务研究   总被引:5,自引:0,他引:5  
万维网是一个巨大的全球性的信息服务中心。随着诸如新闻、广告、消费信息、金融管理、远程教育、政府网站、电子商务等的日益普及 ,提供网络信息服务的竞争日益激烈。谁能更方便地为用户提供所需要的网络资源 ;谁能提供更贴近用户的个性化服务 ;谁能更快捷抓住用户新的需求 ,是能否成功为用户提供网络业务的关键。现代社会的竞争趋势要求对因特网上大量出现和产生的信息进行实时和深层次的分析 ,虽然借助于强大的搜索引擎和搜索技术 ,用户仍然在分析和使用这些信息时面临许多困难。同时基于WWW的Web站点设计、Web服务设计、Web…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号