共查询到19条相似文献,搜索用时 187 毫秒
1.
2.
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。 相似文献
3.
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值. 相似文献
4.
WNBTE网页正文抽取方法研究 总被引:1,自引:0,他引:1
WNBTE是一种基于文本字数统计信息,从网页中抽取正文内容的方法。该方法分析网页上存在的各种文字及其特点,寻找网页中包含字符数最多的结点,去掉该结点内的布局文字和说明文字,从而得到正文信息。该方法不需要人工参与,也不需要样本学习,克服了传统网页内容抽取方法中需要根据不同数据源构造不同抽取器的问题。 相似文献
5.
6.
通过对农业网页的HTML结构和特征研究,叙述基于文本内容的农业网页信息抽取和分类实验研究过程。实验中利用DOM结构对农业网页信息进行信息抽取和预处理,并根据文本的内容自动计算文本类别属性,得到特征词,通过总结样本文档的特征,对遇到的新文档进行自动分类。实验结果表明,本文信息提取的时间复杂度比较小、精确度高,提高了分类的正确率。 相似文献
7.
8.
9.
阐述了针对中小型企业供需信息自动化Web信息抽取技术的研究。自动化是指不需要人工标注网页抽取规则学习样本,系统能够从不同的求购信息网站的网页里自动获取相应的信息抽取规则,通过引入领域特征来净化抽取到文本字段而获得较高的查准率。 相似文献
10.
11.
基于Web资源的信息抽取技术 总被引:7,自引:0,他引:7
Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。如何将这些信息抽取出来,转化成结构化信息供其它信息集成系统所利用,成为该领域的研究热点。本文介绍了一个简单的Web信息抽取模型,对于基于该模型的wrapper归纳技术进行了探讨,并描述了一个wrapper自动生成系统的原型。 相似文献
12.
时态信息抽取和检索是Web领域中时态信息处理的两个关键问题.本文首先分析了时态信息对于Web应用的意义,然后对Web领域中时态信息抽取和检索的相关现状进行了深入讨论.在此基础上讨论了Web时态信息的本体表示问题.最后,预测了Web时态信息抽取与检索的若干未来发展方向. 相似文献
13.
句子级知识抽取在情报学中的应用分析 总被引:3,自引:0,他引:3
通过比较句子级知识抽取与词语级知识抽取的差异性,分析句子级知识抽取在情报学中的意义,表现在四类典型应用系统:学术抄袭检测系统、参考文献自动标注系统、文献自动综述系统、知识库构建系统。分析了知识抽取的难点与关键技术,针对难点与关键技术提出了知识抽取的3个转向:抽取对象转向以学术文献为主;抽取技术转向以内容结构分析为主;抽取目标转向以构建知识元数据库为主。 相似文献
14.
针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视化信息抽取的原则,设计了一个可视化信息抽取的实验,取得了良好的效果。 相似文献
15.
网络信息安全问题,已经成为制约网络经济进一步发展的重要瓶颈.Web数据挖掘技术是提升网络信息安全防范绩效的关键技术.本文在构建基于Web数据挖掘的网络信息安全防范模型后,还对建立在Web数据挖掘基础上的网络信息安全防范模型运行的基本原理、Web挖掘的数据资源、Web挖掘的技术方法、防范模型的主要应用、模型运行的注意事项等进行了深入分析. 相似文献
16.
17.
基于Web的信息抽取技术研究综述 总被引:1,自引:0,他引:1
本文在讨论Web信息抽取技术的发展历程、概念及其功能,Web信息抽取技术方法的分类及技术特点分析。Web信息抽取系统的构建研究及其性能评价的基础上。分析了当前研究存在的问题以及未来的研究方向。 相似文献
18.
19.
基于Web使用挖掘的用户个性化服务研究 总被引:5,自引:0,他引:5
万维网是一个巨大的全球性的信息服务中心。随着诸如新闻、广告、消费信息、金融管理、远程教育、政府网站、电子商务等的日益普及 ,提供网络信息服务的竞争日益激烈。谁能更方便地为用户提供所需要的网络资源 ;谁能提供更贴近用户的个性化服务 ;谁能更快捷抓住用户新的需求 ,是能否成功为用户提供网络业务的关键。现代社会的竞争趋势要求对因特网上大量出现和产生的信息进行实时和深层次的分析 ,虽然借助于强大的搜索引擎和搜索技术 ,用户仍然在分析和使用这些信息时面临许多困难。同时基于WWW的Web站点设计、Web服务设计、Web… 相似文献