共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视化信息抽取的原则,设计了一个可视化信息抽取的实验,取得了良好的效果。 相似文献
4.
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。 相似文献
5.
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。 相似文献
6.
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。 相似文献
7.
8.
9.
JavaServer Faces(JSF)是一种用于构建Web应用程序的新标准Java框架。它提供了一种以组件为中心来开发JavaWeb用户界面的方法,从而简化了开发。JSF是真正的MVC模式,它的侧重点是web表现层,提供了丰富的页面开发控件,而且支持控件的开发方便、灵活,弥补了Java在Web开发方面的不足。 相似文献
10.
11.
在网络操作系统研制中使用ASP.NET母版页技术可以为应用程序实现统一的布局。母版页利用其可以为应用程序中的所有页(或一组页)创建统一的界面和样式的强大功能,为开发web应用程序提供了一种简单、高效的途径。本文分析了采用母版技术的页面的组成,母版页的运行原理以及母版页与内容页的交互,使web站点的设计方便快捷,风格统一。 相似文献
12.
13.
基于模式匹配抽取技术的网上产品情报获取 总被引:1,自引:0,他引:1
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。 相似文献
14.
基于正则表达式的大规模网页术语对抽取研究 总被引:2,自引:1,他引:1
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%. 相似文献
15.
使用Ajax创建用于无缝数据交互的web2.0web应用程序是一项复杂的任务,Ajax是一种包含(但不仅限于)JavaScript和XML的技术。文章主要对Java Pet Store 2.0演示程序中的页面进行概迷,并演示这些页面内容如何由用户驱动、组织和控制。 相似文献
16.
为了对web服务可用性进行评测,从用户角度提出了Web服务可用性的相关指标。通过建立web服务可用性评价模型,给出了一种针对Web服务可用性的评价方法,为用户对服务的量化及选择提供了客观依据。 相似文献
17.
AJAX是一种新兴的web技术,它能够成功实现无刷新页面和数据的异步交互。介绍了Ajax技术的工作原理并给出了基于Java的无刷新查询的实现方法。 相似文献
18.
19.
RSS的解释有多种,它可以是“Rich Site Summary”(丰富站点摘要),“RDF Site Summary”(RDF站点摘要),或是“Really Simple Syndication”(真正简易聚合),这主要是由于该技术有不同的源头,不同的技术团体对其做出了不同的解释。简而言之,RSS是基于XML技术的互联网内容发布和集成技术,是一种描述新闻或其他web内容的方式,通过“feed(提要)”将信息从在线出版者传递到web用户面前。 相似文献
20.
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤.传统的手工抽取需要大量的人力物力,效率很低.针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率. 相似文献