首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于网上新闻语料的Web页面自动分类研究   总被引:1,自引:0,他引:1  
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。  相似文献   

2.
马玉春  孙冰 《情报科学》2005,23(9):1376-1380
针对股票的网站越来越多,如何从这些网站的有关页面进行信息抽取,并得到相关知识,为股民提供股票交易的决策参考,是一个值得研究的课题。本文剖析了信息抽取常用的Wrapper方法,以及抽取知识的获取方法。最后,根据可视化信息抽取的原则,设计了一个可视化信息抽取的实验,取得了良好的效果。  相似文献   

3.
李斌 《大众科技》2010,(4):48-49
文章阐述了web信息抽取的定义、抽取过程、Web信息抽取方法的分类,并指明了web信息抽取的应用领域和发展方向。  相似文献   

4.
邱金鹏 《科技通报》2019,35(10):133-136
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。  相似文献   

5.
侯锟  罗海龙 《科技广场》2006,38(4):70-72
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。  相似文献   

6.
侯锟  罗海龙 《科技广场》2007,22(3):117-118
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。  相似文献   

7.
一种基于XML的Web信息抽取方法   总被引:4,自引:2,他引:4  
目前Web资源含有大量的有用信息,但由于它们欠结构化,不能为传统的数据库型查询系统所利用。针对这一问题,出现了Web信息抽取技术。在论述了半结构化Web信息抽取技术总体解决方案的基础上,研究了Web信息抽取的实现技术,并从应用的角度提出一种新的半结构化信息获取方法。该方法包括网页分析过程、映射的自动生成和信息抽取过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,为进一步满足Web信息检索提供了一种新的高效的检索方法。  相似文献   

8.
正本设计实现了一种基于web爬虫的网页信息获取系统,通过构造虚拟HTTP请求头部,模拟浏览器行为发送虚拟请求获取需要的web页面,实现了流量包抓取、微信公众号内容抓取。通过实验结果和原网址信息进行比对,表明了网页信息获取系统的正确性。urllib2与Beautiful Soup简介urllib2在python3中即为urllib.request。由于urllib2  相似文献   

9.
JavaServer Faces(JSF)是一种用于构建Web应用程序的新标准Java框架。它提供了一种以组件为中心来开发JavaWeb用户界面的方法,从而简化了开发。JSF是真正的MVC模式,它的侧重点是web表现层,提供了丰富的页面开发控件,而且支持控件的开发方便、灵活,弥补了Java在Web开发方面的不足。  相似文献   

10.
基于HTML或MXL描述的Web页信息抽取技术研究   总被引:1,自引:0,他引:1  
谢维成  吕先竞  宋玉忠 《情报科学》2005,23(9):1398-1402
从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。  相似文献   

11.
在网络操作系统研制中使用ASP.NET母版页技术可以为应用程序实现统一的布局。母版页利用其可以为应用程序中的所有页(或一组页)创建统一的界面和样式的强大功能,为开发web应用程序提供了一种简单、高效的途径。本文分析了采用母版技术的页面的组成,母版页的运行原理以及母版页与内容页的交互,使web站点的设计方便快捷,风格统一。  相似文献   

12.
【目的/意义】随着Web网页的爆炸式增长和网页噪声不断增多,企业竞争情报系统和智能化网站的开发 以及移动终端的阅读都急需一种可以高效精确抽取网页信息的方法。【方法/过程】本文提出了基于重复模式识别 的信息提取新方法,通过页面解析、相似度计算、聚类并形成群组、删除横幅广告和导航链接等步骤,提取到了详情 页面的标题和主要内容。【结果/结论】对于结构稳定的页面,本文实现了较高质量的信息抽取。不足之处是聚类和 相似度的计算量较大,时间较长。  相似文献   

13.
基于模式匹配抽取技术的网上产品情报获取   总被引:1,自引:0,他引:1  
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。  相似文献   

14.
基于正则表达式的大规模网页术语对抽取研究   总被引:2,自引:1,他引:1  
多语术语对的收集对于垮语言信息检索、机器翻译和语言学习等具有重要应用价值.但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性.针对web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法.首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中.实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%.  相似文献   

15.
杨旸 《内江科技》2009,30(11):83-83
使用Ajax创建用于无缝数据交互的web2.0web应用程序是一项复杂的任务,Ajax是一种包含(但不仅限于)JavaScript和XML的技术。文章主要对Java Pet Store 2.0演示程序中的页面进行概迷,并演示这些页面内容如何由用户驱动、组织和控制。  相似文献   

16.
为了对web服务可用性进行评测,从用户角度提出了Web服务可用性的相关指标。通过建立web服务可用性评价模型,给出了一种针对Web服务可用性的评价方法,为用户对服务的量化及选择提供了客观依据。  相似文献   

17.
AJAX是一种新兴的web技术,它能够成功实现无刷新页面和数据的异步交互。介绍了Ajax技术的工作原理并给出了基于Java的无刷新查询的实现方法。  相似文献   

18.
一种基于视觉分块的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
随着浏览器/服务器体系结构和动态网页技术的广泛应用,对网页进行快速、准确地信息抽取的技术研究已成为一个热点.结合动态网页的生成特点和针对已有抽取方法的不足,提出了一种基于视觉分块的Web信息抽取方法.  相似文献   

19.
RSS的解释有多种,它可以是“Rich Site Summary”(丰富站点摘要),“RDF Site Summary”(RDF站点摘要),或是“Really Simple Syndication”(真正简易聚合),这主要是由于该技术有不同的源头,不同的技术团体对其做出了不同的解释。简而言之,RSS是基于XML技术的互联网内容发布和集成技术,是一种描述新闻或其他web内容的方式,通过“feed(提要)”将信息从在线出版者传递到web用户面前。  相似文献   

20.
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤.传统的手工抽取需要大量的人力物力,效率很低.针对扫描期刊,提出了一种基于扫描页面特征分析的元数据自动抽取算法,分析扫描页的格式、结构、字体等特征,采用基于规则和有监督的机器学习方法进行抽取,实验表明该算法能够取得较高的准确率和召回率,同时显著地提高了元数据标引的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号