首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 103 毫秒
1.
为解决同类电子商务中的信息异构等问题,研究并实现了一种基于信息抽取的电子商务信息共享联盟系统。给出了该系统的系统组织模型,各个功能模块,信息抽取关键算法以及运行流程。该系统通过异构网页挖掘进行信息整合,采用贝叶斯算法进行按需信息抽取。仿真证明该系统具有较高的信息自动处理性能和较好的客户需求匹配度。  相似文献   

2.
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.  相似文献   

3.
信息抽取是近十年来发展起来的一门数据挖掘技术,它主要解决实现从海量的自然语言文本中快速、有效、直接地抽取出指定的信息,文中分析了信息抽取的概念,主要分析了信息抽取的关键技术以及与信息检索之间的差异,在此基础上对信息抽取技术在数字图书馆中的应用作了一些探讨,随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用.  相似文献   

4.
随着互联网技术的快速发展,电子商务数据量迅速增长。电子商务急需解决的问题是如何使电子商务用户快速有效地利用已有数据资源进行分析、利用。介绍了大数据在电子商务中的应用,对电子商务大数据导购系统进行了研究。  相似文献   

5.
对web页面上的信息抽取,一般采基于DOM或SAX的解析方式对信息进行解析.面对非结构化的html,无论使用DOM或SAX,都有其不足之处.本文对比DOM、SAX的解析方式,介绍一种开源的JerichoHTMLParser解析方式,其在时html页面信息进行直接解析时.可以获得一个比较好的解析效果.最后,用实验证明基于JerichoHTMLParser解析方式,对html页面信息解析的可靠性和有效性.  相似文献   

6.
信息抽取技术内涵及应用   总被引:2,自引:0,他引:2  
本论述了信息抽取与信息检索、自动的区别,信息抽取所需涉及的自然语言处理技术,中信息自动抽取的目的、任务和技术内涵;然后介绍了信息抽取技术在信息处理中的应用。  相似文献   

7.
基于Web的网页信息抽取方法的研究   总被引:3,自引:0,他引:3  
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。本文介绍了一种基于Web的信息抽取的实现方法,能够按照规则模式重复地将半结构化网页中的信息自动抽取出来。  相似文献   

8.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

9.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中.  相似文献   

10.
研究淘宝网和百度有啊这两个国内有代表性的C2C电子商务平台上的销售记录及其用户信息的抽取.针对两个网站上的店铺销售数据,设计一个基于JerichoHtmlParser的、以Html数据标签为地标的Web数据抽取算法;针对两个网站上的用户信息,设计一个基于正则表达式的Web数据抽取算法.设计实现了一个Web抽取系统,可以按不同的抽取规则实现对不同站点上数据的抽取.最后通过对上述2个平台上实际数据的抽取,验证了设计方案的有效性,实验证实了所设计的原型系统具有较高查全率和准确率.  相似文献   

11.
由于当前信息抽取系统因知识库结构和内容的不同带来的搜索质量问题,将本体引入信息抽取中,有助于信息抽取系统对领域内的概念和概念之间的联系的统一认识,为用户提供更有价值的信息。提出了基于本体的文本信息抽取算法,通过本体元素描述抽取的文本信息。最后,利用此算法对某领域样本Web页面进行抽取并分析。实验表明性能有所提高。  相似文献   

12.
1课题的背景及研究目的 随着网络技术和软件技术的飞速发展,特别是Internet/Intranet的出现及其相关技术的迅速发展,信息革命带来了全球范围市场竞争的日益加剧,对传统的办公和生活方式产生了巨大冲击。所有的企业都面临着严峻的挑战,企业内的员工作为一个团队能否及时交流、获取各种相关信息,从而高效地协同工作,是企业得以发展壮大的关键。  相似文献   

13.
针对Web信息主体的多元化和Web表现形式的异构化,开发了一种基于主体知识库的Web信息提取系统,通过主体的知识库来识别要提取内容的位置,从而能够有效提取出用户所关注的主体的属性信息。实验表明,该系统具有很好的通用性,能够较好地完成对半结构化Web信息主体的提取工作。  相似文献   

14.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

15.
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文本行信息字数较长这一特点,设定阈值并删除不符合阈值要求的文本行。正文信息行距一般相隔较近且含有中文标点符号,根据这一特征进一步删除不符合要求的文本行,最后整合出网页正文信息。将该方法与网页正文提取工具印象笔记(Evernote)、有道剪报工具(YNote)进行对比实验,实验结果表明该方法在平均准确率上高于YNote、Evernote,具有一定的通用性。  相似文献   

16.
介绍了C#网络编程及C#多线程编程的相关类库,以及网络编程的相关类库,并通过一个大型评论网站的数据抽取为背景,分析了相关的技术难点,分为抽取、处理、存储三个模块,构造了解决方案并将其实现。实验证明,该框架非常有效。  相似文献   

17.
利用网页抽取技术,可以从图书馆自动化管理平台获取馆藏数据库信息,通过GPRS MODEN自动向读者手机发送短信,并可根据读者的需求,提供文献定制、催还提醒、书目信息查询等服务,提高信息资源的流通率和利用率。据此实现信息资源的主动推送服务、个性化服务以及实时服务,可进一步提高图书馆服务的水平。  相似文献   

18.
Web信息抽取的现状及未来展望   总被引:2,自引:0,他引:2  
Web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的Web信息抽取方法基础上,对有待进一步研究的方向进行了展望。  相似文献   

19.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

20.
Web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的Web信息抽取方法基础上,对有待进一步研究的方向进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号