首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
介绍了面向教育资源垂直搜索引擎研究的背景和意义,着重探讨了基于教育资源搜索的关键技术:搜索策略和网页信息的结构化抽取。  相似文献   

2.
1垂直搜索引擎研究现状 垂直搜索引擎是针对某一行业、某一特定人群的特定需求而提供具有一定价值的信息和相关服务,是搜索引擎的细分和延伸,通过将网页库中的某类专门的信息进行整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户.为了做好垂直搜索,既要做好信息检索环节,更要做好信息采集环节与业务相关的结构化数据和元数据的提取和挖掘工作.目前垂直搜索的数据的应用方向很多,比如供求信息搜索、MP3搜索、地图搜索和图片搜索等.  相似文献   

3.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

4.
提出了一种基于文档对象模型(DOM)和网页显示属性的信息除噪方法.通过对网页内容进行结构和特点分析,把一个网页信息内容划分为信息块和噪声块两个部分,利用解析器把网页转化成DOM模型并对网页信息噪声进行判断,根据网页的显示属性对DOM模型进行简化,最终实现对DOM模型噪声信息的有效去除.  相似文献   

5.
介绍了基于XML技术的WEB信息抽取方法.搭建了WEB信息抽取的三层数据模型,重点在于数据抽取层,在该层先借助于Tidy工具将HTML转换成XHTML,通过Path路径定位与抽取内容相关的锚,再利用XSL将抽取结果映射成XML文件.该XML文件可以直接作为辅助决策的信息源,也可以直接存入数据库为其他所用.这是由非结构化数据向结构化数据转换的一种方法,为应用程序利用WEB中的数据提供了可能.并实现了有关天气预报信息抽取的系统实例,抽取规则简单、健壮,代码移植性好.  相似文献   

6.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,设计一个统一的搜索引擎查询界面,并能快速智能合并查询结果是一个挑战。针对现有单个引擎搜索的限制,提出了基于行块的正文摘要提取方法和基于词频的相似度模型实现了一个可扩展的多WEB源的网络爬虫,将现各搜索引擎上的网页信息进行抽取,过滤、去重、排序、信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。系统的测试结果表明我们的方法是比较有效的。  相似文献   

7.
基于Web的网页信息抽取方法的研究   总被引:3,自引:0,他引:3  
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。本文介绍了一种基于Web的信息抽取的实现方法,能够按照规则模式重复地将半结构化网页中的信息自动抽取出来。  相似文献   

8.
基于语义Web的关键词相关度的搜索模型,是通过计算搜索关键词在各类教学资源网页主要内容文档块中出现的条件概率,来描述该网页与搜索关键词的相关度,同时利用教学资源网页与资源库课程的归属关系,修正计算的相关度结果。该智能搜索系统能够有效地解决用户搜索资源库时返回过多不相关页面的现状,同时根据媒体、课程与关键词的相关度进行排序,使用户能够从系统返回的近似媒体簇中迅速得到有用信息,从而提高检索准确率。  相似文献   

9.
信息抽取的主要目的是从无结构的自然语言文本中抽取特定的事件、事实等信息,再转化为结构化或半结构化的信息。  相似文献   

10.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中.  相似文献   

11.
数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。  相似文献   

12.
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。  相似文献   

13.
This paper investigates how the organization or structure of information and resources in shared workspaces influences team sharing and design learning. Two groupware products, BSCW and TikiWiki, were configured so that teams could structure and share resources. In BSCW the resources were structured hierarchically using folders and subfolders whereas in TikiWiki resources were structured using interlinked wiki pages (like web pages). The results showed that the groupware technology used, the collaborative task set and opportunities to reflect all influenced the way teams structured resources and that well‐structured resources facilitated team collaboration and design learning. The discussion focuses on the need to help students develop information literacy skills and on why asking students to structure resources might help develop their design expertise.  相似文献   

14.
基于B/S模式的应用系统存在的用户帐号泄漏、未授权页面的访问、浏览器自动填充文本框、Web.config文件对站点配置信息暴露等安全隐患,针对各种安全漏洞,从信息加密、脚本程序实现对浏览器功能控制、Session认证等几方面进行探讨,以有效提高系统安全性能.  相似文献   

15.
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数,如果记数大于某一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数.算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同.算法3通过采用Spider技术可以实现从整个网站中自动挖掘数据记录.实验表明所提算法比已有算法可挖掘更完整的数据记录.从同构页中挖掘数据记录是一种有效的方法.  相似文献   

16.
在分析了应用Java Bean(用Java语言描述的软件组件模型)是JSP(Java Server Pages,动态网页编程技术)的优势之后,提出一个在简体中文JSP网页中访问ACCESS数据库的Bean解决方案.把数据库访问功能和编码转换功能封装在一起,对于需要使用ACCESS数据库的中文JSP网页,只要引用Java Bean的方法就可以完成对数据库的操作,从而简化了网页编程,解决了访问ACCESS的汉字乱码问题,提高了程序的可重用性和逻辑性.  相似文献   

17.
段红 《怀化学院学报》2004,23(5):98-100
基于WEB平台的数据库应用越来越广泛 如何利用原有的图书馆数据库的资源 ,将传统的C/S应用模式向流行的B/S模式转换 ,这是一个新的研究方向 通过对比几种WEB数据库开发技术 ,提出一个以ASP技术的解决方案 ,探讨其实现的方法  相似文献   

18.
基于MATLAB Web Server的远程仿真系统开发   总被引:1,自引:0,他引:1  
在介绍Matlab Web Server的工作原理的基础上,结合通信原理远程仿真程序的开发实例,详细说明了基于Matlab Web Server的远程仿真系统的关键方法和技巧。仿真系统用户通过Web浏览器在远程输入数据,提交给MATLAB Web Server上的MATLAB运行,最后将计算结果和图形直观地显示在浏览器上。  相似文献   

19.
This study aims to explore navigation patterns and preferred pages’ characteristics of ten secondary school students’ searching the web for information about cloning. The students navigated the Web for as long as they wished in a context of minimum support of teaching staff. Their navigation patterns were analyzed using audit trail data software. The characteristics of their preferred Web pages were also analyzed using a scheme of analysis largely based on socio-linguistics and socio-semiotics approaches. Two distinct groups of students could be discerned. The first consisted of more competent students, who during their navigation visited fewer relevant pages, however of higher credibility and more specialized content. The second group consists of weaker students, who visited more pages, mainly of lower credibility and rather popularized content. Implications for designing educational web pages and teaching are discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号