首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文本行信息字数较长这一特点,设定阈值并删除不符合阈值要求的文本行。正文信息行距一般相隔较近且含有中文标点符号,根据这一特征进一步删除不符合要求的文本行,最后整合出网页正文信息。将该方法与网页正文提取工具印象笔记(Evernote)、有道剪报工具(YNote)进行对比实验,实验结果表明该方法在平均准确率上高于YNote、Evernote,具有一定的通用性。  相似文献   

2.
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。  相似文献   

3.
周杨 《教育技术导刊》2012,11(10):48-50
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。  相似文献   

4.
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术.该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息.  相似文献   

5.
针对垂直搜索引擎中精确抽取网页中特定字段的问题,对DIPRE算法进行了研究和改进。阐述了DIPRE算法在垂直搜索引擎中的重要作用,探讨了DIPRE算法在抽取复杂结构网页时的不足,并提出了改进,包括种子定位方式,将单模匹配扩展成多模匹配并引入定位索引,再根据已有技术对改进后的算法进行了实验验证。结果表明,改进后的算法在精度和效率上都符合预期。  相似文献   

6.
在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采集体系。通过对多监测点海洋数据的处理实例表明,基于网页列表页的抽取算法有效地抽取到了准确数据项,解决了嵌套数据记录、自动抽取和多台计算机协同工作问题,提高了数据采集效率。  相似文献   

7.
在已有的基于Dom Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上的网页分块方法,并在此基础上,实现了文本相似度比较的网页主题内容信息块识别算法,提高了主题内容信息块的识别精确度。  相似文献   

8.
www为用户提供了丰富的信息资源。然而,超文本的结构复杂且超链结构无方向性,因此很难将其用来Web可视化。本文就Web站点结构及网页特征信息的抽取技术进行了详细的阐述,其中包括网页内容读取算法、网页URL提取算法、超链路径转换算法等。  相似文献   

9.
为解决同类电子商务中的信息异构等问题,研究并实现了一种基于信息抽取的电子商务信息共享联盟系统。给出了该系统的系统组织模型,各个功能模块,信息抽取关键算法以及运行流程。该系统通过异构网页挖掘进行信息整合,采用贝叶斯算法进行按需信息抽取。仿真证明该系统具有较高的信息自动处理性能和较好的客户需求匹配度。  相似文献   

10.
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。  相似文献   

11.
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。  相似文献   

12.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

13.
随着互联网中网页数量的激增,网页自动分类已经成为互联网技术中亟待解决的问题。提出一种领域向量模型的设计与构建方法,设计并实现一种针对新闻网页的基于领域向量模型的网页分类TSC(Topic Sensitive Classify)算法,从新的角度解决网页自动分类问题。首先,对大量的新闻网页URL进行分析,提取新闻网页的URL特征;然后,设计一个领域向量模型,对特定领域的新闻网页内容特征进行提取;最后,结合新闻网页URL特征和内容特征对新闻网页进行自动分类。实验结果表明,TSC算法分类效果比传统SVM和ID3等文本分类算法更优。  相似文献   

14.
任何网站都是由若干网页构成的,网页界面设计得是否美观大方、能否引人入胜,决定了浏览者对网站第一印象的好坏.网站最终能否吸引住浏览者,靠的还是图片内容,图片内容的质量和编排水平是最重要的.对于网页设计来说,同样也是针对要传达的信息内容将必要的各种构成要素(文字、图形、图像、标志、图标、色彩等造型要素及标题、信息菜单、信息正文、标语、单位名称等内容要素),根据信主题的要求予以必要的关系设计,使这些要素和谐地出现在一个网页界面中,给人一定的审美感受,同时更好地传达信息.  相似文献   

15.
上一期中,我们为大家介绍了如何在FrontPage2000中建立超级链接,可是网页的正文区(网页中间的空白处)该如何处理呢?别着急,这一次,我们一同学习如何用FrontPage2000制作首页的正文区。我们先在正文区插入一个表格。在表格的“单元格属性”中,将“水平对齐方式”设置为“左对齐”,将“垂直对齐方式”设置为“顶边对齐”,之后,再将表格设置为1行1列、边框粗细为0、单元格边距为0、单元格间距为0。完成上述内容后,就可以在该表格中输入正文文字了。为了使首页更加美观,我们可以在正文区插入一幅剪贴画。方法是:执行“插入”命令,执行“图片”…  相似文献   

16.
基于命名实体的网页推荐算法,从查询日志入手,分析用户的查询行为,给用户提供智能推荐,从而给出较好的推荐网页.提出了基于混合马尔科夫模型用于目录网页的导航链接和基于LDA特征选择的网页推荐算法用于主题网页推荐,实验结果显示,基于混合马尔科夫模型的推荐算法,达到了比较满意的效果;基于LDA特征提取的网页推荐算法优于传统的推荐算法,很好地满足了用户的需求.  相似文献   

17.
针对许多网页排序算法都是面向内容,未考虑用户使用倾向的问题。提出一种基于链接访问的加权网页排序算法(WPSLA),基于链接访问(LA)为搜索引擎设计网页排名算法,并考虑网页入站链接的访问次数。采用加权页面排序(PS)算法为权重更高的页面分配更大的排名值,使得每个外链接获得一个与其受欢迎程度成比例的值,并通过链接的访问次数来计算和确定用户的使用趋势,分析用户的浏览行为。实验结果表明提出的算法性能优越,可以有效增加页面的相关性。  相似文献   

18.
在总结前人工作的基础上,提出一种基于块的网页内容提取算法,它从网页结构和内容两者角度入手,有效过滤了其中无效的垃圾信息。通过对新浪、网易等150个网页实验分析,我们的方法切实可行并且具有较高的准确性。  相似文献   

19.
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。  相似文献   

20.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号