共查询到20条相似文献,搜索用时 15 毫秒
1.
目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文本行信息字数较长这一特点,设定阈值并删除不符合阈值要求的文本行。正文信息行距一般相隔较近且含有中文标点符号,根据这一特征进一步删除不符合要求的文本行,最后整合出网页正文信息。将该方法与网页正文提取工具印象笔记(Evernote)、有道剪报工具(YNote)进行对比实验,实验结果表明该方法在平均准确率上高于YNote、Evernote,具有一定的通用性。 相似文献
2.
产品特征抽取是产品评论挖掘中的关键一步,针对现有产品评论挖掘方法对产品特征抽取的不足,提出了一种Apriori算法和文本模式相结合的产品特征抽取方法,并运用特征修剪算法对候选产品特征进行过滤。实验结果表明,该方法具有较好的效果。 相似文献
3.
目前存在的彩色人脸识别方法大多是将彩色图像转换为灰度图像后,采用基于灰度图像的特征抽取与识别算法进行分类识别.本文根据彩色人脸图像的构成特点,对彩色人脸图像的R、G、B三个分量色彩信息进行特征抽取与分析,进而找出适合对彩色人脸图像进行自动识别的鉴别特征.最后,在国际通用的AR标准彩色人脸库中进行了大量实验,验证了本文算法的有效性. 相似文献
4.
彩色人脸图像鉴别特征抽取综述 总被引:1,自引:0,他引:1
近年来,人脸识别技术得到了迅猛发展,而基于彩色图像人脸识别的研究尚处于初级阶段.本文在对所有彩色人脸图像表示法和鉴别特征抽取方法分析比较的基础上,综述了彩色人脸鉴别特征抽取的研究现状. 相似文献
5.
李明杰 《常熟理工学院学报》2005,19(4):106-108,115
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。 相似文献
6.
7.
针对传统的线性分析方法中都需要的平均样本的共性,提出了基于中间样本的人脸识别.这种方法有效去除了干扰样本对平均样本的影响,并结合彩色人脸识别,提出了基于中间样本的彩色人脸鉴别特征抽取及自动识别方法.最后,在国际通用的AR标准彩色人脸库中进行了大量实验,验证了算法的有效性. 相似文献
8.
王二平 《吕梁高等专科学校学报》2004,20(2):73-75
www为用户提供了丰富的信息资源。然而,超文本的结构复杂且超链结构无方向性,因此很难将其用来Web可视化。本文就Web站点结构及网页特征信息的抽取技术进行了详细的阐述,其中包括网页内容读取算法、网页URL提取算法、超链路径转换算法等。 相似文献
9.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%. 相似文献
10.
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。 相似文献
11.
基于Web的网页信息抽取方法的研究 总被引:3,自引:0,他引:3
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。本文介绍了一种基于Web的信息抽取的实现方法,能够按照规则模式重复地将半结构化网页中的信息自动抽取出来。 相似文献
12.
电子签名和一般的手书签名在签名的形式和特征上具有很大的不同,为了保证其真实性,必须在技术和法律方面建立必要的认证制度.我国的认证机构应在借鉴国外经验的基础上,从我国国情出发,建立适合我国的认证体系和相关制度,以利于电子签名的广泛应用. 相似文献
13.
14.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中. 相似文献
15.
结合XML文档树结构提出了一种基于节点相对路径的模式抽取算法,通过使用SAX解析器对XML文档进行一遍扫描,提取出XML文档节点及其相对路径来实现XML文档模式的抽取,该算法有效地解决了XML文档中存在的环路及缺边问题,计算结果模式的代价较低,效率较高. 相似文献
16.
对多Agent系统的基本概念和关键技术进行了综述和讨论,针对目前在电子签名认证中的不足,提出了一种基于仿真多Agent系统的电子签名认证模型。 相似文献
17.
信息抽取是近十年来发展起来的一门数据挖掘技术,它主要解决实现从海量的自然语言文本中快速、有效、直接地抽取出指定的信息,文中分析了信息抽取的概念,主要分析了信息抽取的关键技术以及与信息检索之间的差异,在此基础上对信息抽取技术在数字图书馆中的应用作了一些探讨,随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用. 相似文献
18.
19.