首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。  相似文献   

2.
邵晓良  刘红 《情报杂志》2004,23(7):14-16
介绍了解放军第二军医大学网络信息中心设计的军事主题信息采集系统的一项核心工作——军事主题信息的识别。主题识别算法从构造专业性较强的军事主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了军事主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

3.
基于分块和统计相结合的新闻正文抽取   总被引:1,自引:0,他引:1  
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。  相似文献   

4.
5.
本文给出了一种基于英文网页的描述性信息(context)的摘要算法。该算法改进了提取描述性信息的方法,用Html Parser工具提取所有符合条件的描述性信息。对描述性信息集进行预处理后,讨论了如何解决描述性信息集的相关性问题,并通过实验结果对比分析了本摘要算法中混合法和聚类法的性能。  相似文献   

6.
[目的/意义]针对在线旅游平台,提出一种挖掘游记主题标签,以代表性游记以及其中相关内容进行旅游信息推荐的新策略。[方法/过程]在利用文本挖掘技术,构建LDA主题模型,形成游记文本主题标签的基础上,通过游记代表度算法,筛选出针对相应标签的高描述度与高忠诚度游记进行旅游信息推荐,以客观表达文本聚类结果以及主题词之间的语义关系,并以蚂蜂窝旅游网中的"杭州游记"为例,加以验证。[结果/结论]结果表明,这种方式能挖掘出旅游者在历史旅游经历中真实的旅游热点及重点信息需求,针对高相似度游记的识别与聚类具有良好效果,对旅游信息细粒度推荐具有指导意义与实践意义。  相似文献   

7.
《科技风》2017,(14)
本文提出了一种新颖的通用论坛信息的提取算法。针对标题,利用论坛标题与网页标题相同这一特征提取。针对回帖模块的定位,我们提出了一种称为基于相似性度量和最低公共父节点的边界确定(BD-BSL)的算法。针对回帖内容的提取,我们利用该标签所采用的css样式绝大多数都含有min-height属性这一特点进行提取。针对主题帖,利用主题帖独有的分享模块进行单独提取。  相似文献   

8.
针对传统的基于Web图的垂直搜索策略Authorities and Hubs,提出了一种融合了网页内容评价和Web图的启发式垂直搜索策略,此外,引入向量空间模型进行针对网页内容的主题相关度判断,进一步提高主题网页下载的准确率.实验表明,文中算法有效地提高了主题网页的聚合程度,且随着网页下载数量的增加,垂直搜索引擎的准确率逐渐递增,并在下载网页达到一定数量后,准确率趋于稳定,算法具有较好的鲁棒性,可以应用到相关垂直搜索引擎系统中.  相似文献   

9.
研究主要针对PageRank只考虑链接关系,而不考虑相关性的缺点进行了一些改进,把Web数据挖掘技术的内容挖掘应用到PageRank算法中,基于超链接文本和内容与主题的相关性,提出了PageRank算法的优化算法,并通过实验仿真,实验结果表明改进后的方法对提高更高相关性的网页的排名是有效的,符合人们的期望。  相似文献   

10.
赵哲  马晓珺 《科技通报》2014,(4):206-208
利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。  相似文献   

11.
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。  相似文献   

12.
在对PageRank算法和主题链接分析的基础上,提出了一种面向主题的链接评价算法TL-PageRank,该算法以"主题随机冲浪"模型为基础,同时利用网页主题分布特性和网页之间相互引用特性,对未爬行链接的权威值进行综合评价.实验表明,TL-PageRank算法在收获率方面比经典的链接评价算法获得了明显的提高.  相似文献   

13.
OCR识别技术应用是信息资源建设的重要技术手段,以OCR技术为核心研发电网设备台账标签识别功能,面对电网设备台账标签内容复杂的特点,有效解决台账标签手工采集工作效率低,准确率不高的问题。台账标签识别是基于OCR高效识别算法,对电网设备标签上的文字进行识别,将识别结果与台账标签图形进行映射存储,供其它系统使用。该系统作为智能高效管理的人机交互手段,不仅可以有效的解决电网设备标签自动识别录入的问题,且能够提高标签数据录入的数据质量。  相似文献   

14.
不同内容网络信息资源的半衰期比较研究   总被引:1,自引:0,他引:1  
比较不同内容网络信息资源半衰期,有利于进一步研究网络信息资源的老化规律,使信息价值最大化.以delicious网站一天中更新的80 622条书签为研究对象,根据用户标注的标签进行内容分类,测度其被引半衰期并进行比较分析,验证了不同内容网络信息资源半衰期不同:社会和生活类网页的半衰期较长,而以计算机技术和娱乐的相关网页半衰期较短.最后,提出了此研究在网络广告和挖掘网页价值中的应用.  相似文献   

15.
当前在WWW上有众多的近似镜像Web页面 ,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一。在分析现有近似镜像方法的基础上 ,提出了一种以自然段为标准进行分段的近似镜像算法 ,该算法在对网页进行特征值计算时按照自然段落进行分块。实验结果表明 ,该算法对于海量页面有着一定的优势。此外 ,所提出的算法不仅可用于消除重复页面 ,还可以作为页面排序算法的一个参考指标。  相似文献   

16.
杨泳丹 《科技通报》2019,35(7):178-181,185
针对PageRank算法存在的不足,本文对网络链接的结构进行分析,并以此为基础对PageRank的算法进行了改进,提出了主题链接相似度的PageRank算法。本文算法的核心是将当前网页与入链网页的主题相关度作为传递权值,替换PageRank算法中以平均值作为权值。本文的PageRank-I算法将网页之间的链接作为链接的向量,以这种链接的关系来对向量的余弦相似度进行主题相关性的描述,而不用对额外的文本信息进行处理,减少了系统负担。实验结果证实本文的PageRank-I算法在没有增加系统的额外负担的同时,也没有增加时间上的复杂度,解决了PageRank算法中主题漂移的问题。  相似文献   

17.
针对主题搜索引擎反馈信息主题相关度低的问题,提出了将遗传算法与基于内容的空间向量模型相结合的搜索策略。利用空间向量模型确定网页与主题的相关度,并将遗传算法应用于相关度判别,提高主题信息搜索的准确率和查全率。在Heritrix框架基础上,利用Eclipse3.3实现了相应功能。实验结果表明,搜索策略改进后的系统抓取主题页面所占比例与原系统相比提高了约30%。  相似文献   

18.
论文设计实现中文搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页主题内容提取.对于不容易分类的网页,采用基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法.最后,构造中文文本分类器,并编程实现,通过实例测试分类器性能.  相似文献   

19.
占泚  熊回香  蒋武轩  李琰 《情报科学》2022,39(1):121-129
【目的/意义】在线健康信息的有效组织对提升全民身体素质具有重要的社会价值。【方法/过程】在分析健 康信息主题、关联关系和资源标引的基础上,构建基于主题图的在线健康信息标签语义挖掘模型,从而构建了健康 信息标签主题图并实现了其可视化导航、浏览和检索等功能。【结果/结论】基于主题图的在线健康信息标签语义挖 掘模型能够准确的发现在线健康信息与信息标签间的深层关系,可以更好地揭示在线健康信息标签的语义关联, 为用户提供信息的可视化浏览和导航功能、提升健康信息的组织效果,帮助用户健康信息获取。【创新/局限】本文 将主题图与健康信息标签相结合,提高了健康信息的检索效率和利用效率,但本文也存在着不足,例如标签样本量 和样本范围较小,缺乏专业医学研究者的参与。  相似文献   

20.
在射频识别系统中,存在阅读器与多个标签同时通信的碰撞问题,多标签识别的防碰撞算法是解决数据冲突的关键。本文分析了RFID多标签防碰撞原理,在此基础上提出了一些提高RFID多标签防碰撞效率的解决方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号