共查询到19条相似文献,搜索用时 62 毫秒
1.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
2.
基于标题的中文新闻网页自动分类 总被引:1,自引:0,他引:1
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。 相似文献
3.
4.
虚拟图书馆中网页的自动分类研究 总被引:1,自引:0,他引:1
臧国全 《现代图书情报技术》2002,18(3):28-31
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。 相似文献
5.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。 相似文献
6.
[目的/意义] 通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程] 以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论] 实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。 相似文献
7.
8.
9.
10.
11.
基于统计的自动分类是网页层次分类中常用的技术,但其有不足之处,主要表现为当子类之间出现严重的特征交叉现象时,分类精确率将大大下降。而网页层次分类的本质决定了同一大类下的子类存在许多相同的特征。针对这一局限性,结合基于规则的自动分类技术的优点,提出一种基于统计-规则方法的网页层次分类技术。实验表明,基于统计-规则方法的网页层次分类技术能够获得比较理想的分类效果。 相似文献
12.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。 相似文献
13.
基于关联规则挖掘的查询扩展模型研究 总被引:1,自引:0,他引:1
为了将关联规则挖掘技术更好地应用于信息检索查询扩展,通过对基于关联规则挖掘的查询扩展模型的深入研究,归纳出4类共13种查询扩展模型,理论分析和实验比较各个查询扩展模型的检索性能,试图发现一些优秀的扩展模型。 相似文献
14.
可视化语音信息检索模型研究 总被引:1,自引:1,他引:1
随着多媒体信息数量的增加,如何对其进行有效的组织利用是我们关注的问题。本文针对音频信息的重要组成部分——语音信息的组织利用,探讨了建立在自动语音识别技术和信息可视化技术基础上的可视化语音检索信息模型。最后文章对现有的两个语音检索系统进行了分析。 相似文献
15.
一种基于网页分割的Web信息检索方法 总被引:2,自引:0,他引:2
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。 相似文献
16.
将自然语言处理技术——统计语言模型引入信息检索领域产生了一系列全新的检索模型,典型包括查询似然模型、生成相关性模型、词项依赖模型、统计翻译模型、泊松分布模型以及风险最小化框架等。本文从统计学模型以及N-gram技术的角度重点解析这些信息检索模型的演进过程。最后对基于统计语言模型的信息检索模型的发展过程以及未来发展趋势和挑战进行了总结。 相似文献
17.
本文对中国知网系列数据库、万方数据知识服务平台和维普资讯系统三大中文数据库的分类检索能力进行了相应研究,分析了这些检索系统在分类检索方面存在的缺陷和不足,探讨了完善中文数据库检索系统分类检索能力的方法。 相似文献
18.
19.
二元语义信息检索模型* 总被引:1,自引:0,他引:1
提出一个基于二元语义的信息检索模型。该模型包含文档的表示、查询语句的表示、文档和查询的匹配3个部分。相对于传统的基于查询关键词精确匹配的信息检索模型,该模型能较好地满足用户查询要求中的灵活性。 相似文献