首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
探讨一种新的文档分类方法——基于本体的规则分类法。该方法首先根据分类体系建立每个类的本体,然后根据本体和规则对网页的主要标记信息进行分类。实验表明,这种方法比Rocchio分类法查全率略低,但查准率较高。  相似文献   

2.
目前,在网页分类中,对HTML主要结构特征进行加权的常用方法是绝对数值加权方法.这种方法的缺点是加权系数为定值,其对长文本和短文本所起的作用不同,使得结构特征对正文的影响随着正文长度的增加而削弱.针对该缺点,本文提出了一种改进型加权方法,即相对数值加权方法.通过网页层次分类的实验,比较了这两种方法对单个标签域以及多个标签域结合的分类性能.实验结果表明,相对数值加权方法能有效提高分类的精确度,并且效果优于绝对数值加权方法.  相似文献   

3.
目前基于关联分类方法的分类器通常只选取少数高质量的类规则进行分类,使得一部分待分类的数据无法分类。鉴于压缩规则可以表示多条同质量的类规则,且比单一规则具有更好的数据匹配性,提出了以压缩规则为单位构造分类器的方法,实验结果表明,新的方法提高了分类的能力和精度。  相似文献   

4.
基于层次分类体系的知识地图自动构建方法研究   总被引:1,自引:0,他引:1  
知识地图是组织实施知识管理的有效工具.随着组织中知识资源存储量的日益增加,手工编制知识地图的方式显得非常低效,甚至难以完成.针对组织中以文本形式大量存在的显性知识,提出了一种基于层次分类体系的知识地图结构,并提出了一个以层次分类方法为核心的知识地图自动生成方法,用来自动构建符合组织需求的知识地图.最后通过实验验证了该层次分类方法的有效性,并给出结论.  相似文献   

5.
王晓艳  林昌意 《图书情报工作》2015,59(1):113-118,126
[目的/意义] 通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程] 以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论] 实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。  相似文献   

6.
一种改进的文档层次分类方法   总被引:1,自引:0,他引:1  
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。但是,常用的层次分类法容易产生“阻滞”的问题。为了解决该问题,提出一种改进型层次分类方法,即限制投票法,并运用Rocchio分类器在基础教育学科资源环境下进行了实验。结果表明,该方法能够降低阻滞,具有较好的分类效果。  相似文献   

7.
本文以数字图书馆的资源检索为应用背景,研究本体支持下的基于规则推理的语义检索机制.在本体知识库支持下,检索系统面向基于本体结构的元数据,依据概念关联及相关推理规则,寻求蕴涵关系,发掘隐含信息.本文从数字图书馆资源的语义关系中提炼出推理规则,并选用正向链推理算法实现推理,基于正向链接的规则推理依照事先定义的规则集,能够从已有事实出发挖掘已存事实中的隐含结论,适用于无确定推理目标且解空间很大的一类推理检索任务.本文通过实例分析验证了这一方法在智能检索系统中应用的可行性,并提出采用先推理后检索的策略解决在面向庞大数据集和复杂推理规则时产生的推理时效问题.  相似文献   

8.
基于词形规则模板的术语层次关系抽取方法   总被引:1,自引:0,他引:1  
术语层次关系抽取是领域概念关系体系构建的重要基础.针对目前术语关系抽取中手工实现的问题,提出了基于词形规则模板匹配的术语层次关系抽取方法,实现从科技论文文本中抽取类属关系(IS-A)和整体部分关系(PART-OF)关系.利用复合术语的head和modifier特征,比较两个术语之间存在的边缘共用词汇,构造模板来确定它们之间的IS-A和PART-OF关系;提出泛化度指标,用于测量两个术语在概念层次树上的相对位置;提出相关度概念,用于测量两个术语之间在语义上的相关性.对不存在共用词汇和不匹配模板的术语采用泛化度差值和相关度来判断它们之间是否存在层次关系.实验从信息资源管理领域的论文文本中提取层次关系术语对1306对,准确率达到92.5%,证明提出的方法是有效的.  相似文献   

9.
为了提高网页自动分类的准确率,基于信息融合的模型理论,提出了一种通用的网页自动分类模型和融合算法。该模型根据完成功能的不同分为四个层次:信息抽取层、数据预处理层、特征层和决策层,其中特征层是针对网页上不同种类的媒体信息采用不同的分类方法进行分类,并将分类结果分别输入决策层和与该特征层算法相关的其他的特征层。决策层是处理特征层的分类结果,并推导出最终的网页分类融合结果,并将该模型和算法进行了实现。实验表明,文章提出的融合模型和算法可以有效地改进网页自动分类准确率。  相似文献   

10.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

11.
虚拟图书馆中网页的自动分类研究   总被引:1,自引:0,他引:1  
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。  相似文献   

12.
基于《中图法》的网络农业信息分类编码研究   总被引:1,自引:0,他引:1  
针对目前农业网站信息管理与共享的需求,提出了一套网络农业信息分类编码体系.通过分析国内代表性农业网站信息分类的特点及<中图法>网络应用的优缺点,以"华中农业信息网"多年采编的信息作为实验材料,在考虑网络农业信息特点的基础上对<中图法>的农业及相关类目进行了网络适应性改造,进而提出了网络农业信息分类编码方法.该体系克服了全新分类体系网络应用性差、信息覆盖面不全的问题.研究结果对网络农业信息有效管理,提高信息利用率,促进信息资源共享具有积极作用.  相似文献   

13.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

14.
基于查询结果的Web数据库自动分类研究   总被引:2,自引:0,他引:2  
郭少友 《情报学报》2006,25(4):481-487
本文提出了基于查询结果的Web数据库自动分类方法,该方法以雅虎分类目录体系中的类目词为查询词对数据库进行查询,并根据查询结果对Web数据库进行分类。本文通过原型系统检验了该方法的分类效果。  相似文献   

15.
本文以互联网FTP目录树为对象,从大众构造的层次式结构中揭示管理网络资源时的组织规律。通过考察44,972个软件资源及其在目录树中的位置,得到如下认识:①对于用户查找、浏览资源来说,资源存放在深度为2或3层较适合。②当要管理的资源数量在200以内时,人们可容忍平均1个目录中包含10个左右的软件资源;当资源数量更大时,人们可容忍平均1个目录中包含15个左右的软件资源。③在使用层次式组织结构时,人们会对结构的深度有一个习惯上限,目录结构平均深度一般不多于6层。④人们考虑组织结构时,会在"分类体系复杂度"和"分类精细度"之间权衡,在资源量增多时,尽量保证扁形结构。本文揭示了采用层次方式组织资源时的一些共性,有助于设计更贴近大众习惯的网络资源组织与导航系统,并对标签聚类等从扁平型信息组织方式中提取类目层次的研究工作提供依据。  相似文献   

16.
基于网易的网络信息分类体系研究   总被引:1,自引:0,他引:1  
文章针对目前网络信息混乱,不利于用户查找的现状,从网络信息类目设置原则、类目级别、类目数量、类目关系等方面对网易的分类体系进行了初步研究;同时结合传统信息分类方法,在剖析网易分类体系自身特点的基础上,初步探讨了目前网络信息分类存在的一些问题,及在构建网络信息时所应考虑的因素和改进建议,以期为改善国内网络信息分类体系提供参考。  相似文献   

17.
Web使用挖掘下的Web页面层次分类技术研究   总被引:1,自引:0,他引:1  
Web使用挖掘研究用户访问行为所体现的行为特征,Web站点结构分析对于Web使用挖掘具有重要意义.本文讨论如何结合Web站点内页面间的超链结构和关键页面分析技术实现对Web站点的链接结构分析,得到清晰的站点拓扑结构和页面层次分类,进而以此为Web页面进行层次编码,和Web用户行为向量的建立方法,为准确表述用户的访问行为提供数据支持;用一种新的方式进一步有效的挖掘用户的行为特征.最后,把它同一些重要的页面分类方法,从算法的计算效率和页面分类的准确率上进行了比较,试验数据的分析表明,该方法在效率和准确率上有一定提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号