首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
现有的主题标引方法一般只能抽取文本中出现的词汇,无法从几万或数十万主题词中选择语义关联强且未出现的词汇;基于机器学习的多标签分类算法则需要每一个标签下有训练数据,限制了它们在主题标引上的应用。面向大规模主题词在海量文献上的标引需求,提出一个基于分布式词向量的混合型自动标引方法,利用大规模语料训练的词向量生成同维度的主题词表示向量和文本表示向量,实现主题词与文本语义相似度的计算。基于大规模语料构建主题词与普通词的映射表,使文本向量只和少量的语义强相关主题词向量比较,大大减少了计算量,提高了标引效率。开发的自动标引工具对近亿篇文献进行了主题标引,达到了较高的速度。与结巴关键词的实验对比结果显示,本文方法抽取的主题词与作者关键词重合度较低,且在去除结巴关键词中的非主题词后,取得了比结巴关键词更高的标引准确率;与人工标引的实验对比结果显示,随着人工标引词数量的增加,本文方法的效果、结果与人工标引结果的一致性在不断增加。  相似文献   

2.
社会标签的规范性研究——学术论文标注   总被引:1,自引:0,他引:1  
吴丹  王艳妮 《图书馆》2012,(1):85-88
分析社会标签的特点,比较社会标签与主题词、标引词、关键词的概念,分析学术论文标注的作用与典型的学术论文标注系统,以图书情报领域为例,就用户的学术论文标注与学术论文数据库标引进行对比实验,显示出社会标签与受控的主题词的重合率不高的问题。详细分析实验结果,提出对学术论文标注进行规范控制的建议。  相似文献   

3.
分众分类系统中的标签通过一系列聚类算法可以形成“标签树”,但标签树中的标签间语义关系未能显性化,不能称之为标签本体。另一方面受控词表类目体系或主题词更新缓慢,跟不上网络资源新名词、新主题增长的速度,导致许多资源无法用传统分类法标引。借鉴受控词表现有的语义关系来挖掘标签树的语义关系,形成一个轻型标签本体;另一方面通过标签本体与受控词表的共享词汇,制定筛选规则,将标签本体中符合受控词表选词规则的标签纳入受控词表,使分众分类系统成为受控词表更新源泉之一,使其重新焕发活力。  相似文献   

4.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

5.
在主题目录中地名主题词用法的探讨张琪玉(空军政治学院信息管理系)地名主题词在主题标引中的使用极为广泛,而且情况相当复杂。当地名主题词使用于主题目录的标引时(而不是指使用于机检系统的标引时),下列几个用法问题值得探讨。本文的目的是抛砖引玉。l地名主题词...  相似文献   

6.
试谈档案主题标引与分类标引的异同秦勇杨建生标引,就是在主题分析之后,赋予档案以某种检索标识,作为存贮和查找的依据。主题标引,是在档案文件的系统化、规范化、标准化的基础上,利用主题词按照一定的程序、规则、方法,对档案文件中具有检索意义的内容特征进行标识...  相似文献   

7.
档案主题标引具有规范性强、组配性好、专指性准等优点,同时对标引质量也要求较高。只有标引的每个主题词都是正式主题词,都是和主题概念相对应的、并能准确反映档案主题概念的主题词,才能最大限度地实现档案检索时的查全率和查准率。然而,在具体实践中,往往容易产生误差,影响标引质量。 一、标引度掌握不准 国家行业标准《档案主题标引规则》中将档案主题标引深度规定为“赋予一个标引对象主题词数量的多少。”在实际工作中,由于各人理解和判断的角度不同,对同一份档案标引的主题词数量有多有少,我们通常称之为标引过深和标引过浅。 1、标…  相似文献   

8.
文书类档案的分类标引研究   总被引:7,自引:0,他引:7  
本文介绍了一种档案文献的计算机分类标引算法。该算法以主题词作为分类的依据,对不能直接映射归类的档案,统计文献主题词隶属于各个类的隶属度,利用模糊关系对档案进行分类标引,为了提高分类效率,使分类系统具有实用性,提出了几种措施。  相似文献   

9.
本文对公文与档案著录标引主题词和主题词标引在公文与档案检索中的重要作用作了阐述,对目前在主题词标引中存在的问题以及对检索产生的影响作了分析,提出了一些对策和值得思考的问题。  相似文献   

10.
著录项目中最具有检索意义的是主题词,而著录工作的难点也在于如何准确提炼档案主题,选好主题词。主题词标引的准确、全面与否,直接影响着档案信息资源的检全率和检准率。在著录工作中,由于种种原因,有的档案工作者为提高工作效率,不仔细阅读档案内容,简单采用“望题标引”、“字面组配”等不恰当的主题词标识方法,导致主题标识不能准确反映档案内容,出现主题词“标引不足”或者“标引过度”,降低著录质量。所谓“标引不足”是指著录标引时选择的主题词不能全面、准确地解释档案内容,造成对档案内容的漏著、误著。如“一份关于XX县外贸出口…  相似文献   

11.
Three groups of social bookmarking users, namely experienced users, users with moderate level of experience, and novice users, were investigated, in terms of their reported tagging behaviors, perceived usefulness of social bookmarking in information discovery and management, and perceived usefulness of the bookmarking features provided. Based on the empirical analysis of the Connotea users, who are primarily in academia, the study shows that experienced academic users generally prefer to use social bookmarking while moderately experienced and novice users still prefer to use the traditional bookmarking methods, such as creating and using bookmarks on a dedicated computer. Experienced academic users were also found to create more tags per bookmark comparing to the other two groups. Most novice academic users, however, only created one tag per bookmark, which just met Connotea's minimum requirement. Surprisingly different from the collaborative design nature of the social bookmarking systems, the study finds that our participants, particularly experienced academic users, prefer to create and use their own bookmarks rather than sharing bookmarks created by others. In fact, experienced users have significantly higher frequency (once every two weeks) of creating bookmarks than the other two groups (once a month or less). In addition, website design features and functions, such as automatic collection of bibliographic information, are regarded by all participants as helpful for information discovery. The in-depth examination and discussion of the opinions of Connotea users may be useful for further improvement of the design features and usage applications, particularly for academic social bookmarking websites. The results may also have potential implications to the future development of social bookmarking services in general.  相似文献   

12.
图书标注系统的比较分析   总被引:1,自引:0,他引:1  
回顾图书标注的发展历史,介绍基于标签的图书标注系统的机制与优势;选取国内外共计三类10个图书标注系统进行实例分析,从标注主体、标注目的、标注功能和标签处理三个方面总结各类系统的特点;最后提出完善图书标注系统的建议,以期为其未来发展提供些许参考。  相似文献   

13.
14.
社会标签进展研究概述   总被引:3,自引:0,他引:3  
翟爽  宋文 《图书情报工作》2010,54(20):41-143
近年来,社会标签的发展非常迅速,在信息组织和信息构建领域有着广泛的应用。社会标签的进展主要归纳为两个方面:①在各个领域中的应用进展;②与传统知识组织体系的关系探讨和融合研究。社会标签与知识组织体系的融合模式主要分为三种:①两者之间直接进行映射;②从分类表中抽取上下级关系和相关关系;③将分面分类的理论与方法移植到社会标签上,达到对标签词的组织和呈现。  相似文献   

15.
网络信息自组织视角下的Folksonomy优化   总被引:6,自引:2,他引:4  
徐少同 《图书情报工作》2009,53(10):102-105
以大众分类法与网络信息组织发展的关系为视角,对Web2.0时代网络信息组织中出现的自组织特征进行分析,揭示大众分类法的形成机制与自组织特点,并在讨论大众分类法的特点和指出其存在的主要缺陷基础上,从完善网络信息系统标签功能的角度给出优化大众分类法的思路与建议。  相似文献   

16.
[目的/意义] 为提高标签质量,优化社会标注系统的信息服务提供依据,从用户在社会标注系统中与其他用户交互的视角,探讨不同交互特征用户的标注行为差异。[方法/过程] 以豆瓣读书作为社会标注系统研究样本,从标签数量、标签结构、标签语义、标注动机和活跃度五个角度研究豆瓣用户标注行为的分布特征;使用用户的关注人数、被关注人数和使用年限表征其在社会标注系统中与其他用户的关联和交互程度,通过差异性分析探讨不同交互特征用户标注行为的差异,并通过多元回归分析研究交互特征对这种差异影响的程度。[结果/结论] 实证研究表明,不同交互特征的用户间的社会标注行为存在显著差异:与其他用户交互比较强的用户标签数据集包含更多的标签,关注其他用户越多的用户和被越多用户关注的用户所使用的标签数量越多;使用豆瓣读书年限越长的用户,其平均标签长度和标签重用率越大,而其与其他用户的关注关系对其标签平均长度和标签重用率的影响不大;用户的特殊语种标签比受用户的使用年限影响很大,但一个用户被多少人关注不会显著的影响其特殊语种标签比;关注其他用户越多的用户在标注系统中越活跃。由此可见,社会标注系统可以采取措施加强系统中用户间的交互,通过用户间的相互作用规范用户的社会标注行为,从而提高标签质量。  相似文献   

17.
Web2.0环境下的信息过滤方式   总被引:2,自引:0,他引:2  
本文首先介绍了信息过滤的概念及其类型,接着从信息订阅、信息推送、信息阅读几个方面分析了RSS中的信息过滤;从垃圾信息过滤、个人知识管理、个性化主题社区的形成、博客搜索引擎几个方面分析了Blog中的信息过滤;从信息组织体系、信息发布的质量控制、信息向知识的转换几个方面分析了Wiki中的信息过滤;从分众分类、个性化信息聚合、兴趣聚集和共享几个方面分析了社会书签中的信息过滤,最后总结了目前Web2.0环境下信息过滤方式的特点及存在的问题,并提出未来的信息过滤将最终实现语义级的智能信息过滤。  相似文献   

18.
Flickr网站用户标签的质量控制对策   总被引:1,自引:0,他引:1  
标签技术如今已经被广泛应用于包括网络书签、博客、播客、视频分享等在内的多种Web2.0服务。其中,Flickr网站在标签技术利用方面一直处于领先地位,但Flickr网站的用户标签也存在一些不规范问题。针对这些问题,可以采取加强对标签的控制和管理、完善标签的推荐以及推出基于标签的个性化服务等质量控制对策,以实现其标签的规范化。  相似文献   

19.
DBpedia及其典型应用   总被引:2,自引:0,他引:2  
基于文献研究和案例分析,提炼出DBpedia的6个特征,即大规模人机协同、语义Web知识组织、跨领域知识库、多语言知识库、实时动态知识库和关联数据中枢。在此基础上,探讨DBpedia的4种典型应用(用户界面、语义标注、数据挖掘、跨域共享与服务)与6个基本特征之间的内在联系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号