首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

2.
雷育生  甘仞初  杜顶 《情报学报》2005,24(4):445-448
运用复杂系统理论分析了向量空间模型(VSM)法进行大规模文本信息处理过程中自动生成特征词集方法的局限性。指出人机结合、定性定量综合集成的方法才是当前解决特征词集生成问题的根本途径。给出了一种人机结合的文本特征词集生成方法,并进行了实例验证。  相似文献   

3.
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明.根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以<半导体光电>期刊1999~2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性.  相似文献   

4.
为了解决中文学术期刊电子化过程中出现的自动分类问题,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间,并考虑到人工标引在分类中的关键作用,得到综合了特征词IF和IDF权重的分类准则。通过适当训练建立分类库,计算待分类样本与已知分类的相似性,判别各分类。实验表明,该分类算法可以获得85%以上的分类识别率。  相似文献   

5.
本文以代数学方法定义了文献信息空间模型、文献和类目的隶属度,以此为基础,实现文献信息的计算机自动分类。探讨了计算机分类过程中特征词提取和加权方法、计算机分类知识的自学习和自维护方法。  相似文献   

6.
全文检索中的汉语自动分词及其歧义处理   总被引:3,自引:0,他引:3  
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。  相似文献   

7.
提出一种研究话题演化的方法,利用LDA话题模型抽取科技文献的话题,通过计算话题的强度和特征词,研究话题的演化趋势。对NIPS论文集与ACL论文集进行实验,结果显示了机器学习领域以及计算语言学领域的一些发展状况,从而验证该方法的可行性。  相似文献   

8.
海量数据集上基于特征组合的关键词自动抽取   总被引:7,自引:0,他引:7  
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.  相似文献   

9.
基于《中图法》的多层自动分类影响因素分析   总被引:2,自引:1,他引:1  
系统总结基于<中图法>知识库的多层自动分类项目的研究经验,分析训练数据、特征词选择、分类算法、类目体系和评估方法等因素对多层自动分类的影响.围绕<中图法>,对自动分类的适应性、稀有类别的处理、知识库更新、明显正确或错误数据的标注、标准数据集的制定等进行探讨.  相似文献   

10.
领域特征词的提取方法研究   总被引:5,自引:1,他引:4  
本文提出领域特征词(Domain Feature,DF)的概念,将其定义为:描述领域的最恰当的词语.由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFs).为提高领域特征词集提取的效率和结果的客观性,本文给出一种以人机交互方式从自然语言语料库中提取的方法.该方法综合了长度优先切词算法和领域隶属度分析算法,前者保证召回率,后者提高准确率.实验证明,给定合适前景语料与背景语料,该方法能够显著提高领域特征词集构建的性能.领域特征词及其提取方法可以广泛地应用于信息和情报处理领域.  相似文献   

11.
汉语文本结构的自动分析   总被引:5,自引:1,他引:4  
薛翠芳  郭炳炎 《情报学报》2000,19(4):319-325
本文试图运用向量空间模型来确定文本段落之间内容的相关性,从而实现文本主题的自动分析,找出构成文本大主题的各个小主题,从这些小主题入手来实现自动文摘,可为自动文摘技术探索一条新途径。另一方面,通过文本结构的自动分析,可确定文本结构的类型,也为全文检索等信息处理技术提供一些有用的信息。  相似文献   

12.
统计分析法自动标引的改进研究   总被引:2,自引:0,他引:2  
统计分析法自动标引是自动标引的一种重要方法。本文从标引词应反映文献主题内容这一原则出发,对统计分析法自动标引从标引源的确定、权值的设计、词频的调整及检索后控词表的设计与维护等方面提出了一些改进设想。通过这些方法使标引词更好地反映文献主题的同时提高检索效率。  相似文献   

13.
民国时期,我国公文称谓格式的演变是一个由繁趋简的过程,一个由各行规则到趋于一律的过程:公文称谓词大量减少,公文自称被划一;公文署名程式也逐渐走向统一。这个趋于一律的演变过程,反映了公文礼仪让位于效率的实质,折射出我国公文工具化、平等化的现代化精神。  相似文献   

14.
文献信息自动标引研究   总被引:12,自引:0,他引:12  
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。  相似文献   

15.
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。  相似文献   

16.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。  相似文献   

17.
知识信息谱的分析与提取   总被引:3,自引:1,他引:2  
Zipf定理揭示了一篇文献中词出现的频率规律,Luhn在Zipf定律的基础上提出了自动抽取有效词的基本思想。基于Luhn思想的传统信息检索长期停留在文献层次上,难以满足人们通过知识元获取知识的需求。为解决这一问题,本文从概念的内涵和外延的认识论出发,考察人们由模拟事物内涵和模拟事物外延提出的图灵机和Petri网构建两种不同的计算机系统。由此提出了知识信息谱分析概念,试图建立具有语义关系的知识元理论框架,实现一种计算机对知识的理解和处理方法。文中给出了最大熵法提取知识元的方法。试验证明这种方法实用、有效。  相似文献   

18.
网络环境信息标引的测评与比较研究   总被引:1,自引:1,他引:0  
网络环境下,文献信息具有数量多、增长快、新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。对受控标引、自由标引和自动标引三种标引方式进行了相符度、专指度、标引深度及通用词数的测试对比.得出自由标引优于受控标引,自动标引优于自由标引及受控标引的结论。  相似文献   

19.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   

20.
本文对公文与档案著录标引主题词和主题词标引在公文与档案检索中的重要作用作了阐述,对目前在主题词标引中存在的问题以及对检索产生的影响作了分析,提出了一些对策和值得思考的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号