首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
领域特征词的提取方法研究   总被引:5,自引:1,他引:4  
本文提出领域特征词(Domain Feature,DF)的概念,将其定义为:描述领域的最恰当的词语.由一个领域中所有领域特征词组成的集合称为领域特征词集(Domain Feature Set,DFs).为提高领域特征词集提取的效率和结果的客观性,本文给出一种以人机交互方式从自然语言语料库中提取的方法.该方法综合了长度优先切词算法和领域隶属度分析算法,前者保证召回率,后者提高准确率.实验证明,给定合适前景语料与背景语料,该方法能够显著提高领域特征词集构建的性能.领域特征词及其提取方法可以广泛地应用于信息和情报处理领域.  相似文献   

2.
面向查询扩展的特征词频繁项集挖掘算法   总被引:1,自引:0,他引:1  
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。  相似文献   

3.
针对传统TF-IDF在文本过滤时存在的缺点,提出一种基于特征词抽取的文本过滤算法。简要分析文档信息过滤原理和流程,重点讨论文档信息过滤算法设计及技术实现。实验结果表明,所提出的算法可有效对文档信息进行过滤,能够提高信息检索质量。  相似文献   

4.
汉语文本特征词的抽取方法   总被引:13,自引:3,他引:10  
薛翠芳  郭炳炎 《情报学报》2000,19(3):242-247
本文从自动文摘的需求出发 ,探讨特征词自动抽取的方法和技术 ,设计并实现了两种不同的特征词自动抽取算法。这些方法对文本的自动分类和全文检索也有一定的借鉴意义。  相似文献   

5.
为解决向量空间模型中文本结构和语义信息的缺失问题,本文提出将复杂网络应用到中文文本分类过程中,将文本表示为以特征词为节点,以词语语义相关关系为边,以其相关关系强弱作为边权重的加权复杂网络,利用网络节点的综合特性对文本进行特征选择,以降低文本网络的复杂性.给出基于复杂网络的中文文本分类算法并对其进行实验验证.结果表明,该算法是可行的,且有较好的分类效果.  相似文献   

6.
针对科技文献特征词在语义上的层次特性,提出基于概念泛化的内容过滤推荐算法.采用矢量空间模型作为用户兴趣偏好和科技文献特征的描述模型;在比较科技文献特征与用户兴趣偏好的相似程度时,首先从字符层面比较科技文献特征词与用户兴趣特征词,然后在基于ODP目录结构的用户兴趣偏好概念泛化树上对字符不相同的特征词对进行语义比较,并修正特征词权重,以避免遗漏"字符不同,但语义相似"的关键词对.理论分析和实验结果表明,该算法能够更加全面、准确地推荐科技文献对象.  相似文献   

7.
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。  相似文献   

8.
多类多标签汉语文本自动分类的研究   总被引:9,自引:0,他引:9  
本文提出了一种高效的汉语文本分类方法 ,并在实验中收到了良好的效果。由于汉语文本的特殊性 ,在训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,分类算法采用改进的Boosting算法。实验表明 ,在多类多标签的汉语文本特征提取和文档分类中 ,该算法收敛快、准确性高、综合效果较好  相似文献   

9.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

10.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

11.
匹配是信息集成的核心技术之一。论述基于编辑距离、基于标记以及N元文法等为代表的字符串匹配技术的研究现状,指出其存在的不足并提出改进思路。  相似文献   

12.
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。  相似文献   

13.
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中  相似文献   

14.
针对传统的like通配符检索存在的问题,提出基于二元中文分词的高效率检索算法的思路、流程,给出核心算法代码;在消除重复词语、查全率、查准率、多字词检索等方面,与传统检索进行比较,各方面评测结果都优于传统检索;基于二元中文分词的高效率检索算法,简单、高效、容易实现,以期在信息系统的检索模块中得以利用,提高信息检索效率,减小信息搜索成本。  相似文献   

15.
《文物保护研究》2013,58(3):163-170
Abstract

There is a need for a simple, rapid method which can be used with a minimum of equipment to evaluate whether microbial populations may pose a potential risk to the integrity of stone incorporated into buildings and works of art. Fluorescein diacetate (FDA) and 2-(4-iodophenyl)-3-(4-nitrophenyl)-5-phenyl tetrazolium chloride (INT) were compared for detection of microbial activity on stone, using both pure cultures of bacteria from stone and also natural stone samples. Both compounds could detect activity of bacteria and other microorganisms isolated from stone. INT-formazan was produced only by intact microorganisms whereas FDA was cleaved by extracellular enzymes as well. Use of FDA with stone samples was successful but INT required extended incubation times which gave little indication of in situ activity. A positive correlation was found between rapid cleavage of large amounts (> 15μg per gram stone) of FDA and production of INT-formazan after extended incubation periods. FDA was therefore found to be more appropriate as an indirect measure of metabolic activity of microbial populations on stone. The simplicity of the method makes it suitable for use by non-scientific personnel, with a minimum of scientific equipment, to identify stones at risk from active microbial populations.  相似文献   

16.
Theory building in the area of diffusion innovation has classically overlooked the possibility that, at some point, persuasion as opposed to additional information holds the key to adoption of a new idea. The present discussion articulates and defends this assumption based primarily upon the experience of India with the gram sewak or village level worker.  相似文献   

17.
Global health is becoming an increasingly important component of medical education. Medical libraries have an opportunity to assist global health residents with their information needs, but first it is important to identify what those needs are and how best they can be addressed. This article reports a collaboration between global health faculty and an academic medical librarian to assess the information needs of global health pathway residents and how assessment data are used to create a multicomponent program designed to enhance global health education.  相似文献   

18.
目的:了解甲型HINl流感(甲流)相关文献的分布特点、主要研究方向和研究现状。方法:检索PubMed数据库2005—2009年收录的甲流相关文献,利用文献计量学方法,对论文发表年代、期刊、主题、国家地区、机构、语种等进行了统计分析。结果:2005—2009年甲流相关文献的数量逐年增长,研究主题以生理学、流行病学和病毒学为主,美国、加拿大、中国发文量位居前三名。结论:对甲流的文献计量学研究能够客观反映国内外甲流的研究现状,为进一步的研究提供依据。  相似文献   

19.
Opinion on the airwaves, once the province of a select few exceptionally qualified journalist‐historians, is now the domain of strident talk show hosts and callers. Radio opens its microphones to public cranks, but not to those best equipped to offer a lucid point of view. The commentator—the gifted essayist whose function was to extract meaning and context from the day's news—is simply extinct, a relic of radio's Golden Age. The irony is, never has he or she been more needed. A grand tradition of broadcast journalism has been abandoned. This article looks back at three icons of radio news: H. V. Kaltenborn, Elmer Davis, and Raymond Gram Swing; the standards they set. . . and a forgotten legacy.  相似文献   

20.
John Dunning's Tune in Yesterday: The Ultimate Encyclopedia of Old-Time Radio, 1925-1976 (Englewood Cliffs, N.J.: Prentice-Hall, 1976---$14.95 until January 1st, and then $17.95)

Vincent Terrace's The Complete Encyclopedia of Television Programs, 1947-1976 (South Brunswick, N.J.: A.S. Barnes, 1976---$29.95, two volumes)  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号