首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

2.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

3.
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中  相似文献   

4.
一种电子商务站点个性化方法   总被引:1,自引:0,他引:1  
易明  张金隆  邓卫华 《情报学报》2005,24(5):567-572
电子商务站点个性化建设所采用的一种重要方法就是通过站点使用挖掘得到用户的兴趣和爱好,并以此进行个性化推荐。本文针对这种方法的局限性,提出了一种新的个性化方法,即:在数据预处理的基础上实现基于站点使用和站点内容的交易事务聚类,然后导出站点的使用文档和内容文档,在此基础上结合当前用户会话形成基于站点使用和站点内容的个性化推荐集,最后在整合两种推荐集的基础上完成个性化推荐。  相似文献   

5.
在汉语框架网(CFN)的基础上,介绍语义角色自动标注的步骤和流程,提出基于文本匹配和最大熵分类器的语义角色自动标注方法。在文本匹配算法中,综合考虑短语类型、短语相对于目标词位置、句法功能三个因素及其对句子相似度影响的权重;在最大熵算法中,也尝试一些新的特征及其组合,最后利用例子对该方法进行有效性验证。  相似文献   

6.
一种基于后缀树的Web搜索结果聚类方法   总被引:3,自引:2,他引:1  
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性.  相似文献   

7.
基于非相关文献的知识发现原理研究   总被引:10,自引:7,他引:10  
从Swanson最早提出非相关文献的知识发现方法开始到现在,很多研究人员都投入到这个新兴的领域中去,概括起来分为以下几种方法:基于单词的词频统计方法、基于短语的词频统计方法、基于概念的知识发现方法、基于概念的词频统计方法,本文详细介绍了这些方法基本原理,并对其进行了简单的比较分析。  相似文献   

8.
9.
The paper presents several techniques for selecting noun phrases for interactive query expansion following pseudo-relevance feedback and a new phrase-based document ranking method. A combined syntactico-statistical method was used for the selection of phrases for query expansion. Several statistical measures of phrase selection were evaluated. Experiments were also conducted studying the effectiveness of noun phrases in document ranking. One of the major problems in phrase-based document retrieval is weighting of overlapping and non-contiguous word sequences in documents. The paper presents a new method of phrase weighting, which addressed this problem, and its evaluation on the TREC dataset.  相似文献   

10.
对基于短语结构索引的自然语言检索中的有关问题进行了研究。首先探讨了自然语言检索过程中针对源文本的各类索引形式,分析了这些索引的特征和形式。在对支持自然语言检索的有效性和生成难度判断的基础上,提出了使用短语结构索引进行检索的方案。论文分析了短语结构索引的三种表示方法,给出了短语结构索引的结构,并说明了针对短语结构索引的检索过程。  相似文献   

11.
本文比较各种机器翻译方法的特点,借鉴短语结构、GPSG、HPSG和语料库等计算语言学理论,采用以单词为核心的方法,建立一组以1000单词为背景的英汉翻译规则,并实现以单词规则、通用规则为准,进行英汉翻译的机译系统。本文还对机译系统构成、设计、词典结构等技术问题进行了探讨,并提出一套规则和结点的评价方法,为消除机器翻译中的句法歧义做了有益的尝试。  相似文献   

12.
陈广 《图书情报工作》2018,62(13):30-36
[目的/意义]对比分析国内图书馆自行采集电子资源使用统计数据的主要方法,解决现有技术方法无法采集基于HTTPS协议的电子资源访问信息的问题。[方法/过程]在现有基于旁路监听的采集模式的基础上对技术加以改进,通过策略路由和Fiddler代理程序来实现基于HTTPS协议访问的电子资源使用数据的统计和分析,并在此基础上设计并应用电子资源使用统计分析系统。[结果/结论]解决了基于HTTPS协议访问的电子资源使用数据的采集问题,对其他图书馆自行采集电子资源使用统计数据有一定的借鉴作用。  相似文献   

13.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

14.
15.
This study in an academic medical sciences library setting examines the correlation of usage of a matched set of print and online titles, the validity of e-journals usage statistics and the impact of online journals on print journal usage. The print and online usage was determined for 270 journals, both versions of which were available. Print usage was determined annually since 1997 using the reshelving and the error-copies method. Online usage statistics were delivered by five publishers and corrected for redundant multiple accesses. Print journal usage decreased by 22.3 and 30.2% respectively over each of 2 years after the introduction of online journals. Journals published both in print and online lost 30.4% of their print usage within 2 years. The total loss of usage of print-only titles in the same period was somewhat higher, at 45.8%. The average correlation between online and print usage is 0.60 and 0.67 respectively. For the examined titles, users accessed the online versions ten times as often as the print version. Two clearly distinguishable groupings emerged: while with Academic Press and Elsevier, e-journal usage exceeded print usage by a factor of 3 or 4, the e-journals of Blackwell, HighWire and Springer were used on average 14.6 times as frequently as the corresponding print journals. Each usage of a print article cost 2.79-50.82 Euro, each usage of an online article 0.31-15.10 Euro, depending on the publisher. On average, the usage of an online article was 5.4 times cheaper. Within 2-3 years the usage of online journals has outstripped that of print titles by a factor of ten, but the specific spectrum of usage remains much the same as when only print journals alone existed. Print titles not available online suffer a greater decline in usage compared with print/online journals. This confirms that what is read or purchased is determined primarily by ease of access and that there is a steady tendency to reduce the multiplicity of access modes to a manageable few. The availability of journals online seems to have created a new clientele, at least in the case of the German-language Springer journals. The connection between supplier and supply is much less clear with e-journals than it is with print titles. Therefore it is very important to stress and encourage the role of the library as the supplier of this sort of information in the university environment. Collection building issues are discussed in the light of the results.  相似文献   

16.
This paper maps the domain of information literacy and provides a guide as to what areas the phrase includes. Delivering training in aspects of information literacy has been central to the role of user services in academic libraries for many years. However there are other aspects of information literacy that do not form part of this tradition. Having described the remit of the phrase different approaches to incorporating information literacy training in the curriculum are described and placed on a continuum ranging from discrete ‘stand alone’ training solutions to the integration information literacy into the subject based learning of the student. Challenges that face educators and librarians in particular are discussed.  相似文献   

17.
高校图书馆数据库利用率统计与绩效的研究   总被引:1,自引:0,他引:1  
电子资源的建设与利用逐渐成为衡量一个图书馆实力的重要指标。本文基于高校图书馆的电子资源特别是外文数据库利用主要指标的统计,研究数据库的利用率以及电子资源的实际需求。通过对各数据库的投入支出进行绩效分析以及同类型数据库之间的横向比较,为图书馆馆藏资源建设提供有针对性的指导意见。  相似文献   

18.
对高职院校图书馆评估标准的思考   总被引:8,自引:0,他引:8  
高职院校图书馆目前正进入发展的重要阶段。通过分析高职院校图书馆现状和国家的有关规定,比较美国高校图书馆界的情况。提出应在调查统计的基础上制定高职院校图书馆标准,标准的制定应经充分的讨论,标准应有利于改进图书馆工作。标准应服从于高职院校图书馆的最终任务.而不只是为了建设而建设。  相似文献   

19.
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。  相似文献   

20.
针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采 用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程 度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利 统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号