首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
[目的/意义]提出一种基于词频、词量、累积词频占比三者变化关系的共词分析词集范围的确定方法,尝试对现有词集范围选取方法中仅凭经验判断和过度依赖词频为“1”的关键词的问题进行改进,为相关研究提供一种更加规范、科学、值得借鉴的做法。[方法/过程]该方法充分考虑词集实际分布规律和特点,将词或词组分类成高、中、低频,并选择高、中频词共同作为共词分析的对象。[结果/结论]通过在具体领域的实例验证以及与其他方法的对比,证明该方法可以有效地选择合适的词集范围,对今后相关研究具有一定借鉴意义。  相似文献   

2.
[目的/意义]事件自动识别抽取是当前典籍主题挖掘研究中一个新的重要课题,其中事件触发词的识别是一项基础的工作,本研究旨在探索古代典籍中事件触发词自动识别和分类的通用方法。[方法/过程]首先运用LDA模型对动词进行主题聚类,归纳典籍事件触发动词的分类体系;并依据聚类结果与分类体系,初步构建触发动词的种子词集。在此基础上,通过语义相似度计算,对种子词集进行扩展,构建典籍事件触发词语义数据集。在实验阶段,以先秦时期的重要典籍《左传》为例,对分类体系构建和种子词集扩展的方法进行验证。[结果/结论]结果表明,本文所提出的典籍事件触发词识别方法可行有效,据此构建的事件触发词集具有较高可信度,未来可进一步扩大实验的样本数量及范围。  相似文献   

3.
[目的/意义] 从术语释义角度出发,探讨叙词表编制过程中词间关系的构建方法。[方法/过程] 叙词表的词间关系主要有等同关系、等级关系和相关关系三种。从术语释义角度出发,对术语释义模式进行分析,并提出基于术语释义分析获取等同关系、等级关系和相关关系的方法。最后,从术语的多义性和释义的可变性对该方法进行讨论。[结果/结论] 通过术语释义获取词间关系,能够使词间关系更符合逻辑,有利于叙词表进行语义控制。  相似文献   

4.
[目的/意义]分析学科主题演化趋势,对科研人员研究学科知识、决策层规划学科布局都有重要意义.相比于词频分析法和共引分析法,共词分析法的优势是能深入文献内部,从微观角度揭示学科主题演化规律.分析中国国内基于共词分析法的学科主题演化研究现状,以期为相关研究人员提供参考和借鉴.[方法/过程]采用人工判读法提炼出基于共词分析法的学科主题演化研究分析流程的5个步骤,并对每个步骤中研究人员使用的策略、分析手段和工具进行归纳总结.[结果/结论]数据集的来源数据库主要有综合类、专门类和引文类等3种,检索策略有基于词、基于期刊和复合检索策略等3种;共词分析对象来源主要为作者关键词,关键词选取主要基于关键词词频、关键词共现词频和前两者相结合3个角度;构建共词矩阵时使用得最多的归一化系数为ochiai系数;最常用的主题演化分析手段为聚类分析和社会网络分析图谱;使用得最频繁的工具为SPSS软件.  相似文献   

5.
熊霞  常春 《图书情报工作》2010,54(12):50-108
通过调查总结叙词表在文献数据库中的应用现状,在此基础上设计一个基于叙词表的文献数据库知识单元检索系统。该系统首先将数据库中的文献分解为知识单元,检索时用叙词表中的正式叙词对用户输入的检索词进行规范化处理,并将该正式叙词作为中心词,利用叙词表中的词间关系查找出该词的等同词、上下位词和相关词作为扩展检索词,对知识单元进行加权检索,按权值之和以及检索词的密集程度排序输出。经实例分析,具有可行性。  相似文献   

6.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

7.
[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。  相似文献   

8.
郭丹 《大观周刊》2011,(46):84-84
本文就低年级聋生的词句教学,提出了一些可行的办法和策略。笔者认为在教学实践中,认为欲使聋生的语言表达能力与思维能力得到正常发展,必须从低年级词句教学抓起,只有把好词、句教学这一关,中高年级教学才能顺利进行。为此,就词、句如何教学谈一些看法。  相似文献   

9.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

10.
[目的/意义]论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析。如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题。[方法/过程]假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考。据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法。其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典。最后利用非结构式摘要测试集进行语义特征词典有效性检验。[结果/结论]结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型。  相似文献   

11.
近五年来国外图书馆学情报学论文的计量研究   总被引:5,自引:3,他引:2  
通过对近五年来(2002-2006)SCl和SSCI收录的国外图书情报学的12种期刊发表的2628篇论文进行计量研究发现:近五年来,国际范围内图书情报领域的研究热点主要集中在信息检索、信息计量和网络研究方面.其中,欧美国家在图书情报学领域的研究占有明显优势,其相关研究机构、作者群体均具有较强的研究能力;而我国台湾和香港地区在图书情报学领域的研究水平相对于大陆地区也是相对较高的,大陆地区应加强与欧美国家以及台港地区的交流与合作.表8.参考文献8.  相似文献   

12.
医学论文题名与关键词在表达文献主题上的差异性   总被引:7,自引:1,他引:6  
医学论文题名和关键词是反映文献主题内容的2个重要部分。它们都具有揭示主题准确、选用词语精练、信息点集中的特点。题名的确定和关键词的标引既存在协同性,又存在差异性。这种差异与两者的侧重点和表达方式不同有关。应兼顾两者的共性,使其表达主题尽可能趋于一致。  相似文献   

13.
[目的/意义]随着信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,快速主动地从海量信息资源中识别和判断研究主题的发展演化是实现科技创新的基础。[方法/过程]在相关理论调研的基础上,结合医学领域的资源特点,提出一种基于LDA模型的主题演化探测模型和相应的流程步骤。主要步骤包括医学主题词抽取、主题识别、主题关联、关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别,实现深度、细致的主题演化分析。[结果/结论]选用乳腺癌治疗研究文献为实验案例,对判断模型进行试验并对结果进行分析验证,证实提出的技术方法具有一定的可靠性。  相似文献   

14.
期刊编辑工作与情报学理论   总被引:7,自引:1,他引:6  
论述传播学与情报学研究互为基础、相互融合的内在联系,以及情报学理论对期刊编辑工作的指导作用,认为情报学是提高期刊编辑工作水平的理论基础。以文稿学术水平的查新、期刊质量信息的收集、论文关键词的标引和分类号的确定这4项工作为例进一步论证了这一观点。  相似文献   

15.
通过专家咨询确定卫生体制改革研究文献的分析主题、检索策略、检索用词及文献筛选原则,利用数据库和网站搜集文献,应用Noteexpress、Endnote两种文献管理软件以及Excel软件进行文献查重,从文献发布年代、主题分布、期刊、作者、国家和地区等方面进行文献计量分析,为我国医药卫生体制改革提供知识服务和循证决策支持.  相似文献   

16.
选择CSSCI《中国社会科学引文索引》中1998-2008年图书情报领域的专利计量研究的文献数据和SCIE中1998-2008年国际前沿期刊Scientometrics发表的专利计量研究的文献数据,分别从作者共被引网络、关键词共现网络和作者合作群体网络三个视角,对比分析国内外专利计量研究的权威人物、研究领域和合作水平的差别,得出如下结论:与国外相比,国内专利计量研究的发展较晚;国内的作者合作程度不高;国内外研究领域区别较大。  相似文献   

17.
[目的/意义]从主题时序视角出发,以中国图书馆学会年会主题和年会论文集题录为研究样本,进行相关主题词的分布和演化分析,梳理中国图书馆界近十年来理论与实践发展脉络。[方法/过程]获取2007-2017年间中国图书馆学会年会的相关主题词,从中选择高频词,利用Excel构造主题词共词矩阵,利用Ucinet和SPSS工具进行主题词静态分布分析,结合"流行研究热点权值(PRHW)"指标对主题词进行动态演化分析。通过词频、中心性、聚类对比分析相关主题词的静态分布特征;通过词频时序和共词时序分析主题词的动态演化特征,并采用PRHW指标进行识别和演绎;从7个类团中抽取两个典型主题词构筑全主题词的共词时序网络。[结果/结论]相关主题词的静态分布特征表现为:年会主题词和论文集主题词高频词一致性较好,论文主题词更微观具体;二者都不具备显著的中心性;聚类结果根据相近原则归并出7个具体类团。主题词的动态演化特征表现为:分长期关注、早期关注、近来关注上升和近来关注下降四类,相关主题的微观演化特征得到了精细化呈现。  相似文献   

18.
农科学术论文关键词的标引   总被引:3,自引:0,他引:3  
讨论了目前农科学术论文对文章不进行深入细致的主题分析,易造成关键词的错标和漏标;不严格执行主题标引规则和勤查<汉语主题词表>,必然导致自由词滥用;有时还误以复杂的短语及英文缩略语、符号作为关键词.关键词的正确标引必须建立在主题分析之上,经过认真审读,提炼文章的主题,然后尽可能用主题词进行概念转换.必须严格控制自由词的使用.  相似文献   

19.
宋刚  王续琨 《编辑学报》2014,26(3):233-235
期刊论文题名雷同化是指一本期刊多篇论文的题名在句式结构方面存在明显的相同之处,包括前导词汇相同型和后缀词汇相同型这2种基本类型。论文题名雷同化,既有作者方面的原因,也有编辑方面的原因。解决题名雷同化问题,要求文稿责任编辑、当期责任编辑、编辑部负责人和论文作者强化科技学术期刊论文的题名优化意识、题名体系意识和题名创新意识。  相似文献   

20.
刘飚  李莉  冯金东 《编辑学报》2011,23(5):412-413
根据台湾学者撰写的科技论文使用繁体汉字、语言繁缛、科技术语与外来语使用不规范、量和单位乱用等情况,论述对台湾学者的科技论文进行编辑加工的思路和方法,汉字变繁体为简体,规范语言以及科技术语和外来语,统一使用法定计量单位。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号