首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 625 毫秒
1.
政策信息学是大数据科学范式下政策科学向大数据政策知识发现研究发展的跨学科研究方向,从该理论视角系统梳理政策文本量化的知识发现方法及最新研究进展,可以指导数据密集的政策文本分析实践。文章基于政策信息学理论分析政策文本量化研究兴起背景、概念内涵和研究框架,将现有研究归纳为面向政策结构特征的政策计量分析、面向政策内容特征的政策内容量化和面向政策语义特征的政策文本挖掘等三类研究方法,分别总结各类量化方法的研究流程、主要类型及优缺点,并系统论述政策文本量化知识发现研究进展。政策文本量化研究近年来发展迅速,集中体现在政策信息爆炸性增长、多领域方法交叉融合现象凸显、政策分析需求复杂多样。未来应重点关注:建设领域政策大数据库、开发针对性的方法工具以及注重理论研究实践落地。  相似文献   

2.
随着深度学习的迅速发展和领域数据的快速积累,领域化的预训练模型在知识组织和挖掘中发挥了越来越重要的支撑作用。面向海量的中文政策文本,结合相应的预训练策略构建中文政策文本预训练模型,不仅有助于提升中文政策文本智能化处理的水平,而且为政策文本数据驱动下的精细化和多维度分析与探究奠定了坚实的基础。面向国家级、省级和市级平台上的政策文本,通过自动抓取和人工辅助相结合的方式,在去除非政策文本的基础上,确定了131390份政策文本,总字数为305648206。面向所构建的中文政策文本语料库,基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext,本研究利用MLM (masked language model)和WWM (whole word masking)任务构建了中文政策文本预训练模型(ChpoBERT),并在Github上对该模型进行了开源。在困惑度评价指标和政策文本自动分词、词性自动标注、命名实体识别下游任务上,ChpoBERT系列模型均表现出了较优的性能,可为政策文本的智能知识挖掘提供领域化的基础计算资源支撑。  相似文献   

3.
张璋 《图书情报工作》2012,56(12):85-137
选取1998-2010年颁布的806份代表性政策文本,运用内容分析方法,对我国国家信息资源产业政策的效力等级、目标、工具、政策领域和发展过程进行初步分析。研究发现,2008年国务院机构改革后,我国出台的信息资源产业政策数量相对减少;传统的信息资源产业政策重硬件轻软件、重技术轻内容的状况正在改变,但存在信息资源产业政策效力等级不高、缺乏对产业持续发展能力提升的关注、对引导型政策工具的运用不足等问题。
  相似文献   

4.
基于Rothwell和Zegveld提出的政策工具理论和档案学理论中对档案工作的分类,构建了由政策工具(X维度)、事业领域(Y维度)和时间演进(Z维度)组成的三维分析框架,以此为基础,采用文本内容分析法,提取基于国家层面的8份档案事业政策文本内容单元并进行量化统计分析,得出以下结论:档案事业政策建设成就突出体现在政策的连续性和动态稳定性,档案政策嬗变过程与国家档案事业发展需要相适应,但仍存在政策工具结构不合理、各工作领域政策聚焦程度不平衡、以及由政策滞后产生的政策真空问题.建议促进档案事业政策工具结构的合理化、推动档案事业各个工作领域平衡发展、加强政策真空的针对性政策补充.  相似文献   

5.
最新政策和政策解读信息的获取和研究,对于媒体、企业、科研机构等行业都具有重要价值。通过网络数据抓取和文本智能挖掘技术,实现一手政策发布源和解读文章数据源监控采集,并进行数据加工和智能挖掘分析,实现政策解读应用数据产品,可极大提升信息获取和政策研究工作效率。本文从实践角度,介绍政策解读应用中的关键问题解决方法及应用功能。  相似文献   

6.
通过对当前灰色文献发布、收集和利用情况进行调查研究,以及开展网上灰色文献收集、管理并为政策制定工作提供信息服务,“澳大利亚政策在线”(APO)数据库项目揭示了灰色文献作为循证政策证据的作用与价值,为我国相关领域的工作提供借鉴.  相似文献   

7.
白净 《新闻与写作》2022,(2):105-109
<正>文本分析(Text Analysis),是社会科学研究领域一种常用的研究方法。文本泛指由数字、文字、图像等一系列符号构成的信息结构体。文本无处不在,涉及各个学科,文学作品、报刊文章、政策文件、用户评论、网络谣言等等,都可以构成文本。由于文本通常由个人、机构、政府等名义发布,文本的语义不可避免地会反映发布者的立场、观点、偏好、价值取向,因此,学术界常用文本分析的方法对各个领域的问题和现象进行研究。近年来,随着计算机技术的发展,各类文本分析工具日益成熟,让研究者可以从大量语料中提取意义,做出分析和预测。除了学术研究,  相似文献   

8.
地方性公共文化服务保障条例是地方建设公共文化服务体系的纲领性政策。文章以我国16省市的公共文化服务保障条例为研究对象,使用政策文本分析方法,从政策目标、政策作用主体和政策工具三个维度对政策文本进行解构。笔者经分析发现,研究对象存在政策目标内容精确度不足、政策作用主体的价值有待发掘、政策工具分布失衡三大问题,提出地方政府需有针对性地推动政策目标精细化、社会力量作用最大化、政策工具均衡化的建议。  相似文献   

9.
欧洲国家图书馆政策制定的形式包括图书馆立法、行政法规、行业发展规划、行业内部政策与规范。政策涉及的主要领域有公共图书馆设置标准、经费保障、图书馆服务、古籍保存、数字资源长期保存、开放存取、信息资源共建共享及其他与图书馆相关的呈缴本制度、版权政策等。欧洲图书馆政策的价值取向体现为保障公民平等自由获取信息的权利、完整保存本国的知识记录和文献资源、提升在信息领域的国家竞争力,以及促进信息资源的共建共享。表1。参考文献26。  相似文献   

10.
国内外对信息资源建设政策还没有较为系统的研究,它的研究成果分布在多个领域当中。本文在大量文献调查的基础上,分别从文献信息资源建设政策、数字信息资源建设政策、信息资源共建共享政策以及信息技术与标准化政策四个领域探讨20世纪90年代以来国内外信息资源建设政策的研究进展。  相似文献   

11.
基于词频信息确定叙词表概念属性   总被引:2,自引:1,他引:1  
认为为了提高叙词表的实用性,在叙词表编制和应用中,需要充分发挥词频信息的重要参考价值。通过总结词频信息的利用方法,包括通过词频和专业偏向度确定专业核心概念、通过词频信息确定优选词属性以及通过词频信息为概念确定范畴号。探讨对词频高低的词汇属性、优选词的重要程度、词频生命周期变化和词频使用的局限性等问题。  相似文献   

12.
利用已有的知识组织系统和语料库等既有资源构建相关领域词系统,能够减少劳动量和难度,通过种子 词以及词汇社区检测技术来利用已有的新能源汽车词系统,经频率分析和聚类技术来发现新的代表性词条的方法,快 速构建了电动汽车领域词系统,并初步证明其可行性。  相似文献   

13.
突发监测算法用于共词聚类分析的尝试   总被引:3,自引:0,他引:3  
Kleinberg算法能在不受外界因素影响的情况下及时发现未达到词频阀值要求但具有情报意义的词,用其计算突发词,并按突发权重排序,同时选择具有一定词频的突发词进行共词聚类分析,总结出当前医学信息学研究的热点领域。将分析结果与单一的高频词分析结果相比较,提出将突发词检测与高频词分析相结合以揭示信息科学的发展。   相似文献   

14.
熊文新 《图书情报工作》2012,56(17):115-121
考察在信息检索过程中用户以自然语言表述的查询语句中的词语使用情况。以一个信息需求描述颗粒度不等的查询表述语料库为素材,辅以汉语通用语料作为对照,通过词频以及词语的文本覆盖率等统计数据,按照是否需要在目标文本中直接或以其他形式出现,将查询表述语句中的词语区分为对汉语文本处理具有普遍意义的通用停用词、服务于信息检索表述用的专用停用词和与特定需求相关的信息内容词语。区分词语使用的不同性质,能为信息系统前端的自然语言查询处理增加一道剥离工序,防止将整个查询语句的分词结果全部作为检索项所造成的效率和准确率的退化。  相似文献   

15.
奉国和  孔泳欣 《情报学报》2020,39(1):100-110
基于生命周期理论和词频分析方法,对学科领域发展过程进行客观合理的动态跟踪与分析。构建时间-关键词频次矩阵,结合相对词频、词频变化率,引入逻辑斯谛(Logistic)函数赋予词频按时间递减的权重,设计时间加权关键词词频分析模型,计算关键词综合值,揭示学科研究热点及变化趋势;并以CNKI和CSSCI收录的18种图情领域核心期刊2013-2017年所刊载的文献关键词作为实验对象,从高频词、中频词、低频词三个方面验证模型的有效性和准确性。模型计算结果显示,上升型高频词排名上浮,下降型高频词排名下沉,可快速识别上升型高频词;同时排名靠前的低频词具有发展潜能,为学者把握未来研究趋势提供科学判断依据。  相似文献   

16.
[目的/意义]提出一种基于词频、词量、累积词频占比三者变化关系的共词分析词集范围的确定方法,尝试对现有词集范围选取方法中仅凭经验判断和过度依赖词频为“1”的关键词的问题进行改进,为相关研究提供一种更加规范、科学、值得借鉴的做法。[方法/过程]该方法充分考虑词集实际分布规律和特点,将词或词组分类成高、中、低频,并选择高、中频词共同作为共词分析的对象。[结果/结论]通过在具体领域的实例验证以及与其他方法的对比,证明该方法可以有效地选择合适的词集范围,对今后相关研究具有一定借鉴意义。  相似文献   

17.
知识信息谱的分析与提取   总被引:3,自引:1,他引:2  
Zipf定理揭示了一篇文献中词出现的频率规律,Luhn在Zipf定律的基础上提出了自动抽取有效词的基本思想。基于Luhn思想的传统信息检索长期停留在文献层次上,难以满足人们通过知识元获取知识的需求。为解决这一问题,本文从概念的内涵和外延的认识论出发,考察人们由模拟事物内涵和模拟事物外延提出的图灵机和Petri网构建两种不同的计算机系统。由此提出了知识信息谱分析概念,试图建立具有语义关系的知识元理论框架,实现一种计算机对知识的理解和处理方法。文中给出了最大熵法提取知识元的方法。试验证明这种方法实用、有效。  相似文献   

18.
宋明亮 《图书情报工作》1994,38(5):16-18,63
通过控制提高检索效率是情报语言学研究的根本目的。在计算机化的“自然语言检索系统”中,控制的手段、方法和技术发生了变化,这些变化开辟了情报语言学研究的新领域:主题词词典、类主题词典、后控词表和术语等。  相似文献   

19.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

20.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号