首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
[目的/意义]基于网络招聘文本和学科数据,提出"行业-岗位-知识-学科"的人才需求及供给分析框架,以人工智能领域为例进行挖掘与分析,同时对其他领域的人才供需分析也具有借鉴意义。[方法/过程]采集招聘网站中与人工智能相关的职位招聘公告,综合对比CRF、BiLSTM-CRF、BERT-BiLSTM-CRF、BERT模型对招聘文本的实体抽取效果,并运用社会网络分析方法与学科数据进行关联分析。[结果/结论]BERT-BiLSTM-CRF实体抽取实验效果最佳,分别构建"行业-岗位""岗位-知识"以及"知识-学科"3种关系网络,得到与人工智能领域联系最紧密的行业、岗位、知识及学科。该框架能充分地挖掘人才需求现状,并能较精准地将需求定位到人才培养的学科,对于国家发展战略以及高等院校人才培养计划的制订具有现实意义。  相似文献   

2.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

3.
对学术论文中的算法实体进行研究,能够促进深入了解算法对科学研究的作用,而从全文数据中抽取算法实体是相关研究的基础。学术论文全文内容中算法实体的抽取可以看作一种特殊的命名实体识别。本文通过人工识别的方法,从4641篇论文中抽取出977种算法实体并构建算法实体词列表,以此为基础构建标注语料,训练算法实体自动抽取模型,在剩余语料上抽取得到221种新算法实体,并将自动抽取结果与人工抽取结果进行整合得到全部算法实体1198种。研究结果表明:人工抽取法的结果能够为自动抽取法构建一定数量的标注语料,所构建的算法实体自动抽取模型能够有效地抽取出人工方法中遗漏的新算法实体,同时还能够抽取出已有算法实体的全新表达形式,进一步对人工抽取结果进行扩充和完善。  相似文献   

4.
[目的/意义]研究自动构建英汉双语富媒体知识图谱的方法和过程,为跨语言多模态知识图谱的自动构建提供借鉴参考,对及时获取最新英文科研成果、科技情报监测等具有重要意义。[方法/过程]采用自顶向下和自底向上相结合的方法,先从顶层设计要抽取的主要实体、属性和关系,从底层非结构化文本数据进行分析抽取细粒度的实体和属性,对有歧义实体和跨语言实体进行实体对齐,对跨媒体的实体进行实体链接,用图数据库实现知识图谱的存储及应用。[局限]未来需进一步提高细粒度实体的抽取正确率,对音视频媒体进行特征提取和内容自动识别。[结果/结论]以CNS(Cell、Nature、Science)等英文科技期刊网站为例,通过数据抓取、实体抽取、属性抽取、知识融合、跨媒体链接等过程,实现了英汉双语富媒体知识图谱的构建、存储和可视化展示。  相似文献   

5.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

6.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

7.
[目的/意义]在学术思想和观点抽取及主题挖掘的基础上对图书情报领域学术思想和观点发展轨迹进行整理、归纳和总结,不仅有助于从历时的角度梳理图书情报学的发展历程,而且有益于从微观视角探寻图书情报学所取得的成就。[研究设计/方法]基于1992—2022年间图书情报领域的核心期刊论文,对图书情报学的学术思想和学术观点进行相应的界定和梳理;制定针对学术思想和学术观点的标注规范并完成人工标注,进而基于深度学习模型构建学术思想和学术观点自动抽取模型;而后结合主题模型,以时间为主序列,系统地探究图情学术思想和学术观点的发展轨迹。[结论/发现]图情学科各时段代表性学术思想主题有阮氏分类思想、目录学思想、引文分析、知识管理等,代表性学术观点主题有读者服务、认知情报学、学科馆员、舆情演化等。各时段的学术思想和学术观点与该时段图书情报学科发展主题相呼应,一方面学术思想及其观点在学科发展中发挥了基础性作用,具有稳定性;另一方面新问题的出现又驱动其他学科思想和观点的引入以及新思想和新观点的产生,具有动态变化性。[创新/价值]基于数据驱动的方式梳理图情领域学术思想和学术观点的发展,不仅弥补了传统方法的不足,也为学者...  相似文献   

8.
[目的/意义] 在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程] 为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论] 实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。  相似文献   

9.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

10.
俞琰  陈磊  赵乃瑄 《图书情报工作》2019,63(10):134-142
[目的/意义] 为帮助高校师生充分利用网络招聘信息,提出基于大数据量网络招聘文本挖掘的课程知识模型及其自动构建方法。[方法/过程] 本文提出包含"岗位-课程-知识点"的三级课程知识模型,利用自然语言文本挖掘技术实现课程知识点模型的自动构建,并通过实验对其构建过程进行验证和分析。[结果/结论] 实验结果表明本文提出的模型及方法具有高度的可行性与有效性,可为高校和学生提供教学和学习参考。  相似文献   

11.
网络招聘文本技能信息自动抽取研究   总被引:1,自引:1,他引:0  
[目的/意义]针对目前网络招聘文本手工抽取技能信息无法满足大数据量分析要求的问题,提出一种针对大量网络招聘文本的技能信息自动抽取方法。[方法/过程]根据网络招聘文本的特点,利用依存句法分析选取候选技能,然后提出领域相关性指标衡量候选技能,将其融入传统的术语抽取方法之中,形成一种网络招聘文本技能信息自动抽取方法。[结果/结论]实验表明,本文提出的方法能够从网络招聘文本中自动、快速、准确地抽取技能信息。  相似文献   

12.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

13.
中文电子病历的分词及实体识别研究   总被引:1,自引:0,他引:1  
[目的/意义]健康医疗大数据是我国重要的基础性战略资源,本研究对中文电子病历分词与实体识别的探讨与实证较好地完成了医疗数据的信息抽取任务,对今后医疗大数据在语义层面的应用发展具有重要意义。[方法/过程]本研究首先融合权威词表、官方标准、健康网站数据及其他医学补充词库构建了词语数量级达到10万的医学词表;然后对电子病历的字段进行分词,对比了jieba工具、导入词典后的jieba、无监督学习及AC自动机4种模型的分词效果;最后,以自动分词和人工标注结果为语料,实现基于条件随机场的电子病历实体识别研究,并比较不同实体类别以及不同文本特征下的实体识别效果,选出最优模板。[结果/结论]分词结果显示,AC自动机的效果最好,F值可达82%;实体识别结果表明,"检查"和"疾病"实体的识别效果最好,而"症状"的识别效果不太理想。  相似文献   

14.
[目的/意义]开放科学环境下,明确数据馆员的基本内涵、在业务流程中的作用及其职业可持续发展方案,有助于对数据馆员进行岗位设置,并为学术图书馆开展创新服务提供参考借鉴。[研究设计/方法]系统调研国内外数据馆员相关文献,梳理其基本概念、职能作用,分析学术图书馆数据馆员的发展实践与现实需求的匹配情况。根据数据馆员招聘信息,提炼其工作内容,提出可持续发展方案。[结论/发现]数据馆员能够在开放科学环境下支持科研人员处理数据管理实践与数据治理事宜。学术图书馆以教育培训和促进职业群体自我发展的方式,增加数据馆员的竞争力,提升科研用户满意度。[创新/价值]提炼数据馆员基本研究框架、工作维度模型;提出从数据生产与流转周期角度剖析开放科学环境下科研数据全生命周期,阐明数据馆员在其中的作用。  相似文献   

15.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。  相似文献   

16.
王晓笛 《图书情报工作》2015,59(22):130-140
[目的/意义] 梳理2014年西方信息科学的发展,为信息科学领域研究人员把控研究全局和选择研究方向提供参考。[方法/过程] 以JASIST 2014年全年载文为基础数据,建立信息科学研究内容基本分类体系,以人工判读的形式进行内容分析,对载文进行分类和解析。[结果/结论] 信息科学基本理论已趋于成熟,研究已不再是主流;传统的信息科学研究领域包括信息传播与交流合作、计量与评价方法、信息用户、信息检索、信息管理等,研究方向呈现出多样性;新媒体、个人信息隐私等新领域已成为新的研究热点,同时信息科学也更加重视信息领域人文方面的研究。  相似文献   

17.
化柏林 《图书情报工作》2017,61(16):150-156
[目的/意义]针对当前科技信息界对大数据的认识问题以及如何利用大数据提供更好的情报服务,构建科技信息大数据在情报服务中的应用框架,以便为科技信息大数据环境下的科技情报服务提供参考。[方法/过程]围绕数据基础、方法技术与应用服务3个核心要素展开,探讨科技信息大数据的概念内涵、科技信息大数据在科技情报服务中的应用以及大数据情报技术。[结果/结论]在概念内涵方面,科技信息大数据是科技活动要素及要素之间相关关系组成的多源异构大规模数据;在大数据情报技术方面,梳理出多源异构融合技术、用户画像与需求探测技术、属性计算与情景计算技术、知识抽取与本体构建技术等关键技术;在情报服务方面,将由被动服务转向主动服务,从单一服务转向嵌入式服务,从决策参考服务扩展到决策引领服务。  相似文献   

18.
[目的/意义]通过调研国外高校图书馆具体数据服务人才招聘岗位的数据,分析社会对科研数据服务人员的知识结构和技能的最真实需求和要求,从而分析大数据时代国外高校图书馆科研数据服务人员的知识结构和岗位职责。[方法/过程]选取IASSIST网站中2015年1月1日至12月31日科研数据服务人员的招聘信息,经过筛选得到72条相关记录;再运用网络调查法和内容分析法,从人才市场对应聘者的需求类型、知识背景、综合素质能力、专业知识和特殊技能5个角度,深度解析国外高校图书馆科研数据服务人员的知识结构和岗位职责。[结果/结论]研究发现,国外高校图书馆对科研数据服务人员的需求主要为:有硕士以上学历,有图书情报学科、社会科学学科或特定领域学科专业背景,具有较强的数据分析能力和计算机技术能力,其中统计分析能力和计算机编程能力占重要部分,实践能力、工作经验会在招聘过程中成为应聘者的优势条件。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号