首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为充分把握第四次工业革命的历史机遇,世界各国必然会瞄准战略科技领域,以一批关键技术为抓手,推出一系列的政策、战略、规划、计划和具体举措,推动科技进步和变革,在第四次工业革命中占据先发优势。本文以世界主要国家近年来发布的科技政策战略、前沿研发等重要动态新闻文本为分析对象,采用NLP (natural language processing)、文本挖掘、科学计量学等方法,揭示第四次工业革命中各国关注的重点领域技术和举措。研究结果发现,世界主要国家重点关注生物与农业、材料、航空航天与空间、数字与通信、能源、海洋、传统制造业等科技领域,积极布局量子计算、人工智能、再生能源、纳米技术、基因技术等关键技术,并采取投资计划、合作研究、政策研究和研究项目等发展举措推动上述科技领域和关键技术的发展。本文从动态新闻文本挖掘出发,梳理了第四次工业革命中世界主要国家布局的关键领域技术和重点举措。从理论意义上看,拓展了NLP、文本挖掘和科学计量学在科技政策研究中的应用场景;从实践意义上看,为我国布局第四次工业革命战略科技领域和关键技术、实施相应发展举措提供情报参考。  相似文献   

2.
文书类档案的分类标引研究   总被引:7,自引:0,他引:7  
本文介绍了一种档案文献的计算机分类标引算法。该算法以主题词作为分类的依据,对不能直接映射归类的档案,统计文献主题词隶属于各个类的隶属度,利用模糊关系对档案进行分类标引,为了提高分类效率,使分类系统具有实用性,提出了几种措施。  相似文献   

3.
自动文摘系统评价方法的研究与实践   总被引:5,自引:2,他引:5  
自动文摘系统作为一种信息压缩精选工具 ,越来越引起人们广泛的兴趣。但是 ,目前仍未有一种客观公认的评价方法来对已有的系统进行评价 ,从而极大地阻碍了自动文摘领域的研究。本文首先阐述了自动文摘系统评价所面临的问题 ,随后综述了当前国内外自动文摘的评价方法 ,最后提出并实践了一种参照Turing测试的思想进行自动文摘系统评价的方法  相似文献   

4.
文书类档案的主题标引研究   总被引:4,自引:0,他引:4  
本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题  相似文献   

5.
姚长青  杜永萍 《图书情报工作》2012,56(18):50-53,109
舆情跟踪是对媒体信息流中的热点话题进行实时追踪,是近年来自然语言处理领域的研究热点。实现该任务的核心技术是进行文本分类,运用信息增益以及互信息计算特征项权重,提取向量空间模型中文档表示的有效特征;分别采用Rocchio、K-Nearest Neighbor(KNN)、Bayes方法对于给定主题的事件实现舆情跟踪。在测试集上的最优性能F-Measure值达到86.2%。舆情跟踪在信息安全等领域具有广阔的应用前景,为用户及时判断网络热点事件的发展趋势提供有效指导依据。  相似文献   

6.
Summarizing Similarities and Differences Among Related Documents   总被引:10,自引:0,他引:10  
In many modern information retrieval applications, a common problem which arises is the existence of multiple documents covering similar information, as in the case of multiple news stories about an event or a sequence of events. A particular challenge for text summarization is to be able to summarize the similarities and differences in information content among these documents. The approach described here exploits the results of recent progress in information extraction to represent salient units of text and their relationships. By exploiting meaningful relations between units based on an analysis of text cohesion and the context in which the comparison is desired, the summarizer can pinpoint similarities and differences, and align text segments. In evaluation experiments, these techniques for exploiting cohesion relations result in summaries which (i) help users more quickly complete a retrieval task (ii) result in improved alignment accuracy over baselines, and (iii) improve identification of topic-relevant similarities and differences.  相似文献   

7.
ABSTRACT

This study is one of the first to compare journalistic role performances of English– and Spanish–language TV networks during the 2016 U.S. primaries. Previous research finds that the corporate structure of Spanish–language media in the United States is looking more like its English–language counterparts and that Latino journalists share the norm of objectivity. Meanwhile, research suggests that individuals of different ethnicities turn to different communication channels and that this divergence can be explained by the degree of alignment in linguistic and cultural orientation. In this study, we therefore assess how linguistic differences of TV networks impact journalistic culture during the presidential primaries in 2016. As a crucial component of journalistic culture, we focus on journalistic role performance and find important distinctions: Findings reveal that the greater coverage of presidential candidates as sources on English-language networks have significant consequences for the roles journalists perform. Results suggest that the Spanish–language networks performed significantly more civic journalism roles than their English–language counterparts that perform an interventionist and service role. These differences are discussed alongside different audience-orientation of the networks that reflect deep racial and ethnic divides.  相似文献   

8.
The paper deals with linguistic processing and retrieval techniques in fulltext databases. Special attention is focused on the characteristics of highly inflectional languages, and how morphological structure of a language should be taken into account, when designing and developing information retrieval systems. Finnish is used as an example of a language, which has a more complicated inflectional structure than the English language. In the FULLTEXT project, natural language analysis modules for Finnish were incorporated into the commercial BASIS information retrieval system, which is based on inverted files and Boolean searching. Several test databases were produced, each using one or two Finnish morphological analysis programs.  相似文献   

9.
深入分析美国大学图书馆实施PDA过程中面临的问题,如藏书体系失衡、购书经费超支、项目推广的必要性、难以为重点读者群服务、无法充分利用图书馆员的选书知识和经验等,提出控制书目与控制PDA经费比例并举、采用灵活的经费分配方案、全面推广、设置分级制选书权限、开展馆员进修与读者培训活动等解决办法。  相似文献   

10.
歧义字段的处理是汉语自动分词系统中重要而困难的问题之一.歧义处理正确率的高低直接影响着分词的质量.为了解决汉语自动分词系统中的歧义问题,本文基于<知网>的义原关系,在分析了影响词语语义相关度的主要因素后,引入相关度计算,利用<知网>中义原之间的纵向和横向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此来提高语义相关度的准确率,同时针对所提出的方法给出了实例验证.实验结果表明,该方法计算得到的语义相关度结果更加合理,为消除汉语自动分词中的歧义问题提供了良好的支撑依据,也使得汉语自动分词系统处理歧义字段更有效.  相似文献   

11.
国内高校图书馆FAQ存在的问题及解决方法   总被引:2,自引:0,他引:2  
通过对中国十大著名高校图书馆FAQ和美国十大著名高校图书馆FAQ的分析研究,发现国内高校FAQ建设中存在的问题,即目前国内高校图书馆FAQ建设向更加全面和数据更加庞大的方向发展,许多"常见问题库"变成了"所有用户问题库",变成了FAQ专题库,这就增加了用户阅读和检索的困难.因此提出了解决对策.  相似文献   

12.
基于两字词簇的汉语快速自动分词算法   总被引:10,自引:1,他引:9  
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现  相似文献   

13.
论自动文摘及其分类   总被引:10,自引:1,他引:10  
自动文摘 ,即利用计算机自动编制文摘 ,是信息时代的需要。本文讨论了文摘的不同定义、特点和功能。目前 ,文摘的分类方法不适用于自动文摘的分类 ,因此 ,本文试着从多角度对自动文摘系统进行了分类 ,这样的分类根据自动文摘的特点进行的划分 ,是对自动文摘分类的一种总结 ,可以作为构造自动文摘系统和思考自动文摘发展方向的参考和借鉴。最后 ,概述了中文自动文摘系统的研究状况 ,展望了自动文摘的发展趋势。  相似文献   

14.
汉语分词有向图的快速生成算法   总被引:4,自引:0,他引:4  
李大农  董慧 《情报学报》2004,23(1):36-39
给出了一种汉语分词有向图的快速生成算法。所构造的有向图可以作为机械分词、消除歧义以及进一步分析句子的基础。  相似文献   

15.
作为文本内容理解的媒介与载体,词汇语义知识库已被广泛应用于信息检索、信息提取、问答系统、自动文摘等方面,成为自然语言处理不可或缺的基础资源.本文介绍词汇语义知识库研究与开发的现状,重点分析了WordNet、Sinica BOW、HowNet及CCD等具有代表性的词汇语义知识库的具体情况.在此基础上,盘点各种需求和解决方案,提出词汇语义知识库研究面临新的挑战和机遇,即本体化和多语化的大趋势,它们将从不同方面弥补词汇语义知识库在知识共享和知识交流上的不足,使其更好地为自然语言处理服务.本文最后探讨了词汇语义知识库未来发展中可能存在的问题和新的课题.  相似文献   

16.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

17.
[目的/意义] 实用的大规模地名本体数据库系统在自然语言处理、信息检索和情报分析领域具有重要的应用价值。本研究的目的是在减少人工干预的情况下,实现对地名简称、俗名以及随时间变化的复杂地名文本的自动识别与处理。[方法/过程] 以多种方法获取大规模名址数据为根基,简化地名元素间复杂关系,在开发名址元素切分、属性与关系分析及推理工具包的基础上,利用Neo4j图数据库工具开发实用地名本体数据库系统。[结果/结论] 基于所介绍的技术与方法而构建的系统具有良好的容错性和持续的数据更新能力,其地名分析、地名元素间关系推理达到了期望的精度,并在面向诸如新闻主题追踪、金融征信中的地名匹配等多种自然语言处理任务中取得良好效果。  相似文献   

18.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

19.
[目的/意义] 探索从科技论文中挖掘出作者研究思路的可能性和技术手段,从而高效地获得新的研究创意。[方法/过程] 提出一种从单篇科技论文中抽取概念地图的方法,通过构建其微观概念地图(MCM)来形象地描述作者在研究中重视并运用的知识结构,通过对概念及其关系的定量分析来推测作者的研究重点和创新思路。[结果/结论] 选取一篇发表在2014年Science期刊上的关于聚类方法的论文,展示其MCM的抽取及论文研究思路的挖掘过程,验证所提方法的有效性。  相似文献   

20.
周雷  李颖  石崇德 《情报工程》2015,1(2):031-037
技术机会发现(TOD,Technology Opportunity Discovery)是面向新技术进行监测,并提供机会的一种服务;所谓“基于专利的信息”是指采用自然语言技术对专利进行抽取的结果。本研究的目标资源覆盖过去20年间发表的所有专利,目标信息则是其中产品名称及其部分-整体关系(Part-of relations)。应用基于词典和相似度的命名实体识别、基于模式的关系抽取、以及基于机器学习的信息过滤几项技术,本研究取得了令人鼓舞的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号