首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
信息抽取的目标是自动从文本信息中抽取出预先想要得到的信息(知识),它提供了一条从浩瀚的信息堆积中抽取出与用户相关信息的一条思路.文章分析了信息抽取的概念、主要分析了信息抽取的类型和功能.随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用.  相似文献   

2.
指代消解是自然语言处理中的重点难点,对信息抽取具有重要意义.指代分有三种形式:代词指代,名词指代及零形回指.其中代词指代和名词指代是汉语中最基础的指代形式,以上两种指代的消解是指代消解研究的基础.为解决这一基本问题,使用决策树方法同时对两种形式指代进行处理.实验结果显示,所提出方法在不牺牲指代消解准确率的基础上,较大提高了指代消解的召回率.  相似文献   

3.
陈慧炜 《文教资料》2010,(18):116-117
公安领域存在大量非结构化案件文本,使人工查询与整理存有困难。信息抽取作为应对海量信息的一门技术,能够有效处理案件信息的结构化问题。本文总结了目前信息抽取的方法技术,在实体识别、触发词获取和事件抽取等子任务方面所达到的水平,以及信息抽取在公安领域案件文本中的应用情况,并提出了未来的研究趋势。  相似文献   

4.
实体识别是自然语言处理领域中一个十分重要的问题,是信息提取的基础,其识别程度直接影响了后续的句法分析、篇章理解等工作的精确程度。“熵”最初是热力学的一个概念,用来表示不确定度,熵越大,不确定性越大。“最大熵”模型是一种融合多种特征于一体,并综合这些特征进行建模,在满足约束的模型中选择熵最大的模型。“最大熵”模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的效果。通过实验分析了在新闻报道领域最长地点实体的特征,并应用了最大熵模型进行了识别研究。  相似文献   

5.
首先分析了互联网文本中命名实体分布特征;然后使用UIMASDK构建一个文本分析引擎在文档中寻找命名实体,将结果写入抽取信息数据库EIDB中;最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。  相似文献   

6.
伴随着互联网的飞速发展,网络上的信息资源呈现出井喷态势,如何从海量的信息中抽取出自己需要的信息已经变得越发的困难。在分析现有Web信息抽取技术现状及面临的挑战的基础上,设计了一种基于文本标签属性的Web新闻信息抽取模型。主要介绍了基于标签的Web信息抽取技术的算法,给出了信息抽取的具体实现过程,对基于DOM树节点遍历的文本标签过滤算法进行了描述,并选取了主流的新闻网站进行了抽取实验,验证了算法的可行性。  相似文献   

7.
基于Web的网页信息抽取方法的研究   总被引:3,自引:0,他引:3  
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。本文介绍了一种基于Web的信息抽取的实现方法,能够按照规则模式重复地将半结构化网页中的信息自动抽取出来。  相似文献   

8.
信息抽取是近十年来发展起来的一门数据挖掘技术,它主要解决实现从海量的自然语言文本中快速、有效、直接地抽取出指定的信息,文中分析了信息抽取的概念,主要分析了信息抽取的关键技术以及与信息检索之间的差异,在此基础上对信息抽取技术在数字图书馆中的应用作了一些探讨,随着信息抽取技术走向成熟,必将在未来的互联网及数字化图书馆中发挥重大的作用.  相似文献   

9.
基于表格结构及列表结构Web信息源提出了Web页面信息抽取的方法.可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组,存放在数据库中.  相似文献   

10.
军备情报说明文往往都是围绕一个或几个武器对象来组织文章内容的,成功获取这些武器对象是对这些文章进行信息抽取的前提,更是以后进行信息整合的基础。军备情报说明文的武器对象判定系统模拟人们在日常阅读中的智力活动,通过标题分析、介引句分析和统计判定,实现了武器对象判定。对此进行了论述。  相似文献   

11.
谈高校学报编排规范化   总被引:1,自引:0,他引:1  
高校学报编排规范化是全面提高学报质量,促进高校学报在网络化,数字化环境下快速交流和传播的需要,实现规范化的途径在于作撰稿规范化及编辑的规范化意识。  相似文献   

12.
翻译是一种语言活动和思维活动,也是一种社会活动和跨文化交际活动。翻译中各项活动,如文本的选择、策略的运用、译作的推出等,无一不受到社会、文化等外部因素的制约和规范,然而翻译活动对社会、文化等外部因素也产生能动作用。文章借助图里的描述性翻译研究理论,尝试考查和探讨译语文化对翻译活动的规范情形以及翻译活动对译语文化的影响。  相似文献   

13.
许多图像中包含的文本信息对于图像高层语义内容的自动理解、图像索引和检索非常有用。复杂背景图像中文本信息的提取一般包括文字的自动检测、定位、提取、分割和识别,由于图像中文本的大小、字体、字形、位置、排列和图像的清晰度、对比度等不定,使文本自动提取非常困难。文章对目前国内外图像中文本提取主要技术和发展方向进行了综述,便于该领域的研究人员了解和借鉴,同时指出了今后研究方向的热点。  相似文献   

14.
本文通过分析Microsoft Office PowerPoint课件结构,提出了一个专用于PowerPoint课件文本信息提取的对象模型,并在该模型的基础上,利用Visual Basic语言开发了一个PowerPoint课件文本信息提取系统。通过该系统实现了对PowerPoint课件文本信息的有效提取,对于建立基于内容的PowerPoint课件检索模型提供了基础。本文重点阐述了两个关键技术环节:PowerPoint课件文本信息对象模型的建立,PowerPoint课件文本信息提取算法的设计与实现。  相似文献   

15.
基于位置的服务是现今图书馆领域所面临的一项新的机遇和挑战,文章介绍了基于位置服务的产生背景,探讨了基于位置服务的相关技术,探索基于SoLoMo模式的位置服务的图书馆信息服务体系的构建。  相似文献   

16.
互联网上有大量信息隐藏在网络数据库中,其规模庞大且更新速度快,传统数据集成方法不适应集成这些信息。介绍了隐藏网络的观察结果和特点,给出了改进的观察方法。介绍了隐蔽网络信息集成的模型,分析了目前界面提取、模板匹配、结果组合技术的特点和不足,并提出了相应的改进方法。  相似文献   

17.
从平面图形中提取边界信息,是一项重要的数据处理技术,也是计算平面图形边界长度的基础.利用MATLAB进行平面图形边界信息提取的方法,处理过程依次为:保存为图像文件;调入MATLAB;确定边界像素坐标;边界像素坐标转为极坐标,把极角值安升序进行排列后再转换为直角坐标;最后把边界像素坐标实行线性变换转换为实际坐标.这里只对图像边界是简单闭曲线的情况进行了论述,对复杂的边界情况可以进行图像分割转换为几个边界为简单闭曲线的情况分别进行处理.  相似文献   

18.
由于视频信息信息量大,内容丰富,使得对其进行有效的管理和检索成为一个困难而又必须解决的课题.在对视频分割算法进行研究的同时,提出一种基于语义的视频镜头检测方法.主要是通过相邻帧之间的差异来判断是否存在镜头切换出现.实验验证该方法是可行的.  相似文献   

19.
Web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的Web信息抽取方法基础上,对有待进一步研究的方向进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号