首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于潜在语义索引和遗传算法的文本特征提取方法   总被引:9,自引:0,他引:9  
郝占刚  王正欧 《情报科学》2006,24(1):104-107
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value Deccvaposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的雏数,并能提高分类准确率。  相似文献   

2.
中文本体的自动获取与评估算法分析   总被引:6,自引:0,他引:6  
在下一代互联网,即语义网中,信息模式建立在本体描述之上。由于手工构建本体是一项工作量巨大并且繁杂的任务,因而,能否自动构建本体正逐渐成为语义网使用的关键性要素。在这样的背景下,本文对比和借鉴了国内外本体自动获取的方法和思路,将中文领域本体的提取划分为文本预处理、本体抽取和本体关系获取三个阶段。接着,本文讨论了这三个步骤所涉及的算法,包括基于统计模式对文本抽词、基于奇异值分解从词—文档矩阵中提取本体、基于语义相似度对本体进行聚类等。对于本体自动获取的效果评估,本文提出了利用计算手工和自动两种方式得到的本体相似度来进行衡量的思路。  相似文献   

3.
概率潜在语义分析是一种对双模型和同现数据进行分析的统计技术,它已经被应用于信息的检索与过滤、自然语言处理、机器学习和一些相关的领域。标准的潜在语义分析主要是基于线性代数并且对同现表格进行奇异值分解。而概率潜在语义分析则是基于从潜在的类模型中获取一个混合分解。这样我们就得到了一种更有原则性的,并且在统计方面有巩固基础的方法。为了避免过适应,我们通过缓增EM算法提出一种广泛适用的最大概似泛化模型。在大量的实验当中,我们的方法在原有的潜在语义分析的基础上做了大量和持续改进。  相似文献   

4.
孟芳 《科教文汇》2012,(13):141-142,163
批评语篇分析(Critical Discourse Analysis)简称CDA,它作为一门工具语言学着重分析大众文本的语言特点进而对文本中所隐含的意识形态的意义以及语言和权力之间的关系做一个解读。本篇文章通过应用批评语言学的一些理论知识采用系统功能语言学中关于分类和情态方面的知识对《美国时代周刊》、《华盛顿邮报》这两篇杂志的奥巴马亚洲之行的报道进行分析说明权力与语言的关系,培养读者的批评意识。  相似文献   

5.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

6.
程娟  平西建  童莉  杨洋 《情报杂志》2006,25(4):69-70,73
在网络文本图像的自动提取过程中,计算机难以直接实现基于高层语义特征的文本图像提取,因此文本图像提取技术的性能很走程度上依赖于底层统计特征的提取。广义归一化图像信息度量(GNPIM)和Lorenz信息度量(LIM)在灰度级上描述了图像的分布,在语义层上反映了图像的内容,是区分文本图像和一般连续色调图像的有效统计特征,作为支持向量机(SVM)的输入向量。可区分文本图像与连续色调图像,从而实现网络中文本图像的自动提取。实验结果表明,基于GNPIM、LIM与SVM的文本图像提取技术能够有效提取网络中的文本图像。且正确率高,速度快。  相似文献   

7.
基于块奇异值分解的水印算法研究   总被引:8,自引:0,他引:8  
奇异值分解是一种特殊的矩阵变换,并具有良好的性质。本文充分利用奇异值分解的特性,提出了一种新的基于块奇异值分解的量化水印算法和一种新的基于块奇异值分解的扩频水印算法。这两个算法都是通过对各个数据块的最大奇异值进行修改来嵌入水印,都可以根据待嵌入的水印信息量来调整分块的大小,算法的复杂度较低。其中的量化水印算法是含边信息的嵌入方法,可以实现盲检测。实验结果证明,基于块奇异值分解的水印算法对常规的图像处理攻击具有很好的鲁棒性,尤其是其中的量化水印算法。  相似文献   

8.
基于潜在语义索引的文本结构分析方法的研究   总被引:4,自引:0,他引:4  
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本检索、文本过滤以及文本摘要的精度。通过描述文本的物理结构和逻辑结构以及文本分析的背景,将潜在语义索引引入文本结构分析中,提出了基于潜在语义索引的层次分析方法,该方法保证了层次划分的有序性和聚合性,可操作性强,便于解释,并给出了在文本检索、文本过滤和文本摘要中的应用。  相似文献   

9.
仲光苹  刘金明 《黑龙江科技信息》2012,(29):199-200,98,270
本文主要归纳和总结了代数学中的矩阵分解理论及理论应用。本文把矩阵分解分为等价分解、三角分解、谱分解、奇异值分解和Fitting分解等。在论文中对相关理论进行了证明,并给出了矩阵等价分解的一种新的证明方法。在应用方面,展示了等价分解、LU分解、谱分解、奇异值分解和Fitting分解在理论上的应用。  相似文献   

10.
在领域本体已知和文本语义标注主要步骤的基础上,本文用数据挖掘技术实现文本语义信息的获取,提出了文本语义分析与标注的基本思想和处理流程,深入探讨了用聚类分析完成实例分析与标注过程,用关联挖掘和分类方法完成实例间关系的分析与标注过程。  相似文献   

11.
语义维基正在成为近年来知识管理领域的热门研究课题之一,其基本原理是传统维基系统和语义网技术相互结合。人类已经通过维基系统存储了海量的知识,可以利用知识地图技术、本体挖掘等方法来优化知识表示方法.使维基系统功能多样化、使用简单化、知识表示更加清晰、准确。本文主要探讨Semantic Mediawiki在本体建立、知识管理、知识表示等方面的应用。  相似文献   

12.
何喜军  马珊  武玉英 《情报科学》2018,36(11):95-100
【目的/意义】为应对线上技术供需信息超载导致的检索难、信息非结构化导致的供需文本匹配难的问题, 开展技术供需信息语义匹配研究。【方法/过程】构建技术领域本体,利用SAO结构分析提取技术供需信息中多维 语义结构特征,表征供给技术的创新特征及技术需求的问题特征。应用基于本体信息内容与语义距离相似算法, 结合词向量与熵值分析,提出技术供需多维语义结构匹配模型。【结果/结论】对线上新能源领域技术供需数据进行 测试,验证模型有效性,为提高技术供需主体信息检索效率、促进供需对接提供思路,并为考虑供需信息匹配的科 技主体推荐提供决策。  相似文献   

13.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

14.
翟术英  翁智峰 《科技风》2023,(13):71-73
矩阵的奇异值分解是高校《线性代数》教学中的重点难点内容。由于对其缺乏直观理解,学生很难理解奇异值分解背后的深层意义。本文探讨将奇异值分解与Matlab相结合进行教学的优越性,既增强了学生学习的积极性和主动性,又可以提高知识运用能力和动手能力。  相似文献   

15.
提出了一种利用人脸图像的局部奇异值和灰色关联分析进行人脸识别的方法。该方法的关键是不在整幅人脸图像上进行,而是在人脸的不同区域进行奇异值分解以提取更丰富的信息和克服"小样本"效应。  相似文献   

16.
针对仅在整幅人脸图像上进行奇异值分解无法得到人脸识别所需的足够信息的问题,提出了一种利用人脸图像的局部奇异值和灰色关联分析进行人脸识别的方法。该方法的关键是不在整幅人脸图像上进行,而是在人脸的不同区域进行奇异值分解以提取更丰富的信息和克服"小样本"效应。在识别阶段,对待识别人脸的特征向量,计算其对各人脸样本的隶属度,最后做出判断。该方法与传统方法在ORL人脸库上进行的对比实验结果,表明了该方法的优越性。  相似文献   

17.
信息素养课程目标体系的分析与确定   总被引:5,自引:0,他引:5  
吴群志 《情报科学》2006,24(4):561-565
运用泰勒(Tyler.R.W)原理和课程目标分类理论,对信息素养课程目标体系进行了分析与确定,目标来源确定为:信息学科、信息社会和信息人材三个方面。信息学科目标定位于信息知识与信息技术领域,信息社会目标定位于信息交流和信息问题解决领域,信息人材目标定位于情感、态度与价值观领域。每一领域的子目标又分别由三个学习水平确定。从而完成了整个信息素养课程目标体系的分析与确定。  相似文献   

18.
数字水印技术是解决多媒体数字产品版权保护与信息完整性的有效方法。提出了一种基于离散小波变换和奇异值分解的盲数字水印算法,算法利用小波变换和矩阵奇异值本身的特性,将Arnold变换后的水印信息量化地嵌入到原始图像小波低频子带分块奇异值分解后的向量中。实验表明,该算法具有较好的透明性和鲁棒性。  相似文献   

19.
实用分类系统及其实现方法   总被引:2,自引:0,他引:2  
王云才 《情报科学》2005,23(8):1209-1212
作为语义网(Semantic web)开发的核心部分,实用分类系统(Ontology)的开发和设计为W3C(World wide web consortium)所关注,虽然对于Ontology概念本身的理解仍处在争议中,但它在知识组织和信息检索中的应用已迈出了可喜的步伐。本文采用Ontology实用性与搡作层面的含义,将其与传统的图书馆分类法进行了区分,阐述了在构造Ontology时可采用的基本素材、构造程序以及现在主要采用的开发设计方法。  相似文献   

20.
基于语义网技术的知识服务策略研究   总被引:2,自引:1,他引:2  
李静  张剑 《情报杂志》2006,25(11):103-105
针对语义网环境下知识服务过程中存在的不足,着力于将语义网中的相关技术应用到知识服务的过程中,如在提供检索服务过程中集成Semantic Markup Inference、建立基于XML的即时信息服务程序、建立基于Ontology的用户档案模型系统等。以优化现有的知识服务过程,基于用户特征提供主动的知识推送服务,提升语义网环境下高校图书馆知识服务的价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号