首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 24 毫秒
1.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。  相似文献   

2.
文章分析维基百科中的文档、目录、超链接、重定向以及消歧义等基本元素与结构关系特点,围绕维基百科在信息检索、文本分类、文本聚类、歧义消解、查询扩展与信息抽取以及本体构建等信息处理任务中的典型解决方法与相关项目,综述和评析基于维基百科的语义知识挖掘的研究与应用方法,从整体上把握基于维基百科的知识挖掘研究现状与进展,为当前知识服务系统建设提供借鉴。  相似文献   

3.
以提高领域概念相关性判断的准确度为研究宗旨, 提出综合利用中文维基百科的分类体系结构和概念释义内容进行概念间语义相关度计算的方法.选取中文维基百科分类体系下的图书情报领域的概念为实验对象, 将基于分类信息和文本信息的加权算法与单独基于分类信息的语义距离算法和信息量算法, 以及基于文本信息的文本重叠算法进行对比分析.实验结果表明:加权算法能取得更好的效果, 可为实现面向领域的信息检索、领域本体构建等应用提供重要技术支持.  相似文献   

4.
赵辉  刘怀亮 《图书情报工作》2013,57(11):120-124
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。  相似文献   

5.
维基百科是Wiki技术的成功应用案例,是一种网络环境下的新型知识生产方式。文章阐述维基百科的知识生产机理、面临的主要困难及其解决方式,在此基础上,从网络伦理的角度探讨维基百科知识生产方式所蕴涵的价值意蕴。  相似文献   

6.
为减少一词多义现象及训练样本的类偏斜问题对分类性能的影响,提出一种基于语义网络社团划分的中文文本分类算法。通过维基百科知识库对文本特征词进行消歧,构建出训练语义复杂网络以表示文本间的语义关系,再次结合节点特性采用K-means算法对训练集进行社团划分以改善类偏斜问题,进而查找待分类文本的最相近社团并以此为基础进行文本分类。实验结果表明,本文所提出的中文文本分类算法是可行的,且具有较好的分类效果。  相似文献   

7.
基于图结构的中文文本表示方法研究   总被引:2,自引:0,他引:2  
为解决基于统计的文本表示模型的信息缺失问题,本文提出了一种考虑词间语义和语序信息的基于图结构的中文文本表示方法,其思想是将文本的特征项表示成图结构中的节点,特征项间的关系表示成节点间的有向边,据此可将文本表示成由节点和有向边组成的图结构,并且将边赋予权重信息,该模型较大程度地保留了原文本的结构信息及语义信息.中文语料测试结果表明,基于图结构的文本表示方法对复杂文本语料的分类问题十分有效.对于简短文本语料,本文提出扩展特征项共现单元的修正方法,提高了图结构中文文本表示方法的普遍适用性.  相似文献   

8.
[目的 /意义]针对序列比对算法在文本相似度中的应用,改进全局比对算法并提高该算法的准确性,同时,应用局部比对算法有效解决内容差异或长短差异较大的两文本进行比对的问题.[方法/过程]首先,利用HanLP中的CRF模型对在线学术资源中文文本数据集进行规范化处理,构成中文序列集;然后,使用最新的中文维基百科语料训练Word...  相似文献   

9.
本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用.  相似文献   

10.
简单介绍了文本分类的定义及应用,针对文本信息自动分类的研究动态,分析了当前我国文本信息自动分类研究中存在的问题,提出进一步完善文本自动分类的建议和方法。  相似文献   

11.
Web文本挖掘浅析   总被引:7,自引:0,他引:7  
首先讨论Web挖掘与Web信息检索的关系,然后重点分析Web文本挖掘,并提出Web文本挖掘的方法,包括文本特征表示、文本分类和文本聚类。最后,提出了利用Web挖掘技术实现Web智能化服务和挖掘引擎的应用。  相似文献   

12.
文本挖掘及其在信息检索中的应用   总被引:3,自引:0,他引:3  
文本挖掘是指利用数据挖掘技术,从大量的文本数据中提取感兴趣的、潜在的有 用模式和隐藏的信息。文章详细阐述了文本挖掘系统的组成、过程及相关技术,并介绍了文本 挖掘在信息检索中的应用。  相似文献   

13.
[目的/意义]研究利用维基百科条目的丰富信息来补充完善当前中文名称规范档附加信息不足、名称难以准确区分的问题。[方法/过程]探讨网络环境下个人名称规范档的部分缺陷和维基百科相应的优势,重点阐述维基百科的接口Media Wiki API,并从两个方面探讨实现个人名称规范档与维基百科的链接应用:一是实现从名称规范档到维基百科的链接,二是动态生成个人简介,为名称规范档提供必要的信息来源。[结果/结论]集成维基百科的资源实现中文名称规范档信息的自我完善,有效地建立中文人名名称规范档与维基百科的链接,有助于个人名称的识别与检索。  相似文献   

14.
中文文本解构与知识发现研究   总被引:2,自引:0,他引:2  
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一.文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的.  相似文献   

15.
利用web文档的半结构化信息,提出一种基于DOM的web文本分割算法。该算法充分挖掘web网页中控制网页内容结构和显示的HTML标签信息,构建HTML DOM树。首先通过改进传统的平面文本分割方法,使之适用于web文本分割;然后利用DOM树中的节点平滑平面文本分割的结果,初步实验表明该算法能有效提高web文本分割的精确度。  相似文献   

16.
身处信息爆炸的时代,面对纷繁复杂的信息,我们需要对信息进行整理,对信息进行分门别类,但是当我们没有有关"类"的标准的时候,或许会觉得束手无策。文本聚类则提出了解决这一问题的方法。本文的目的在于介绍文本聚类的原理,及其在信息分析中的实际应用。  相似文献   

17.
文本信息可视化模型研究   总被引:2,自引:0,他引:2  
周宁  张会平  金大卫 《情报学报》2007,26(1):155-160
本文针对文本信息资源的特征,提出了一个基于XML的文本信息可视化的通用模型,详细介绍了模型的三个对象空间——XML文档库、XML特征库和可视化对象以及三项关键技术——中文分词、文本分割和可视化映射,并结合实例验证了模型的实用性、易扩展性以及可移植性。  相似文献   

18.
一种k-NN文本分类器的改进方法   总被引:7,自引:0,他引:7  
巩军  刘鲁 《情报学报》2007,26(1):56-59
自动文本分类是提高信息利用效率和质量的有效方法。训练文本分布的不均匀会对分类的效果产生负面影响,而在实际中,很难使训练文本的分布达到均匀。针对这一问题,提出了一种改进的k-NN文本分类方法。通过在英文和中文两个文本集的实验表明,改进后的方法不仅分类的准确性有了提高,而且表现出较好的稳定性。  相似文献   

19.
文本分类器准确性评估方法   总被引:10,自引:3,他引:10  
程泽凯  林士敏 《情报学报》2004,23(5):631-636
随着计算机网络与信息技术的飞速发展 ,信息极大丰富而知识相对匮乏的状况在加剧。文本挖掘正成为目前研究者关注的焦点。文本分类是文本挖掘的基础和核心。构建一个分类准确的文本分类器是文本分类的关键。现在有很多文本分类的算法 ,在不同的领域里取得了较好的效果。如何更加客观地评估分类器的性能 ,是目前值得研究的方向之一。结合作者的实际工作 ,本文列出目前常用的分类准确性测试和评估方法 ,简单对评估方法进行比较分析。文末提出了对准确性评估的一些改进设想。  相似文献   

20.
中文文本关键词自动抽取方法研究   总被引:6,自引:1,他引:5  
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号