首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

2.
针对传统的编码方法通常仅考虑编码的稀疏性,忽略编码的局部性,且难以处理数据域特征分布不一致的问题,将迁移稀疏编码与局部约束项相结合,提出基于迁移局部线性编码的跨域图像表示方法.通过K均值聚类均衡学习初始字典基,然后利用局部约束将样本集映射到本地坐标系中并最小化特征的重构编码,学习更具代表性的图像表示,同时考虑数据域的分布差异和几何特征,保证了编码的局部平滑性和鲁棒性.在3个跨域图像数据集上的实验表明,迁移局部线性编码方法可以有效提高跨域图像的分类精度.  相似文献   

3.
针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。  相似文献   

4.
改进了传统的信噪比文本分类方法。提出了一种改进的基于信噪比的文本分类方法。它考虑了禁用词的排除、近义词和同义词的合并以及特征项在文本中不同位置对文章分类的贡献不同。  相似文献   

5.
提出了一种基于机器学习的Web文本自动分类的架构,提出了中文Web文档自动分类的主要技术问题。介绍了中文Web文档自动分类工具的总体设计,它主要包括网络蜘蛛、中文分词、特征选取和贝叶斯分类器等功能模块。最后对中文Web文档自动分类器进行了实验。  相似文献   

6.
当前大多数图像集合分类方法对图像集合进行表示时往往做出部分先验假设,然而在许多实际应用中,这些假设可能无法成立,尤其是当集合内部存在大量复杂的数据变化时更是如此。此外,基于这些假设进行模型学习时可能会丢失部分区分性分类信息。针对这一问题,本文提出一种基于特征表示与学习的图像集合分类方法。对每个图像集合,首先将计算它的多阶统计量作为特征表示。对每阶统计量,计算一个内核矩阵来衡量两个图像集合的相似性。然后,通过利用局部多内核指标学习(LMKML)方法来学习一种距离指标,进而将不同阶统计量综合起来。最后,利用最近邻分类器进行分类。基于4种常用图像集合数据库的实验结果验证了本文算法的有效性。  相似文献   

7.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

8.
本文提供了一种通用的彩色纹理分类方法.首先将灰度共生矩阵扩展应用于彩色图像,然后从中提取Haralick彩色纹理特征.由于每个图像像素都可在不同颜色空间中表示,所以利用了一种迭代选择算法,以降低彩色纹理特征空间的维度.通过BarkTex纹理数据库的应用测试,证明了该方法对纹理分类的有效性.  相似文献   

9.
在介绍SVM和KNN分类算法的基础上,提出了一种新的、较简单的,但更为合理的基于表模型的文档表示方法,阐述了一种基于表模型的分类算法——TableKNN算法。通过实验比较TableKNN算法与传统KNN算法应用于文本分类的效果,证实了TableKNN算法在处理文本分类问题上的优越性。  相似文献   

10.
目前的夹具分类方法存在有一定的问题,为了消除这些问题,特提出新的分类系统,即从组合工艺夹具分类,以特征量作为一种表达形式,可以得出夹具的分类都可以用一定的顺序代码来表示,按照代码就可以进行计算机分类系统,进行自动化设计。  相似文献   

11.
An improved TF-IDF approach for text classification   总被引:5,自引:0,他引:5  
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves …  相似文献   

12.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。  相似文献   

13.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

14.
文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用KNN分类方法,将基于类别的方法与全局方法进行比较,实验结果表明,基于类别的方法能够提高分类器的总体性能。  相似文献   

15.
科技文献的分类是科技文献数据库的重要组成部分,设计好的科技文献分类器是建立科技文献数字图书馆的重要任务之一.传统的文献分类法几乎都是基于文本的,这样会使一部分处于类边缘的文献不能准确地分类,事实上科技文献是一种半结构化的文献,它们包含的很多结构信息可以用到文献的分类中.本文利用科技文献的邻居文献所属的类这一信息结合科技文献的文本提出了一种协调的科技文献分类方法,并取得了较好的结果.  相似文献   

16.
从公文自身性质及其特殊的受文对象角度,说明公文中可以而且应该适量使用口语词汇。通过对熟语以及社会流行语在公文中使用情况分析,结合实例分析口语词汇在公文中使用所达到效果,强调在公文中使用口语词汇可以改进文风,促进政风转变。提出通过准确把握口语词汇含义、透析公文具体情境、精选口语词汇的策略,以期能在公文中正确使用口语词汇。  相似文献   

17.
文章提出了一种基于文档自动生成和格式自动检测的毕业设计文档管理技术。这种技术利用文档内容和格式共享模板,实现了大量文档的自动生成和格式的自动检测,解决了大量重复文档内容的手工填写和格式检测的低效和易出错的问题,提高了毕业设计文档的管理效率;同时便于进行版本控制从而保证文档一致性。利用该技术的毕业设计文档管理系统自投入到应用以来取得了满意的效果。  相似文献   

18.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

19.
Web文本挖掘是数据挖掘技术在网络信息处理中的一个重要应用,如何将web文档转换成数据挖掘所要求的格式,即web文档预处理是一项很重要的研究课题.本文的方法是:从Internet网上下载了大量的网页文件,将网页文件转换成文本文件,然后通过算法对这些文本文件中的数据进行词频统计,删除非用词,去掉高频词,对单词进行词根处理,建立用词词表,从而抽取用词,按字母排序生成词频索引,和字典文件进行对照,获取单词的ID,最后生成Reuters-21578的Database数据格式.这样就将web文档数据转换成标准的数据集,以便为数据挖掘中分类、聚类作好准备.  相似文献   

20.
体育档案内容丰富、载体多样、社会影响面大.现行高校体育档案管理上存在诸多问题.为解决问题,笔者在提出分级管理新思路的同时,设想了实行分级管理的原则、分级的范围、分级的意义、分级的实施等.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号