期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

卢志翔蒙丽莉《柳州师专学报》2011,26(4):128-131

TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。相似文献

2.

蔡银珊黄英铭《绵阳师范学院学报》2010,29(8):106-109

TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。相似文献

3.

改进的TF-IDF中文本特征词加权算法研究

申剑博《教育技术导刊》2015,14(4):67-69

在自动文本分类中,TF IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF DFI DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。相似文献

4.

基于文档结构的特征权重计算方法研究

罗衎马佳佳《教育技术导刊》2019,18(5):65-68

针对不同类别文档可能被表示为相同向量的问题,在研究常用文档特征权重计算方法的基础上,分析文档中特征项之间的相对位置关系,引入文档结构矩阵DS。将DS与3种常用权重算法相结合,构造3种新模型,并利用6种模型在实际语料上进行分类实验。结果表明,基于DS的权重算法与原始权重算法相比,能够提高文本分类效果。相似文献

5.

一种基于改进互信息的文本分类方法

董露露《合肥师范学院学报》2017,35(6)

特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能. 相似文献

6.

文本分类技术研究

台德艺谢飞胡学钢《合肥联合大学学报》2007,17(3):61-64

通过介绍文本分类的过程及其关键技术，讨论了文本表示、分类算法、分类器性能评价原理和方法；最后，指出了当前文本分类过程中存在的问题，并对今后的发展进行了展望．相似文献

7.

一种改进的基于信噪比的文本分类方法

朱志宁万小容黄青松《宁波广播电视大学学报》2005,3(4):84-86

改进了传统的信噪比文本分类方法。提出了一种改进的基于信噪比的文本分类方法。它考虑了禁用词的排除、近义词和同义词的合并以及特征项在文本中不同位置对文章分类的贡献不同。相似文献

8.

一种用于文本分类的特征项权值计算方法的研究

龚静胡平霞李春媚《惠州大学学报》2013,(6):78-81

文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法（FreSem）,采用支持向量机（SVM）分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。相似文献

9.

一种改进的KNN中文文本分类算法

杜琳娜闫光辉杨霞霞刘利松《教育技术导刊》2010,9(2):51-53

提出了一种基于投影寻踪改进KNN中文文本分类方法,与现有的中文文本分类算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验证明了该算法用于文本分类的有效性及其高效率。相似文献

10.

多标记文本分类中信息增益特征选择方法研究

许朝阳《廊坊师范学院学报(自然科学版)》2012,12(5):46-48

针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。相似文献

11.

基于改进TF-IDF的微博短文本特征词提取算法

邓丹君姚莉《教育技术导刊》2016,15(6):48-49

针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:“@”、“//”和“#”分析微博文本的特点,从而对TF IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征词的选取。实验结果表明,相对于原有算法,该算法能够有效提高微博短文本特征词提取的准确度。相似文献

12.

基于突发事件新闻网页的文本分类方法研究

王昌厚罗永莲《长治学院学报》2006,23(2):34-35

从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。相似文献

13.

基于ESA的文本分类算法研究

《洛阳师范学院学报》2016,(2):68-71

本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好. 相似文献

14.

文本自动分类研究进展 总被引：1，自引：0，他引：1

牛延莉张化《教育技术导刊》2008,7(4):24-26

通过介绍文本分类的过程及其关键技术,讨论了文本表示、分类算法、分类器性能评价原理和方法,最后对文本分类今后的发展进行了展望。相似文献

15.

Web文本层次分类方法研究

王序臻《温州职业技术学院学报》2008,8(3)

Web文本分类是在给定分类体系下,根据Web丈本内容判定丈本所属类别的一种分类方法。当丈本类别数量庞大或者类别复杂时,可采用基于向量空间模型的Web丈本层次分类方法,但该分类方法仍存在若干不足。本丈就此归纳多种改进方法,用作讨论,为文本在Web中的分类及构建模型提供参考。相似文献

16.

K-Means聚类的多种距离计算方法的文本实验比较

林滨《福建工程学院学报》2016,(1):80-85

针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。相似文献

17.

网络环境下文本自动分类方法研究综述

吴波《鸡西大学学报》2009,9(5):151-152

介绍了网络环境下文本自动分类的过程,针对文本信息自动分类的研究方法,分析了当前我国文本信息自动分类研究中存在的问题,提出了其未来发展的趋势。相似文献

18.

使用KNN算法的中文Web文本分类技术研究

曹勇吴顺祥《教育技术导刊》2007,(1)

对基于中文的Web文本分类技术进行了研究,介绍了web文本分类的基本过程和Web文本预处理及文本特征选取的方法,重点介绍了一种常用的基于内容的分类算法KNN。最后通过实验测试了使用KNN算法的中文Web文本分类技术的效果。相似文献

19.

基于交叉覆盖算法的文本分类研究

李家兵《滁州学院学报》2008,10(5)

中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。相似文献

20.

基于贝叶斯分类的大学生关注热点事件微博文本分类方法研究

殷复莲张晓宇冯晴王思佳《教育技术导刊》2016,15(6):112-114

针对互联网,尤其是微博平台中大学生用户的海量文本,应用贝叶斯网络分类器对微博评论进行分类。基于贝叶斯,通过先验概率和似然度求出后验概率的原理,针对具体事件选择不同的训练集和调整特征词库,得到大学生对热点事件关注相较于整体网民更加理性、冷静的结论,可为研究大学生心理健康及大学生舆情提供参考。相似文献