首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对短文本信息篇幅短、信息量少、特征稀疏的特点,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。  相似文献   

2.
检索结果聚类能够有效帮助提高获取信息的效率和质量。针对传统文本聚类模型存在数据维数过高、缺乏语义理解等问题,提出一种面向检索结果聚类的融合共现分析主题建模算法。基于改进的LDA模型,对得到的“文档-主题”概率分布进行聚类分析,采用K-means算法完成聚类过程,最后提出根据聚类中心提取主题词作为类簇标签。实验结果表明,改进的LDA算法在检索结果聚类应用上不仅获得了很好的聚类效果,类簇标签也有良好的可读性。  相似文献   

3.
近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要.云计算为解决这一问题提出了一种新方法.本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计.本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA 模型训练和K -means 聚类过程进行MapReduce 的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA 建模的分布式算法对中文微博数据聚类效果较好.  相似文献   

4.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

5.
提出一种结合二维PCA和二维LDA的降维方法,并将方法应用于人脸识别研究.对传统的半监督模糊聚类算法进行改造,使之可以直接用于二维数据矩阵进行动态聚类,并据此设计了一种动态学习算法.实验结果表明,与其他降维方法和聚类算法比较,这种结合了二维LDA的半监督聚类模型具有更好的识别率.  相似文献   

6.
运用中文信息处理方法,从大量医药新闻报道中进行有价值话题挖掘,为后续话题跟踪提供训练测试文本。从医药新闻特点入手,使用轮廓系数评价法对k-means的聚类性能进行评估,选取最佳聚类中心数。利用LDA对选取的最佳主题进行提取,从而得到相应的话题。轮廓系数评价法与k-means方法相结合,有助于从海量信息中筛选出有价值的话题。当样本量足够大、聚类效果不好时,人工标记可在一定程度上改善聚类效果。  相似文献   

7.
主题模型在机器学习领域已成为研究的一大热点问题.本文系统阐述LDA(Latent Dirichlet Allocation)主题模型参数估计和Gibbs抽样算法,介绍常见的LDA改进和扩展模型,最后分析LDA模型在文本挖掘领域的应用情况.  相似文献   

8.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

9.
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。  相似文献   

10.
微博已经成为广大用户发布和获取信息的重要渠道之一,微博平台上集聚着大量的用户群体和文本信息资源,如何从大量的微博信息中准确、有效获取微博事件关键内容至关重要。提出一种基于VSM和LDA主题模型相结合的方法,对微博文本生成自动文摘。实验结果表明,该方法能够比较准确地抽取微博文本的文摘内容,从而实现用户对实时消息的搜索。  相似文献   

11.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。  相似文献   

12.
K-Means是一种简单、高效的聚类方法,能快速将网页文本分类。SVM在解决小样本、非线性及高维模式识别中有许多独特优势,能够通过低样本获取全局最优解。因此,将K Means和SVM结合,以达到自动识别流行中文钓鱼网站并对其进行分类的目的。验证了两种方法结合应用的有效性。  相似文献   

13.
田娜  周驿  严蓉 《教育技术导刊》2020,19(5):168-172
为深入挖掘和分析在线课程讨论区中的文本数据,有效识别出参与该课程学习者关注的话题,改进在线课程教学效果,通过对学习者讨论文本进行高频词汇分析,得到词云图,形成对学习者关注内容的整体认识;利用 LDA 话题模型对学习者的讨论文本数据进行话题挖掘,得到 9 个热点话题。实验结果表明,学习者在线讨论关注话题主要涉及 Python 语言编程基础知识、课程证书、作业测试、开发环境配置以及第三方库的安装等。利用 LDA 模型可以从大量课程讨论文本数据中有效识别出学习者关注话题,进而改进在线课程。  相似文献   

14.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

15.
文章阐述了基于移动互联网的精细化营销平台的设计方案,该平台对移动互联网用户的行为进行分析,掌握用户的喜好及聚类分群,为流量经营等精分产品的实现奠定基础。我们引入页面tittle、keywords分析技术,采用K-Means、SVM和Naive Bayes,利用简单贝叶斯模型,完成对未含类主题变量文档的标注。通过SVM算法进行特征向量选取和训练,并利用EM算法获得极大似然估计的最优解。  相似文献   

16.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.  相似文献   

17.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

18.
鉴于甲状腺结节良恶性的判别十分依赖于有效特征的提取,提出基于DLBP与RLBP模型相结合的局部纹理特征提取算法,首先利用RLBP模型解决图像旋转不变问题,然后与DLBP模型相结合对RLBP模式特征进行选择与降维,再与纵横比、圆形度、紧致度等形状特征相结合并输入到SVM分类器中。为了进一步提高识别率,提出基于粒子群算法与网格搜索算法相结合的SVM参数优化算法。实验结果表明,该模型提取的特征用于分类识别时较上述各种模型及传统的旋转不变等价ULBP模型能获得更高的识别率,且提出的参数寻优算法相比于传统寻优算法效率更高。  相似文献   

19.
笔者基于条件随机场(Conditional Random Field,CRF)和支持向量机(Support Vector Machine,SVM)模型,通过增加上下文、附加成分和蒙古文字母等特征,对蒙古文句长为8到25的将近4万个句子进行了词性标注的研究。研究表明,CRF模型和SVM模型在标注蒙古文词性方面都有比较好的结果,其中在考虑上下文和特征"连写的构形附加成分"的情况下,SVM模型标注蒙古文词性的准确率可以达到99%以上。  相似文献   

20.
周靖 《茂名学院学报》2011,21(4):56-58,66
在文本分类过程中,为解决传统支持向量机(SVM)多类分类的不可分区域问题及提高分类性能,提出了一种改进的偏二叉树多类SVM算法。算法依据根据样本的分布情况计算训练集文本特征参数的信息熵,并将熵值结合欧式距离公式以确定各类文本间的相似性测度;以相似性测度作为偏二叉树结构的分类走向,对训练集进行学习,构建各个二类子SVM分类器。实验结果表明,该算法具有较高的分类性能,能更好地解决实际文本分类过程中的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号