首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
采用用户历史查询词构建用户画像时,现有向量空间模型存在特征稀疏和上下文依赖性强的问题。针对该问题,通过引入 LDA 主题模型,首先提取查询词潜在主题,得到查询词对应的主题分布;然后将概率最大的主题对应的词扩充到原始特征空间中,丰富用户特征;最后采用 SVM 分类算法对用户基本属性进行分类,构建用户画像。实验表明,利用 LDA 模型对用户特征进行扩展比传统向量空间模型用户画像精度提高了 1.6%。  相似文献   

3.
地理位置作为用户生活轨迹的具体表现,在人群分类中有着举足轻重的作用。地理位置数据具有高维稀疏性,已有人群分类方法需对位置数据进行特征选择并提前确定特征数,实际应用中存在不便。针对该问题,提出基于地理位置人群分类的一种非参数聚类方法。该方法首先利用分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)无监督学习出最佳特征个数;然后利用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)对位置数据进行特征选取,同时得到功能特征概率矩阵;最后将其作为聚类权向量计算用户间的相似度,利用亲和力聚类(Affinity Propagation,AP)实现人群分类。实验结果表明,该方法较传统方法消耗时间更少、占用内存更低,且同时具有较高的F measure。  相似文献   

4.
在短文本聚类模型中,传统LDA模型没有考虑文本与主题之间的联系.提出一种具有判别学习能力的LDA模型,在LDA-λ模型中将二项分布引入LDA基础模型,增加词项的判别能力.对模型进行理论分析与对比试验,结果表明,基于改进的LDA模型精确度(ACC)、归一化互信息(NMI)和成对F测度值(PWF)比较高,分别达到0.738...  相似文献   

5.
分析了基于支持向量机(SVM)的文本分类方法,在此基础上,提出一种由SVM和概率统计方法相结合的文本分类方法。详细介绍该方法的实现原理、算法描述和工作流程,并进行实验测试。  相似文献   

6.
SVM(Support Vector Machine,支持向量机)是由Vapnik等人提出的一种新的机器学习方法。以结构误差理论、条件二次优化理论与核空间理论作为理论基础,能够较地的解决机器学习的问题,如模型选择、过学习、非线性问题和灾难维数等,很适合应用在文本分类领域。针对文本分类技术的新问题,研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好地解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异的互联网的应用。  相似文献   

7.
词向量在自然语言处理中起着重要作用,近年来受到越来越多学者关注。然而,在词向量研究中,基于Word2vec词向量的应用研究居多,对于GloVe词向量的应用研究却很少。因此,将GloVe词向量模型与支持向量机(SVM)相结合,利用GloVe词向量模型进行特征提取与选择,利用SVM进行分类,并与Word2vec词向量结合SVM作实验对比。实验结果表明,GloVe词向量特征提取与SVM分类相结合的方法能够取得较好的准确率、召回率及F值,因此在新闻文本分类中具有一定应用价值。  相似文献   

8.
近年来,随着深度学习技术在自然语言处理任务中的广泛应用,语言模型规模越来越大.然而,大规模模型推理速度慢、资源消耗成本高,难以在工业上进行应用,小规模模型又难以达到大规模模型效果.因此提出一种基于教师—学生框架的知识蒸馏模型,以预训练模型BERT作为教师模型,以长短时记忆网络(BiLSTM)等小模型作为学生模型,通过教...  相似文献   

9.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

10.
本文借助中文维基百科知识库,提出基于ESA算法的文本分类算法.并选取2015年3月5日在中文维基百科网站下载的主题文章,对其进行适当处理,将处理结果作为该算法使用的语义概念知识库.在复旦大学中文文本分类语料上显示的实验结果表明,该方法比纯粹的词袋模型方法效果要好.  相似文献   

11.
针对信息增益特征选择方法没有很好考虑多标记的分布,在多标记文本分类中表现不佳的问题,用标记矩阵的协方差改善特征选择时标记之间的关联产生的影响,提高分类效果。最后通过实验证明,改进的信息增益特征选择方法具有可行性和有效性。  相似文献   

12.
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。  相似文献   

13.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

14.
随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词项的含义与词性相关的事实,在标注过并去除低频词的语料上,对全局向量模型进行训练获得词向量,对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明, GV-LDA模型较传统的LDA主题模型,可有效提高话题检测的准确率和召回率,并降低“主题词”处理的维度,因此GV-LDA更适合微博话题检测。  相似文献   

15.
中文文本分类是对中文按类别来进行分类。基于交叉覆盖算法的文本分类运用交叉覆盖算法作为分类器,能够实现对中文文本的分类。通过它和SVM(Support Vector Machine)分类器的对比实验,说明了交叉覆盖算法,相比于SVM分类器对中文文本分类效果更好。  相似文献   

16.
特征降维是文本分类的关键步骤之一.传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差.针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷.在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能.  相似文献   

17.
为解决实际公交场景中人数统计精确度不高的问题,采用基于支持向量机(support vector machine,SVM)分类的方法对疑似目标的三维轨迹进行分析,通过提取真实目标与伪目标轨迹的特征信息,进一步分类真实目标与伪目标。首先通过相机标定将深度相机获取的深度图像转换为三维空间中的俯视图;然后采用局部高度最大值方法提取疑似人头目标区域,并利用卡尔曼滤波跟踪得到三维轨迹;最后利用SVM训练正负样本得到强分类器,对目标轨迹进行分类,实现人数自动计数。实验表明,所提方法能够有效地提高目标轨迹分类和人数统计的精度。  相似文献   

18.
组织专家对一定数量但不同授课水平教师的课堂教学进行评价,使用这些小样本数据对多分类sⅧ模型进行训练,使其具有专家的评价能力,并能结合学生评价数据智能地评定其他任课教师的教学质量。本方法可以克服学生评教的局限性,使评价结果更加符合实际,经过数据实证,该方法可靠方便。  相似文献   

19.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

20.
针对互联网,尤其是微博平台中大学生用户的海量文本,应用贝叶斯网络分类器对微博评论进行分类。基于贝叶斯,通过先验概率和似然度求出后验概率的原理,针对具体事件选择不同的训练集和调整特征词库,得到大学生对热点事件关注相较于整体网民更加理性、冷静的结论,可为研究大学生心理健康及大学生舆情提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号