首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 8 毫秒
1.
在自动文本分类中,TF IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF DFI DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。  相似文献   

2.
微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。  相似文献   

3.
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。  相似文献   

4.
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。  相似文献   

5.
关键词提取作为自然语言处理(NLP)的重要步骤,其作用是挖掘文本主题,通过几个词高度概括文本内容,在信息检索、文本挖掘中应用广泛.选出的关键词必须包含以下3个特性:易于理解、与文本高度关联、能很好地覆盖文本内容.对TextRank算法进行改进,将一段文本分成若干部分,对其中的每个部分构建关键词图,并在每一部分中提取若干...  相似文献   

6.
在分析现有文本水印方法的基础上,提出一种新方案.该方案中文档看成是句子的集合.利用密钥K1,K2和特征函数返回值选择特征词汇子集和可变序的句子子集合,改变该子集合中的句子顺序来嵌入水印信息.为提高方案对水印攻击的抵御性,在多个句子中嵌入相同的水印信息.阐述了该方案的模型和句子变序算法,通过对主要句子层次上的攻击方法的分析,给出了本方案的优势.  相似文献   

7.
吉志薇 《文教资料》2014,(31):120-124
TF-IDF算法在文本相似性的度量中有着广泛地应用,但也存在着明显的缺陷。本文运用一种综合考虑词频、逆向文本频率、类间信息熵和类内信息熵四个方面的改进的TF-IDF算法计算了郭敬明的《梦里花落知多少》和庄羽的《圈里圈外》的相似性,从定量的角度判定了前者的确抄袭了后者。  相似文献   

8.
为提升抽取短文本关键词的准确率和召回率,并发掘出文中未出现但能很好表达短文主题的关键词,提出一种短文本关键词抽取及扩展方法。该方法在关键词抽取时,考虑了词的统计特征、主题特征及词搭配特征等多种特征,分步对词的评分进行修正,最终得到较为准确的关键词。关键词扩展时,通过计算抽取出的关键词与主题特征词之间的相似度,扩展出能够较好反应短文本主题的扩展关键词。考虑主题特征及关键词扩展时,需要有主题相关性较强的长文本语料库辅助。有相关性较强的长文本语料库时,该方法有较好的表现。  相似文献   

9.
针对协同过滤算法中存在数据稀疏的问题,提出一种基于融合用户标签和蚁群的协同过滤微博推荐算法。将表示用户兴趣的标签引入推荐模型中,利用标签和用户以及标签和微博的关联度,建立用户对微博的兴趣度模型。另外结合蚁群聚类和协同过滤为目标用户进行用户聚类,计算出对目标用户的待推荐微博集。最后利用用户对微博的兴趣度模型从待推荐微博集中选出Top-N为目标用户进行推荐。实验引入标签和蚁群算法的有效性,将测试结果与传统协同过滤推荐算法和纯基于标签的微博推荐算法进行比较,该算法不仅改善了协同过滤算法中数据稀疏和冷启动的问题,而且推荐准确度有明显提高。  相似文献   

10.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

11.
随着信息技术的快速发展,网络学习社区已成为重要的学习平台之一。在此背景下,文章采用词频—逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和动态主题模型(Dynamic Topic Models,DTM),以951条相关文献作为数据来源,首先对网络学习社区的研究热点和研究主题进行了分析,发现网络学习社区具有明确的教育属性,并将网络学习社区领域的相关研究划分为九类主题。随后,文章基于时序绘制了热度高低均值图和热度曲线图,对网络学习社区主题热度与演化情况进行了分析,发现混合教学和学习服务等主题具有核心热点特征,平台建设、学习者交互、社区生态等主题发展较为稳定,学习环境主题有一定的发展潜力,而学习模式、知识共享、学习动机等主题热度逐渐弱化。最后,文章梳理了研究结论,并针对网络学习社区的发展提出了建议。文章的研究为网络学习社区领域中理论和实践研究提供了一定的数据和理论支持,明确了该领域的研究主题和结构,为探讨该领域的未来研究方向提供了新的思路。  相似文献   

12.
农业短文本中包含词数较少,导致语义获取不充分和分类效果下降。利用 Attention 机制加强关键词在分类时的权重,并结合 BiLSTM 设计 LSTM-Attention 模型。对 30 000 份原始数据经过中文分词、句法分析、文本向量化后,将 LSTM-Attention 模型训练成一个 LSTM-Attention 分类器,解决分类器对待分类文本数据敏感的问题。利用 30 000 份标准数据和加 30%干扰信息的复杂数据测试分类器分类效果,结果表明,LSTM-Attention 模型分类正确率达 98.59%,比传统 LSTM 模型高 3.72%,比 BiLSTM 模型高 1.61%,说明使用 BiLSTM 结 合 Attention 机制能够有效提升农业短文本分类效果。利用不同测试数据对 LSTM-Attention 分类器测试发现,LSTM-Attention 分类器具有良好收敛性,其分类效果不依赖于分类数据特征,分类效果稳定性佳。  相似文献   

13.
近年来,随着智能移动设备的普及,人们可以随时随地通过网络社交媒体获取与分享信息。然而,便捷的上网方式以及自由的网络空间,也为网络谣言的产生与传播提供了条件,广泛传播的谣言可能具有极大的破坏性。因此,及时识别谣言对于保障社会稳定具有重要意义。使用词嵌入对微博短文本进行向量化处理,然后使用朴素贝叶斯、K最近邻和支持向量机对文本向量进行主题分类,以期及时发现具有周期性出现特点的谣言。将该模型在中文谣言真实数据集上进行有效性验证,使用5 487条数据作为训练集,2 703条数据作为测试集进行分类实验。实验结果表明,K最近邻模型相比于朴素贝叶斯模型及支持向量机模型,在谣言主题分类任务中表现最佳,其F1值和分类准确率都达到0.93,表明基于词嵌入的谣言主题分类方法可及时发现周期性谣言。  相似文献   

14.
目前学界对于微博的关注大多集中在文学研究方面,鲜有学者从审美角度对其进行深入的探究。然而微博的巨大影响力,却是时人所共认的。故而从微博的创作、接受以及文本等方面入手,可以比较深入地揭橥微博写作具备的审美潜力,以推动其更好地发展。  相似文献   

15.
以微博作为研究对象,针对微博类短文本数据的特点,从情感的角度出发,提出基于情感分析的舆情演化分析。该方法以文本的情感值作为特征对微博数据进行时间分片,然后使用DTM模型对分片后的数据进行话题演化分析。实验表明,该方法能较好地划分微博数据,有效地找到舆情变化的时间点。  相似文献   

16.
提出了一种基于行颜色梯度分析的视频字幕区提取算法。该算法首先计算视频图像帧中每一行的颜色梯度偏差以检测可能包含文本像素的行区间.然后扩展毗邻行中可能包含文本的像素区间形成一个可能包含文本字符串的二维像素区块,接着根据文本区块和图像背景间的几何性质的差异确定包含文本的二维文本像素区块。最后,利用从电视节目中采集的新闻视频和网络下栽的图像对算法进行了试验验证。  相似文献   

17.
微博与青少年和青少年工作有着千丝万缕的联系。微博受到热捧有其缘故,微博影响青少年有其根由。在微博中,青少年容易与微博过度互动,轻视自身言行,甚至产生角色冲突。为此,我们应从健全法制、弘扬道德、全民共建、技术支持等层面加强微博治理。  相似文献   

18.
微博营销是指利用微博平台进行信息传播的一种社会化媒体营销方式。微博的即时性发布、平等式交流等特征与传统网络营销方式相比具有特定的营销优势。但目前我国对于微博营销的研究处于空白阶段。笔者整合相关研究资料,利用营销的内在规律探索企业微博网络营销创新性策略,具有重要的实践意义。笔者首先在当前网络营销环境和网络营销模式前提下明确了微博营销的属性,客观分析了我国微博营销的现状及存在的问题,最后从多方面探索了我国微博营销的创新策略。  相似文献   

19.
通过分析CNKI收录的关于微博营销文献的学科、关键词、科研机构等可以发现,文献主要集中在企业经济、信息经济和新闻传播领域,基本都以新浪微博为研究对象,研究微博营销的策略、价值、影响力、盈利模式等,且文献多发表于商业杂志。  相似文献   

20.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号