首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分析了K均值聚类算法(K-means)存在的不足和改进遗传算法的全局优化能力,提出一种基于改进遗传算法的文本聚类方法,该方法将原始文档转化成用向量空间模型来描述的文本向量,首先随机产生若干个文档向量作为初始聚类中心形成遗传算法的染色体种群,经过改进遗传算法的选择、交叉、变异进化运算,得到较为优化的K均值聚类算法的初始聚类中心。实验表明该算法文本聚类提高了查准率和查全率,算法的高效性也得到了验证。  相似文献   

2.
With the flooding of pornographic information on the Internet, how to keep people away from that offensive information is becoming one of the most important research areas in network information security. Some applications which can block or filter such information are used. Approaches in those systems can be roughly classified into two kinds:metadata based and content based. With the development of distributed technologies, content based filtering technologies will play a more and more important role in filtering systems. Keyword matching is a content based method used widely in harmful text filtering. Experiments to evaluate the recall and precision of the method showed that the precision of the method is not satisfactory, though the recall of the method is rather high. According to the results, a new pornographic text filtering model based on reconfirming is put forward. Experiments showed that the model is practical, has less loss of recall than the single keyword matching method, and has higher precision.  相似文献   

3.
教育技术领域术语提取研究   总被引:3,自引:0,他引:3  
近年来,在教育技术领域陆续开展了多项元研究工作,这些研究的一个共同特点就是人工建立一个分类体系,然后将研究样本纳入这些分类体系,这其实就是一个文本分类过程。目前,自然语言处理领域已有较为成熟的文本自动分类技术。但是已有的研究中却没有采用该技术。这与当前缺乏教育技术领域术语词典也有关系。文章以远程教育领域为例,以《开放教育研究》杂志2002年至2006年五年的题录信息为样本,在总结教育技术领域部分术语构成规则的基础上,研制出一种规则和统计相结合的算法来提取术语。测试结果表明,本算法术语识别的准确率为66.7%,召回率为76.7%,与现有的一些术语提取算法结果相近,可以较好的帮助研究者完成术语提取工作,并为及时发现教育技术领域的新术语带来可能。  相似文献   

4.
基于碎片分词的未登录词识别方法   总被引:1,自引:0,他引:1  
提出了一种新的基于碎片分词的未登录词识别方法。该方法首先对文本进行分词,然后对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,最后利用贪心算法获得每个碎片的最长路径,从而提取碎片中的未登录词。实验证明该方法开放测试的准确率达到82.88%,召回率达到87.51%。  相似文献   

5.
文本分类是自然语言处理中的一项重要基础任务,指对文本集按照一定的分类体系或标准进行自动分类标记。目前网络文化监督力度不够、不当言论不受限制,导致垃圾评论影响用户体验。因此提出一种基于注意力机制的CLSTM混合神经网络模型,该模型可以快速有效地区分正常评论与垃圾评论。将传统机器学习SVM模型和深度学习LSTM模型进行对比实验,结果发现,混合模型可在时间复杂度上选择最短时间,同时引入相当少的噪声,最大化地提取上下文信息,大幅提高评论短文本分类效率。对比单模型分类结果,基于注意力机制的CLSTM混合神经网络模型在准确率和召回率上均有提高。  相似文献   

6.
根据构件检索的研究现状,通过增加语义特征,改进了基于刻面分类的构件描述模型.结合领域本体,提出了基于语义的构件检索过程模型及相应的概念语义匹配算法.在基于语义的构件检索过程模型中对其中的构件推理引擎、构件分类引擎的实现进行了详细说明,并给出了贝叶斯分类方法在构件分类中的具体应用.实验表明,基于语义的构件检索方法提高了构件的查全率和查准率,证明了此方法的可行性和有效性.  相似文献   

7.
针对文本分类领域的有监督学习往往需要大量精准标注样本但大量人工标注困难的问题,提出一种新型的半监督学习方式,通过协同训练合理使用大量未标记训练样本,通过添加不同分类的文本特征噪声解决传统协同半监督学习方法中模型参数趋于统一的问题,同时提高分类模型的分类能力。针对传统深度学习方法中文本特征权重一致导致的分类特异性特征不突出问题,在训练模型中加入 self-attention 机制对文本句子特征权重进行提取,并通过句子加权方式突出特异性分类特征。实验结果表明,通过半监督学习方式同时使用少量已标注数据进行训练,模型能够达到 91.4%的准确率,召回率达到 84.3%,与有监督训练方式的分类准确能力相近,从而解决大量人工标注问题,具有一定的使用价值。  相似文献   

8.
文章考虑特征项的概率信息又结合文本的语义信息来计算特征项的权值,提出一种新的用于文本分类的特征项权值计算方法(FreSem),采用支持向量机(SVM)分类器进行实验,与传统的频率、TFIDF两种方法相比,能有效地提高文本分类的正确率。  相似文献   

9.
文本分类是情报检索的基础性工作,它的任务是在给定的分类体系下,根据分类的文本所描述的内容,来确定该文本所属的类别,从而提高信息检索的速度和准确度。本文从实用的角度出发,以具有确定分类标准的关键词分类为应用背景,模仿人工分类的思想,采用一种较简单的通过给主、次关键词分别赋予不同的权重进行文献分类的方法,构建了一个文本分类的实验系统,该系统简化了文本自动分类的繁杂技术,克服了人工分类的不足,可用于管理计算机科学专业的毕业生论文。实验表明,此系统得到了较高的分类准确率。  相似文献   

10.
文章介绍了一种利用PLC测量高频信号的方法,并给出了测量的硬件电路和PLC的梯形图。  相似文献   

11.
基于模糊分类规则树的文本分类   总被引:2,自引:0,他引:2  
针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.  相似文献   

12.
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均衡度评价的支持向量机文本分类算法,并实验证明其优越性.  相似文献   

13.
把粗糙集与神经网络结合,应用于文本分类,可以充分发挥两种方法的优势,取长补短,粗糙集理论可以有效地对样本集进行约简,从而简化了神经网络的结构,减少了网络的训练次数,学习速度和分类精度明显提高,并用仿真实验验证了此方法的有效性.  相似文献   

14.
为及时从海量微博信息中迅捷有效提取出微博热点话题、事件,提出基于频繁集的聚类SSDKmeans算法,在有限空间下统计分词的近似频数,并在此基础上构建文本向量空间模型,在聚类生成的每个话题簇中提炼话题关键词。通过对2万条微博数据进行有效性验证,结果表明,基于SSDKmeans算法的话题发现有较高的召回率和精准率,分别为91.3%、92.1%。SSDKmeans算法能够有效提高微博热点话题发现率,进而及时了解社会热点话题与舆论趋势。  相似文献   

15.
针对湿度传感器的测量精度问题,总结归纳了其精度的提高方法,如频率法、软件法。介绍了各方法的工作原理和优缺点。实际应用表明此方法具有简单易行,测量精度高等特点。  相似文献   

16.
校正电力系统频率偏移的改进傅立叶算法   总被引:2,自引:0,他引:2  
针对电力系统微机保护和控制系统对输入信号精度的要求 ,研究了电力系统频率偏移对傅立叶算法的影响 ,提出一种消弱频率偏移影响的方法 ,并推导出校正频率偏移的改进傅立叶算法 .仿真结果表明该研究正确有效 ,能够大幅度地削弱频率偏移对基波分量提取精度的影响 ,提高电力系统保护和控制的精度 ,具有实用价值  相似文献   

17.
从对突发事件新闻结构特点的分析出发,进行了特定领域文本分类方法的探讨。其中根据文本特点,摒除信息量小的部分,将标题、首部等作为标引源,提高了分类速度。在特征抽取中综合考虑字与词对于文本分类的作用,提高了分类精度。  相似文献   

18.
介绍一种基于词结合提取的未登录词识别方法.该方法对碎片分词后的文本建立二元模型,结合互信息和规则过滤提取由若干个词组合而成的未登录词(组).测试结果准确率为84.71%,召回率为72.13%.  相似文献   

19.
SVM(Support Vector Machine,支持向量机)是由Vapnik等人提出的一种新的机器学习方法。以结构误差理论、条件二次优化理论与核空间理论作为理论基础,能够较地的解决机器学习的问题,如模型选择、过学习、非线性问题和灾难维数等,很适合应用在文本分类领域。针对文本分类技术的新问题,研究了已有的主动学习方法并对其进行改进,提出了一种新的主动学习算法,很好地解决了小规模标注样本集的分类问题。该方法尤其在难以获得大量类标签或者标注样本耗费较大的领域,更能显示出它的优越性,适合日新月异的互联网的应用。  相似文献   

20.
朴素贝叶斯文本分类模型是一种简单而高效的文本分类模型,但是它的独立性假设属性使其无法表示现实世界属性之间的依赖关系,从而影响它的分类性能。这里提出一种改进的基于贝叶斯定理的文本分类模型——“树桩网络(Stump Network)”,并将该方法与朴素贝叶斯文本分类器和TAN(Tree Augmented Naive Bayes)文本分类器进行实验比较,结果表明,在大多数数据集上该文本分类方法具有较高的分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号