首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
采用新的关键字的获得方法,并基于DHP算法提出一种新的高效的文本关联规则算法.根据 TF‘IDF 公式计算特征词的权重,特征词的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键词,将关键词的权重用到本文的算法ARTREE中,抽取出文本的关联规则.本文算法和Apriori算法相比,具有运算效率高、规则的精度高的优点.实验验证本算法的有效性.  相似文献   

2.
针对微博短文本特征难以提取的特点,结合微博文本的3种专属特殊符号:“@”、“//”和“#”分析微博文本的特点,从而对TF IDF算法进行改进,并且考虑用户兴趣时间的长短来进行微博短文本特征词的选取。实验结果表明,相对于原有算法,该算法能够有效提高微博短文本特征词提取的准确度。  相似文献   

3.
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。  相似文献   

4.
互联网灰色产业服务日益泛滥,而传统的网页过滤算法无法准确高效地过滤掉灰色产业服务网页。为解决这一问题,基于TF*IDF提出一种改进的网页特征提取和权重计算方法,利用因子分解机模型对网页进行分类,并以代孕网站为例进行实验和评估。实验结果表明,该方法精确率达到98.89%,召回率达到98.63%,且对海量网页的过滤能够在线性时间复杂度内完成,大大提高了灰色产业服务信息过滤精度和效率。  相似文献   

5.
每种方言都有自己的词汇特征,这主要通过各个方言区的方言词体现出来,而最能表现方言词汇特征的就是方言特征词。李如龙提出了方言特征词的理论,系统论述了方言特征词的涵义;苏新春提出了方言特征词词频选取的方法。方言特征词在理论和方法上建立了自己的体系。  相似文献   

6.
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。  相似文献   

7.
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。  相似文献   

8.
提出使用TF IDF算法与朴素贝叶斯算法相结合,实现图书的自动分类。首先需从互联网中爬取图书信息,主要包括图书基本信息、图书简介、图书目录等;其次,需要对爬取到的图书信息进行预处理,将同类图书的基本信息聚在一起,并进行分词去噪;然后使用TF IDF算法对每一类图书进行特征提取,获得每一类图书的特征;最后使用朴素贝叶斯算法,并利用训练好的分类特征,计算某本新书的具体分类。实验结果表明,该方法可以简化复杂的图书自动分类过程,提高分类效率,也能保证图书分类的准确性。  相似文献   

9.
作为方言研究的一个崭新领域,汉语方言特征词研究不可避免地存在一些问题。这些问题在该领域的两部代表作《汉语方言特征词研究》和《现代汉语方言核心词·特征词集》当中也有所体现。这些问题的提出和解答对于将来该领域的研究者而言既是一种警示,也是一种帮助。  相似文献   

10.
文本分类问题中,卡方特征选择是一种效果较好的特征选择方法。计算单词的卡方值时,先计算单词针对每个类别的卡方值,再通过类别概率将卡方值调和平均,作为单词相对于整个训练集合的卡方值,这种全局方法忽视了单词和类别间的相关性。针对这一问题,提出基于类别的卡方特征选择方法。基于类别的方法针对每个类别遴选特征词,特征词数量根据事先设定的阈值、类别的文档数和整个训练集合文档数计算得到,不同类别的特征空间可能包含相同的特征词。采用KNN分类方法,将基于类别的方法与全局方法进行比较,实验结果表明,基于类别的方法能够提高分类器的总体性能。  相似文献   

11.
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。  相似文献   

12.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。  相似文献   

13.
随着在线教育平台的兴起,为了解决大量试题带来的存储开支问题,试题查重技术应运而生。提出将改进的Simhash算法应用到试题查重中,首先根据结巴分词技术将试题文本进行切分,然后根据TF IDF技术并结合词语的词性及词长算出关键词权重,以期达到对Simhash签名值的精确计算,最后通过带有索引功能的海明距离检测出相似试题。实验结果验证了此方案的可行性。  相似文献   

14.
随着网络的不断发展,网络词语在日常语言和生活中所起的作用越来越大。以"×哥""×姐""×男""×女"等为代表的网络流行语,近年来形成了性别特征网络词语族群。网络性别特征词语族群中的性别特征词同以往的性别特征词相比,本义有所虚化,逐渐演变为"类词缀",而且在构词方式、感情色彩、词语对称等方面都发生了一定的变化。在形成该词语族群的过程中,除传统的语言学原因外,社会原因和大众心理原因也起着重要的作用。  相似文献   

15.
本文从方言词的界定,方言特征词以及普通话对方言词吸收的原则三个方面,论述了方言词研究中应该注意的几个问题,把方言词界定为通行于某一方言地区,能反映出该地区特色的词语,并区分了方言核心词和方言特征词,特别强调了方言特征词研究的价值,最后概括了普通话对方言词吸收的四条原则.  相似文献   

16.
对当前的基于领域本体的语义标注方法进行了说明和分析,提出了基于领域本体概念划分的语义标注方法.该方法将领域本体中的概念分为特有概念和普通概念,先用一般的领域本体标注算法计算特征词的权值,再对普通概念特征词的权值进行调整,最后结合水稻领域进行试验.实验表明,该方法在保证查全率的基础上,提高了普通概念特征词的查准率.  相似文献   

17.
鉴于线性判别分析(Linear Discriminant Analysis,LDA)算法存在的弊端,本文提出了一种基于局部离散度的监督型线性判别分析(Supervised Linear Discriminant Analysis based on Local Dispersion,SLDALD)算法.新方法的改进主要有:1)从像元邻域的角度出发,对类内散布矩阵、类间散布矩阵进行重新定义,得到类内邻域散布矩阵和类间邻域散布矩阵.新定义充分考虑了不同区域之间像元光谱特征离散度的差异性; 2)在计算类间邻域散布矩阵时,赋予类边界像元较大的权重,让特征降维更针对此类像元; 3)在计算类内邻域散布矩阵时,加大类边界像元的权重,让后续的特征降维针对此类像元.同时,降低噪声点的权重,以抑制噪声点对特征降维的干扰.实验结果表明:相比依据LDA算法所获得的低维特征的分类结果,以SLDALD算法所获得的低维特征为依据,影像分类精度得到明显地提高.  相似文献   

18.
本文在文化语言学的启发和指导下,从边缘特征词的界定、边缘特征词的使用和边缘特征词的情感三个方面入手,具体讨论了边缘特征词的概念、语法结构、分类与甄别;边缘特征词的语用功能和使用规范;边缘特征词在使用过程中体现出的正面以及负面情感态度。得出了边缘特征词表达的是非社会主流的事物、典型语法结构是“特征性修饰语+名词”,主要作用是强调和突出被修饰语的社会文化的非主流性;使用用边缘特征词时,应该注意其丰富的感情色彩,避免边缘特征词的误用和滥用等结论。  相似文献   

19.
从方言同源词看方言特征词研究   总被引:1,自引:0,他引:1  
方言特征词研究在学界已取得不少成果,但仍存在选取方法不当、横向比较不够、选词标准不一、分级不当等问题.方言特征词研究必须要以方言同源词的考证为前提,统一选词标准,调整体例安排,使研究结果更扎实、准确.  相似文献   

20.
谈刑事侦察中方言特征词的鉴别   总被引:1,自引:0,他引:1  
刑事侦察中的方言特征词鉴别,即通过对案件言语材料真伪的识别,应用方言学的有关理论和知识,找出言语材料中具有区别性特征的方言词汇,从而发现破案线索,为案件侦破提供科学依据。鉴别案件言语材料,比较方言词汇,必须把握不同方言的特征词,把握方言中地名的区域特征词,注意把方言特征词和其他语言要素作综合分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号