共查询到20条相似文献,搜索用时 31 毫秒
1.
在网络环境中文本挖掘的过程主要包括特征提取、特征选择、挖掘方法选择、结果评价和知识模块等几个部分;最新的发展方向是基于EM算法对文本进行挖掘,基于该算法的的比较挖掘模型为:首先对已知数据集任意分为几个类,然后根据各个类集和背景集对文档集的各个词进行似然,再通过求和可以得到整个数据集的似然,该过程反复进行,直到收敛,从而可以根据各类和背景集结果中的较大的概率值得出文本的共同主题和各个类的主题。 相似文献
2.
通过对专业信息自动分类的文本特征提取方法的分析研究,提出在文本分析时根据Web内容挖掘和结构挖掘的方法提取特征词条来建立文本特征空间,同时利用专业类别向量、专业词典技术可有效解决高维空间问题. 相似文献
3.
丁琼 《赤峰学院学报(自然科学版)》2013,29(7):14-15
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势.本文简要介绍了文本分类的特征提取算法,并通过实验比较了各种提取算法在KNN中的性能.实验表明IG、MI、CE、χ2、WE五种特征提取方法在KNN分类器中性能接近,互信息(MI)特征提取方法随着特征数的提高分类性能提高地较快,当特征数目较小的时候分类性能极差. 相似文献
4.
讨论了聚类分析及文本挖掘,分析了一种用模拟退火思想改进的K均值聚类算法在文本挖掘中的应用。传统的信息检索技术已经不适应日益增加的、大量文本数据处理的需求。如何从数据中分析和提取有用信息即文本挖掘已经成为数据挖掘中日益流行与重要的研究课题。 相似文献
5.
提出使用文本相似度算法与DBSCAN聚类算法相结合的方法对文本进行聚类,实现对文本的管理。首先对文本进行特征提取和分词操作,在分词过程中会产生大量的特征词汇,而有些特征词汇对文本特征的表达并无实际意义。因此,在文本特征提取过程中根据特征词汇对文本特征表达的贡献度进行取舍,以提高文本聚类的效率和准确性。利用TF IDF方法对特征词汇进行加权,并且对文本进行相似度计算,将相似度低于阈值的文本作为孤立点进行处理。利用DBSCAN算法对文本进行聚类,将相似的文本聚为一类。 相似文献
6.
宋瑞祺 《山西财经大学学报(高等教育版)》2007,10(Z1):95
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。 相似文献
7.
8.
文本语言分析是对文学文本进行的理论批评。在当今文化分析方兴未艾的理论背景下,反思新批评以来的文本语言分析理论的得失,完成文本分析到文化分析的过渡,理应成为当务之急。新批评的文本分析理论、结构主义的文本分析理论和解构主义的文本分析理论,固然重视了对文本的语言组织特点加以分析,但是对文本语言潜在情感因素的重视是远远不够的,对此提出对文本语言情感因素的挖掘,重视对文本语言潜在情感因素的分析。 相似文献
9.
分析了支持向量机特征提取算法,支持向量机算法的优点是在小样本、非线性以及高维度模式识别中拥有的最优性能。随着近几年北京市水资源日益短缺的严峻事实,本文将支持向量机特征提取算法应用到北京市水资源短缺风险的主要因素提取方面,此分析对水资源短缺分享的研究对维护社会经济的稳定、可持续发展战略的实施具有重要意义。 相似文献
10.
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展,指出了文本挖掘在信息检索中的作用。 相似文献
11.
总结了数据挖掘的基本方法、文本数据挖掘的关键技术,讨论了文本挖掘的定义和文本分类的一些形式,并对文本数据的数据挖掘算法进行了研究。 相似文献
12.
13.
《武汉职业技术学院学报》2016,(5)
客户特征提取是整个客户行为分析过程中的重要环节。由于客户特征提取时获得的数据具有多共同特征及大噪声等特点,使得在客户行为分析中进行客户特征提取存在较大误差。采用UCI机器学习数据库中有多个共同特征的数据集分别对典型特征提取算法进行实验对比及分类规则提取结果分析,验证了FC-GMDH算法在特征提取精度和抗干扰方面具有明显的优势,在客户行为分析时取得满意的特征提取效果。 相似文献
14.
提出一种基于自相关模板匹配的云环境下大规模多媒体数据特征重构挖掘方法,进行大规模多媒体数据的信息流模型构建和特征提取,在云环境下进行大规模多媒体数据的主特征量矢量分析和状态空间重构,对重构的多媒体数据状态矢量特征进行自相关模板匹配,以实现数据准确挖掘。仿真结果表明,采用该算法进行数据挖掘的精度与准确性较高,性能较好,优于传统算法。 相似文献
15.
为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高. 相似文献
16.
产品特征抽取是产品评论挖掘中的关键一步,针对现有产品评论挖掘方法对产品特征抽取的不足,提出了一种Apriori算法和文本模式相结合的产品特征抽取方法,并运用特征修剪算法对候选产品特征进行过滤。实验结果表明,该方法具有较好的效果。 相似文献
17.
张浩 《温州职业技术学院学报》2013,(1):84-86
在传统聚类模型的基础上,提出一种基于向量空间模型的层次聚类算法,用于文本数据的挖掘。实验结果表明,基于向量空间模型的层次聚类算法从挖掘的准确率上更具有性能优势。 相似文献
18.
嵌入式网络数据库优化访问的关键是对访问目标数据的准确推荐和挖掘,以实现数据的准确检索。提出一种基于模糊C均值聚类的嵌入式数据库并行推荐算法,构建嵌入式数据的数据结构模型,进行数据信息流属性集特征提取。采用模糊C均值聚类算法实现属性分类,以此实现嵌入式数据的库并行推荐和挖掘。仿真结果表明,采用该算法进行数据库访问,精度较高,执行时间较短,性能优越。 相似文献
19.
阅读教学魅力要素是文本魅力因素和教师魅力因素。教师必须采取挖一挖、补一补、找一找、讲一讲、奖一奖等方法,挖掘文本魅力;有所为有所不为,展示教师魅力,使阅读教学充满魅力。 相似文献
20.
读写结合是突破高中英语写作教学瓶颈的出路。本文以外研版英语教材的阅读文本为例,探索通过文本阅读来有效促进英语写作教学,并阐述了教师应如何在阅读教学中挖掘写作因素,从注重文本语言知识积累、关注文本整体研究两方面对学生进行写作指导。 相似文献