基于大数据分析的文本智能识别系统的研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于大数据分析的文本智能识别系统的研究

引用本文：	杨明芬,吴旭,阚瑷珂,常康.基于大数据分析的文本智能识别系统的研究[J].西藏科技,2018(9).

作者姓名：	杨明芬吴旭阚瑷珂常康

作者单位：	西藏自治区科技信息研究所;成都理工大学

摘要：	根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。
本文献已被 CNKI 等数据库收录！