首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于大数据分析的文本智能识别系统的研究
引用本文:杨明芬,吴旭,阚瑷珂,常康.基于大数据分析的文本智能识别系统的研究[J].西藏科技,2018(9).
作者姓名:杨明芬  吴旭  阚瑷珂  常康
作者单位:西藏自治区科技信息研究所;成都理工大学
摘    要:根据软件工程的基本原理在Ubuntu操作系统环境下使用Eclipse开发工具,设计并实现了基于Hadoop系统架构的NaiveBayes算法文本分类系统。系统将大量中文文本数据集存储在分布式文件系统HDFS上,通过MapReduce并行计算模型和Ansj中文分词库对中文数据集进行分词,采用TF-IDF算法进行文本特征抽取,最后基于Spark并行计算框架和NaiveBayes算法对特征数据集进行模型训练,得到文本分类模型,将文本分类服务集成到Web页面。系统基本实现了文本的正确分类。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号