首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中文微博文本采集与预处理综述
引用本文:孔雪娜,孙红.中文微博文本采集与预处理综述[J].教育技术导刊,2017,16(2):186-189.
作者姓名:孔雪娜  孙红
作者单位:1.上海理工大学 光电信息与计算机工程学院;2.上海现代光学系统重点实验室,上海 200093
摘    要:〖HJ*3〗随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。

关 键 词:数据挖掘  网页爬虫  微博信息采集  文本预处理  文本分词  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号