中文微博文本采集与预处理综述 |
| |
引用本文: | 孔雪娜,孙红.中文微博文本采集与预处理综述[J].教育技术导刊,2017,16(2):186-189. |
| |
作者姓名: | 孔雪娜 孙红 |
| |
作者单位: | 1.上海理工大学 光电信息与计算机工程学院;2.上海现代光学系统重点实验室,上海 200093 |
| |
摘 要: | 〖HJ*3〗随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。
|
关 键 词: | 数据挖掘 网页爬虫 微博信息采集 文本预处理 文本分词 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|