基于URL定位信息的BBS数据挖掘方法研究 |
| |
引用本文: | 赵 哲,马晓珺.基于URL定位信息的BBS数据挖掘方法研究[J].科技通报,2014(4):206-208. |
| |
作者姓名: | 赵 哲 马晓珺 |
| |
作者单位: | 安阳师范学院计算机与信息工程学院;安阳师范学院公共计算机教学部; |
| |
摘 要: | 利用Web页面的采集序位和被检索页面的相关信息和主题,使得以主题为分块的网络爬虫算法,能够尽可能多地把整个Web按照主题为依据进行分块整合,可以采用对URL定位信息,提高了页面的高效检索能力。仿真实验中表明,提出的主题相关爬虫算法能够跨越BBS中URL网页中的断裂带,提高了URL网页的召回率,也不至于因为网页的断裂而中止检索。算法精度分析表明,误判点都在等分线附近徘徊,偏差不大,表明算法精度较高。
|
关 键 词: | 网络爬虫算法 URL定位信息 BBS信息检索 数据挖掘 |
本文献已被 CNKI 等数据库收录! |
|