排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
2.
提出一种在内网和外网间处于物理隔离状态下防止信息重复采集的电子政务二次信息采集交互系统原型.外网用户能够从客户端软件中二次采集由webalert功能采集的互联网中最新相关网页的链接所指内容,最后再通过摆渡式传输设备将采集结果传递到存储设备上,与内网搭建的网络平台进行数据同步,供内网用户直接浏览.在外网抓取信息和内外网数据同步中,都需要对网页提取信息指纹进行对比,防止重复抓取和拷贝.原型采用HashTrie保存信息指纹.进行评测对比后,可知基于HashTrie信息指纹提取比目前专利申请中速度最快的Darts(双数组Trie)结构快2.28倍,还提出了一种新的Hash函数,并且实现了现有12种高速Hash函数以供HashTrie使用,当词典容量大于50万词时,可以采用PJWHash或SuperFastHash函数,而当词典容量为10万词时,可以采用CalcStrCRC32和ELFHash函数. 相似文献
1