排序方式: 共有4条查询结果,搜索用时 0 毫秒
1
1.
随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难.本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法.依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据.文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法.从实验结果上看,本方法优于其他方法. 相似文献
2.
3.
本文论述了Google如何收集用户信息,黑客如何通过高级操作符获取用户的敏感信息并通过Google搜索服务器漏洞信息进行攻击,为用户正确使用Google进行了警示。文章最后提出了通过提高用户防范意识,个人隐私技术手段保护,服务器保护,和政策法规保护等方面来防范Google黑客对用户信息的侵犯。 相似文献
4.
对文档进行分类并鉴别出垃圾信息是一个非常有实用价值的研究领域,越来越多的网站开始关注这种技术。采用智能算法对垃圾信息进行有效分析,寻找垃圾制作者,并通过网络日志和所发表的内容,判断哪些是广告用户和垃圾信息的发布者,并将其删除。认为对垃圾信息的甄别其实是一种把信息分成有用信息和无用信息的过程,试用贝叶斯分类算法把信息分成不同的类。针对基于规则的分类方法和通过分析广告链接网址来剔除垃圾信息的方法的缺陷,给出贝叶斯分类算法及机器训练方法,从实验结果看,本方法优于基于规则的分类法。 相似文献
1