web-scraping - 网页抓取有任何开放,简单的网页爬虫存在?

  显示原文与译文双语对照的内容

我搜索一个可以很成熟且可以简单扩展的网络爬虫解决方案。 我对以下特性感兴趣。 或者可能扩展爬虫以满足它们:

  • 部分只是阅读几个网站的提要
  • 丢弃这些站点的内容
  • 如果网站有档案我想抓取并索引它
  • 爬虫应该能够为我探索网站的一部分,它应该能够决定哪些网站与给定的标准匹配。
  • 如果发现有可能匹配我的兴趣的话,应该能够通知我
  • 爬虫不应该通过太多的请求来杀死服务器,它应该是智能的爬行。
  • 爬虫应该对古怪站点和服务器很健壮

这些事情可以一个一个地完成,但是我对任何提供一个可以扩展的可以扩展的爬虫。 我听说过 Apache,但对这个项目非常不确定。 你有经验? 你能推荐一些?

时间: 原作者:

...