与搜索引擎爬虫对话的常用方法
抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取。
更新策略:监控列表页来发现新的页面;定期check 页面是否过期等等。
抽取策略:我们应该如何的从网页中抽取我们想要的内容,不仅仅包含最终的目标内容,还有下一步要抓取的url。
抓取频率:我们需要合理的去下载一个网站,却又不失效率。
抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取。
更新策略:监控列表页来发现新的页面;定期check 页面是否过期等等。
抽取策略:我们应该如何的从网页中抽取我们想要的内容,不仅仅包含最终的目标内容,还有下一步要抓取的url。
抓取频率:我们需要合理的去下载一个网站,却又不失效率。