蜘蛛大量抓取页面导致服务器出现负载问题
问:搜索引擎在高峰时段大量抓取页面,导致服务器出现负载问题。但是我不希望屏蔽它的抓取,应该如何处理?能否在高峰时段对spider返回 202 状态码,告知spider“服务器已接受请求,但尚未处理。”?这会对网站造成什么影响?
答:会延迟百度对新网页的收录速度。
正常情况下,Baiduspider的抓取频率大致上和网站新资源产生的速度相符,并不会给网站带来很大的压力。但现在网站结构通常都比较复杂,多种url形式指向的可能是相同的内容,或者会自动产生大量无检索价值的网页。
...