最新详细的百度蜘蛛爬行检测代码诠释0

发布时间：2020-07-24 10:50:05 阅读：次来源：电炖锅厂家

最近在网上看了篇有关百度蜘蛛的爬行代码的解释，发现和现在的爬行有些改变，已至于开始时看我的pipiflash这个站的日志看不懂是什么意思，经过屡次研究终究明白其中，所以今重新整理解释以下：

做seo的朋友都知道，研究se爬行规律对网站优化意义重大，特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码代表的具体含义：

2xx 成功

200 正常;要求已完成。

201 正常;紧接 POST 命令。

202 正常;已接受用于处理，但处理还没有完成。

203 正常;部份信息返回的信息只是一部分。

204 正常;无响应已接收要求，但不存在要回送的信息。

3xx 重定向

301 已移动要求的数据具有新的位置且更改是永久的。

302 已找到要求的数据临时具有不同 URI。

303 请参阅其它可在另外一 URI 下找到对要求的响应，且应使用 GET 方法检索此响应。

304 未修改未按预期修改文档。

305 使用代理必须通过位置字段中提供的代理来访问要求的资源。

306 未使用不再使用;保存此代码以便将来使用。

4xx 客户机中出现的毛病

400 毛病要求要求中有语法问题，或不能满足要求。

401 未授权未授权客户机访问数据。

402 需要付款表示计费系统已有效。

403 制止即便有授权也不需要访问。

404 找不到服务器找不到给定的资源;文档不存在。

407 代理认证要求客户机首先必须使用代理认证本身。

410 要求的网页不存在(永久);

415 介质类型不受支持服务器拒绝服务要求，由于不支持要求实体的格式。

5xx 服务器中出现的毛病

500 内部毛病由于意外情况，服务器不能完成要求。

501 未履行服务器不支持要求的工具。

502 毛病网关服务器接收到来自上游服务器的无效响应。

503 没法取得服务由于临时过载或保护，服务器没法处理要求。

比如说：

2008-05-10 00:28:03 W3SVC818374 222.214.218.36 GET pipiflash/flash/1622 - 80 - 221.10.254.26 Baiduspider+(+baidu/search/spider) 200 0 0 21089

这就意味着百度蜘蛛在2008-05-10 00:28:03 爬过pipiflash/flash/1622 这一页，200 0 0 21089中的200协议代码代表了要求已完成也就是它发现这页并以入库了。根据这个我们可以多查看iis日志，研究蜘蛛爬行的路径，找出自己网站存在的问题，进而改正。