源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 649|回复: 0
打印 上一主题 下一主题

[交流] 网站被百度抓取的情况查看分析方法

[复制链接]

393

主题

399

帖子

881

金币

初级会员

Rank: 1

积分
2050
QQ
跳转到指定楼层
1#
发表于 2012-2-1 17:02:05 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  百度用于抓取网页的顺序叫做Baiduspider – 百度蜘蛛,我们检查网站被百度抓取的状况次要是剖析,网站日志里百度蜘蛛Baiduspider的活泼性:抓取频率,前往的HTTP形态码。

  检查日志的方式:

  经过FTP,在网站根目录找到一个日志文件,文件名普通包括log,下载解压外面的记事本,这即是网站的日志,记载了网站被拜访和操作的状况。

  由于各个效劳器和主机的状况不同,不同的主机日志功用记载的内容不同,有的甚至没有日志功用。

  日志内容如下:

  61.135.168.22 – - [11/Jan/2009:04:02:45 +0800] “GET /bbs/thread-7303-1-1.html HTTP/1.1″ 200 8450 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”

  剖析:

  GET /bbs/thread-7303-1-1.html   代表,抓取/bbs/thread-7303-1-1.html 这个页面。

  200  代表成功抓取。

  8450  代表抓取了8450个字节。

  假如你的日志里格式不是如此,则代表日志格式设置不同。

  很多日志里可以看到 200 0 0和200 0  64 则都代表正常抓取。

  抓取频率是经过检查每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个标准的工夫表或频率数字,我们普通经过多日的日志比照来判别。当然,我们希望百度蜘蛛每日抓取的次数越多越好.
本文转自:徐文明的新浪博客http://www.niulaile.com,转载请保留链接。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-17 18:25 , Processed in 0.121733 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明