源码论坛,商业源码下载,尽在锦尚中国商业源码论坛
标题:
网站被百度抓取的情况查看分析方法
[打印本页]
作者:
wyhuang
时间:
2012-2-1 17:02
标题:
网站被百度抓取的情况查看分析方法
百度用于抓取网页的顺序叫做Baiduspider – 百度蜘蛛,我们检查网站被百度抓取的状况次要是剖析,网站日志里百度蜘蛛Baiduspider的活泼性:抓取频率,前往的HTTP形态码。
检查日志的方式:
经过FTP,在网站根目录找到一个日志文件,文件名普通包括log,下载解压外面的记事本,这即是网站的日志,记载了网站被拜访和操作的状况。
由于各个效劳器和主机的状况不同,不同的主机日志功用记载的内容不同,有的甚至没有日志功用。
日志内容如下:
61.135.168.22 – - [11/Jan/2009:04:02:45 +0800] “GET /bbs/thread-7303-1-1.html HTTP/1.1″ 200 8450 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
剖析:
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
200 代表成功抓取。
8450 代表抓取了8450个字节。
假如你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是经过检查每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个标准的工夫表或频率数字,我们普通经过多日的日志比照来判别。当然,我们希望百度蜘蛛每日抓取的次数越多越好.
本文转自:徐文明的新浪博客http://www.niulaile.com,转载请保留链接。
欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/)
Powered by Discuz! X3.3