地址库于文件存储和爬行检测

luyunsky · 发表于 2013-12-15 16:39:52

　　搜索引擎为了避免重复性的工作浪费大量的时间于资源会建立一个地址库，这里面记载了已经被抓取和访问的链接，也记录了已经被发现但是还没有去抓取和爬行的页面比如那些从其他网站看到的链接但是还没有来得及去访问的链接。地址库的来源通常有人工录入的一些比较优秀的网站，这样的网站会的搜随引擎的大量的支持。当蜘蛛抓取了页面之后会从HTML中判断有没有新的链接，如果有则和地址库中的检验这个URL有没有被抓取过，如果没有责爬行。站长向搜索引擎提交也是一种得到搜索引擎注意的一种方式。

　　蜘蛛存入原始页面数据库的HTML和网民看到的是一样的，不同的是在数据库中他们都被重新编辑了新的ID。有的站长看到蜘蛛经常来爬行，就是看不到搜索引擎的收录，其实是因为页面都是一些伪原创或者直接复制来的定西，在蜘蛛爬行的时候这个检验就已经开始了。当发现大量的伪原创转载的时候蜘蛛不会继续爬行是以站长一定要认真对待自己的的站呢，尽量写一些原创的文章和内容。这样才有好的权重蜘蛛才会精彩来。利于爬行和抓取利于排名。http://zybdf.ycnews.cn/syzybdf

		自动登录	找回密码
密码			会员注册

[交流] 地址库于文件存储和爬行检测