源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 583|回复: 0
打印 上一主题 下一主题

[交流] 地址库于文件存储和爬行检测

[复制链接]

238

主题

237

帖子

75

金币

初级会员

Rank: 1

积分
316
QQ
跳转到指定楼层
1#
发表于 2013-12-15 16:39:52 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  搜索引擎为了避免重复性的工作浪费大量的时间于资源会建立一个地址库,这里面记载了已经被抓取和访问的链接,也记录了已经被发现但是还没有去抓取和爬行的页面比如那些从其他网站看到的链接但是还没有来得及去访问的链接。地址库的来源通常有人工录入的一些比较优秀的网站,这样的网站会的搜随引擎的大量的支持。当蜘蛛抓取了页面之后会从HTML中判断有没有新的链接,如果有则和地址库中的检验这个URL有没有被抓取过,如果没有责爬行。站长向搜索引擎提交也是一种得到搜索引擎注意的一种方式。

  蜘蛛存入原始页面数据库的HTML和网民看到的是一样的,不同的是在数据库中他们都被重新编辑了新的ID。有的站长看到蜘蛛经常来爬行,就是看不到搜索引擎的收录,其实是因为页面都是一些伪原创或者直接复制来的定西,在蜘蛛爬行的时候这个检验就已经开始了。当发现大量的伪原创转载的时候蜘蛛不会继续爬行是以站长一定要认真对待自己的的站呢,尽量写一些原创的文章和内容。这样才有好的权重蜘蛛才会精彩来。利于爬行和抓取利于排名。http://zybdf.ycnews.cn/syzybdf
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 09:58 , Processed in 0.095030 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明