源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 666|回复: 0
打印 上一主题 下一主题

[交流] 搜索引擎抓取流程是如何运行的?

[复制链接]

155

主题

155

帖子

223

金币

初级会员

Rank: 1

积分
555
QQ
跳转到指定楼层
1#
发表于 2013-12-9 17:30:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
第一步:查找引擎抓取互联网的页面。
咱们把查找引擎抓取页面的程序叫做“蜘蛛”或许“机器人”,“baidu蜘蛛”和“google机器人”即是指的baidu、google的爬取程序。
查找引擎蜘蛛会依照你的URL进行爬取。当查找蜘蛛爬取一个页面的时分若是看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到查找引擎的索引数据库。
蜘蛛的首要效果即是爬取,蜘蛛爬取的是网站程序的代码,而不是咱们大多数人以为的页面内容。
第二步:程序爬取的内容返回到索引数据库。
索引数据库对页面信息进行处置(包括页面地点URL、编码类型、页面内容包括的一切关键字、关键字方位、生成时刻、大小、与其它页面的连接联系等)。页面剖析之后,会对页面进行评估。若是是网上重复度太多的内容,索引数据库则放弃这个页面。这即是平常咱们遇到自个的文章被查找引擎录入了许多,可是过一段时刻后,有下降的缘由之一。
每个被录入的网站都会在查找http://www.qexzww.com/a/qieerxixinwen/2013/1209/173.html引擎的索引数据库中有相应的贮存,咱们在能够直接看到的即是baidu快照(googlecached)。查找引擎是依照他的索引数据库上的信息对网站进行排序的。索引数据库中还包括每个网站的导入连接,导出连接等信息。
第三步:索引数据库中排序。
当用户输入一个关键字或许是一句话的时分。他会对用户输入的关键字进行分词(SE自个的分词算法)。然后在索引数据库中进行相应的关键字排序成果输出。
通常情况下查找引擎会把取得的用户输入的关键字分为以下三种。
1、少于三个字的关键字。
2、常用词,比方:人名、地名等。
3、四个或许四个以上的一般组合关键字。
其间前两种都不需求进行分词,只要第三种需求分词。
用一句话归纳一下即是:抓取— 剖析、存储 — 排序输出 。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2025-2-8 19:09 , Processed in 0.082748 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明