源码论坛公告:本站是一个交流学习建站资源的社区论坛,旨在交流学习源码脚本等资源技术,欢迎大家投稿发言! 【点击此处将锦尚放在桌面

源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

 找回密码
 会员注册

QQ登录

只需一步,快速开始

查看: 676|回复: 0
打印 上一主题 下一主题

[交流] 搜索引擎抓取流程是如何运行的?

[复制链接]

293

主题

294

帖子

62

金币

初级会员

Rank: 1

积分
330
QQ
跳转到指定楼层
1#
发表于 2013-12-9 15:07:53 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
搜索引擎抓取流程是如何运行的?

第一步:搜索引擎抓取互联网的网页。
我们把搜索引擎抓取网页的程序叫做“蜘蛛”或者“机器人”,“百度蜘蛛”和“google机器人”就是指的百度、谷歌的爬取程序。
搜索引擎蜘蛛会按照你的URL进行爬取。当搜索蜘蛛爬取一个网页的时候如果看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引数据库。
蜘蛛的主要作用就是爬取,蜘蛛爬取的是网站程序的代码,而不是我们大多数人认为的网页内容。
第二步:程序爬取的内容返回到索引数据库。
索引数据库对网页信息进行处理(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。网页分析之后,会对网页进行评价。如果是网上重复度太多的内容,索引数据库则舍弃这个网页。这就是平时我们遇到自己的文章被搜索引擎收录了很多,但是过一段时间后,有降低的原因之一。
每个被收录的网站都会在搜索引擎的索引数据库中有相应的储存,我们在可以直接看到的就是百度快照(谷歌cached)。搜索引擎是按照他的索引数据库上的信息对网站进行排序的。索引数据库中还包含每个网站的导入链接,导出链接等信息。
第三步:索引数据库中排序。
当用户输入一个关键词或者是一句话的时候。他会对用户输入的关键词进行分词(SE自己的分词算法)。然后在索引数据库中进行相应的关键词排序结果输出。
一般情况下搜索引擎会把获得的用户输入的关键词分为以下三种。
1、少于三个字的关键词。
2、常用词,比如:人名、地名等。
3、四个或者四个以上的普通组合关键词。
其中前两种都不需要进行分词,只有第三种需要分词。
用一句话概括一下就是:抓取— 分析、存储 — 排序输出 。本文由户外太阳伞厂家http://www.xiangyunyuju.com/products-detail.asp?cpid=84整理,转载以链接形式注明。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 分享分享
您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

锦尚中国源码论坛

聚合标签|锦尚中国,为中国网站设计添动力 ( 鲁ICP备09033200号 ) |网站地图

GMT+8, 2024-11-16 18:45 , Processed in 0.116957 second(s), 26 queries .

带宽由 锦尚数据 提供 专业的数据中心

© 锦尚中国源码论坛 52jscn Inc. 非法入侵必将受到法律制裁 法律顾问:IT法律网 & 褚福省律师 锦尚爱心 版权申诉 版权与免责声明