源码论坛,商业源码下载,尽在锦尚中国商业源码论坛

标题: 搜索引擎面对五大的问题 [打印本页]

作者: 582388360    时间: 2015-5-17 14:37
标题: 搜索引擎面对五大的问题

    1.页面抓取需求快而全面
    互联网是一个静态的内容网络,每天有无数页面被更新、创建,无数用户在网站上发布内容、沟通联系。要返回最有效的内容,搜刮引擎就要抓取最新的页面。但是由于页面数量庞大,搜刮引擎蜘蛛更新一次数据库中的页面要花很长时间。搜刮引擎刚诞生时,这个抓取周期往往以几个月计算。这也就是Google在2003年以前每月有一次大更新的原因所在。
    此刻主流搜刮引擎都已经能在几天以内更新重要页面,权重高的网站上的新文件几小时甚至几分钟以内就会被支录。不过,这种快速支录战更新也只能局限于高权重网站。很多页面几个月不被重新抓取战更新,也黑白常常见的。
    要返回最好的成果,搜刮引擎也必须抓取尽可能全面的页面,这就需求解决很多手艺问题。一些网站并不利于搜刮引擎蜘蛛爬行战抓取,诸如网站链接构造的缺陷、大量运用Flash、JavaScript脚本,或者把内容放在用户必须登录以后才能访问的部分,都增大了搜刮引擎抓取内容的易度。
    2.海量数据存储
    一些大型网站单是一个网站就有百万千万个页面,可以念象网上所有网站的页面加起来是一个什么数据量。搜刮引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据构造必须合理,具备极高昀扩展性,写入及访问速度要求也很高。
    除了页面数据,搜刮引擎还需求存储页面之间的链接关系及大量历史数据,这样的数据量是用户无法念象的.据说Google有几十个数据中心,上百万台服务器。这样大规模的数据存储战访问必然存在很多手艺挑战。
    我们经常在搜刮成果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时辰网站数据也可能丢失。这些都可能与大规模数据存储的手艺易题有关。
    3.索引处置快速有效,具可扩展性
    搜刮引擎将页面数据抓取战存储后,还要进行索引处置,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行PR之类的迭代计算也是耗时费力的。要念及时提供相关又及时的搜刮成果,仅仅抓取没有效,还必须进行大量索引计算。由于随时都有新数据、新页面插手,因此索引处置也要具备很好的扩展性。
    4.查询处置快速精确
    查询是普通用户唯一能看到的搜刮引擎工作步骤。用户在搜刮框输入关键词,单击“搜刮”按钮后,通常不到一秒钟就会看到搜刮成果。外观最简朴的过程,真际上涉及非常复杂的后台处置。在最后的查询阶段,最重要的易题是怎样在不到一秒钟的时间内,快速从几万、几百万,甚至几千万包括搜刮词的页面中,找到最合理、最相关的1000个页面,而且按照相关性、权威性排列。
    5.判断用户意图及人工智能
    应该说前4个挑战此刻的搜刮引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段。不同用户搜刮相同的关键词,很可能是在寻找不同的东西。比如搜刮“苹果”,用户到底是念了解苹果这个生果,还是苹果电脑?还是电影《苹果》的信息?没有上下文,没有对用户个人搜刮风俗的了解,就完全无从判断。
    搜刮引擎目前正在致力于基于用户搜刮风俗及历史数据的了解上,判断搜刮意图,返回更相关的成果。此后搜刮引擎是否能达到人工智能水平,真正了解用户搜刮词的意义战目的,让我们拭目以待。
来源自:上海网站建设
http://txt.qire.me/




欢迎光临 源码论坛,商业源码下载,尽在锦尚中国商业源码论坛 (https://bbs.52jscn.com/) Powered by Discuz! X3.3