加入收藏RSS订阅SEO教程 SEO优化 SEO自学 网站优化
你的位置:首页 » SEO教程 » 正文

搜索引擎工作原理之页面收录,搜索引擎对页面的收录

选择字号: 超大 标准 发布时间:2014-8-14 10:37:42 | 作者:Searcheo | 0个评论 | 人浏览

本文地址:http://www.searcheo.cn/post/189.html 转载请注明出处!

    搜索引擎收录页面实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定搜索引擎可提供的信息量及对互联网覆盖的范围,从而决定搜索引擎的质量。因此,搜索引擎总是想方设法地提高其数据采集能力。

    我们先介绍搜索引擎收录页面的流程及方式,再介绍搜索引擎对已收录页面的存储及维护方式。

1、页面收录流程

    在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取得页面的。搜索引擎蜘蛛程序从URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取足够多的页面,如下图所示。

    URL是页面的入口,而域名则是网站的入口。搜索引擎蜘蛛程度通过域名进入网站,从而展开对网站页面的抓取。换而言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取网站中的页面。

    而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的方法。

    第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名。对于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较被动,从域名提交到网站被收录的时间也比较长。

    第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做法的主动权掌握在我们自己的手里(只要我们拥有足够多高质量的链接即可),且收录速度也比向搜索引擎主动提交要快得多。根据外部链接的数量、质量及相关性,一般情况下,2-7天左右就会被搜索引擎收录。

2、页面收录原理

    通过上面的介绍,相信大家已经掌握了加快网站被搜索引擎收录的方法。然而,怎么样才能提高网站中页面被收录的数量呢?要回答这个问题,就要先了解搜索引擎收录页面的工作原理。

    如果把网站页面绘成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面。同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是被访问过,将未访问的URL加入URL列表中。递归地扫描URL列表,直到耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表存储足够多的原始页面,如下图所示

3、页面收录方式

    上面已经介绍了搜索引擎收录页面的流程及原理。然而,在互联网数以亿计的页面中,搜索引擎怎么样才能从中抓取得到相对重要的页面呢?这就设计搜索引擎的页面的收录方式。

    页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出相对重要的信息。页面收录方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,收录的页面数自然也就更多。因此,加深对搜索引擎页面收录方式的认识,有利于为网站建立友好的结构,提高页面被收录的数量。

    搜索引擎收录页面的方式主要有广度优先、深度优先及用户提交三种,下面来介绍这三种页面收录方式及各自的优缺点。

    ■广度优先

    如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直到抓取完同层次的所有页面后才进入下一层。因此,在对网站进行优化时,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如:在首页上推荐一些热门产品或者内容)。反过来,通过广度优先的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。

    首先,搜索引擎多网站首页出发,抓取首页上所有的链接指向的页面,形成页面集合A,并解析出集合A中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成页面集合B;就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直到满足了某个设定的条件才停止抓取进程。

    ■深度优先

    与广度优先的抓取方式相反,深度优先首先跟踪浅层页面中的某一链接逐步抓取深层页面,直到抓取完最深层的页面后才返回浅层页面再跟踪其另一链接,继续向深层页面抓取,这是一种纵向的页面抓取方式。使用深度优先的抓取方式,殷墟引擎可以抓取到网站中较为隐蔽、冷门的页面,这样就能满足更多用户的需求。

    ■用户提交

    为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面。网站管理员只需要把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取及更新。

    这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率及技师 而对于网站本身来说,这也大大提高了网站页面被收录的数量。

    为了提高 抓取页面的效率及质量,搜索引擎会结合多种方式去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽量宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更多隐蔽的页面;再后,结合用户提交的信息,抓取那些被遗漏的页面。

4、怎么样避免重复性收录

    在互联网中,信息的重复是在再难免的。然而,搜索引擎怎么样识别重复信息呢?怎么样判断哪些网页的信息是原创的,哪些是“复制”的?又会认为哪些重复的信息是有价值的,哪些又是可以舍弃的?下面我们来详细讲解。

    在网站中,重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对页面进行分析时,必须具备识别重复信息的能力。因为,大量的重复信息不但占用巨大的服务器硬盘空间,而且还会增加用户找信息的时间,影响用户体验。但这并不意味着所有重复信息都是没有价值的,搜索引擎认为转载内容不如原创内容重要,赋予原创性内容页面更高的权重,而镜像内容则几乎完全被忽略。

    ■转载页面

    转载页面是指那些与原创页面正文内容相同或者相近的页面。然而,搜索引擎如何识别转载页面呢?首先,把网页正文内容分成N个区域,如果有M个区域是相同或者相似的,则搜索引擎认为这些页面互为转载页面。

    在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最后修改时间、页面权重等因素判断是原创页面还是转载页面。

    ■镜像页面

    内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个区域的内容都完全一样,则认为这些页面互为镜像页面。然后再综合多项因素,如页面权重值、页面最后修改时间等识别哪个是源页面,哪个是镜像页面。

    ■镜像网站

    狭义的镜像网站是指内容完全相同的网站,形成镜像网站的主要有两种情况:每一种是多个域名或者IP指向同一服务器的同一个物理目录另一种是整个网站内容被复制到使用不同域名或者IP的服务器上。

    为了识别站点是否互为镜像网站,搜索引擎首先判断这些网站的首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互为镜像网站。然后再综合多项因素如网站权重值、建立时间等识别哪个是源网站,哪个是镜像网站。这些,以后抓取页面就集中在源网站中进行,这也是为什么搜索引擎对于镜像网站只收录极少页面,甚至不收录页面的原因。

5、页面维护方式

    由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新。因些,搜索引擎还需要对已抓取的页面进行维护,以便能及时获取页面中最新的信息及抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取及分类定位抓取。

    ■定期抓取

    定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已收录的页面进行全面全新。更新时,用抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已收录的页面。因此更新周期会比较长。

    定期抓取算法的实现相对简单。由于每次更新涉及网站中所有的已收录的页面,因此页面权重的再分配也是同步进行的。这种方式适用于维护页面较少、内容更新缓慢的网站。但是,由于更新周期十分漫长,这就导致不能及时向用户反映更新期间页面的变化情况。例如,某个页面内容更新后,需要在1到2两个月才能在搜索引擎上面有所体现。

    ■增量抓取

    增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控的做法是不现实的。基于重要页面携带重要内容的思想以及80/20法则,搜索引擎只需要对网站中部分重要页面进行定时监控,即可获取网站中相对重要的信息。因些,增量抓取只针对某些重要页面,而非所有已收录的页面,这也是为什么搜索引擎对重要页面的更新周期会理智的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。

    由于增量抓取是在原有页面的基础上进行的,因此会大大的缩减搜索引擎的抓取时间,而且还可以及时向用户展示页面中最新的内容。

    ■分类定位抓取

    与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的类别或者性质页制定相应更新周期的页面监控方式。例如,对于“新闻资讯”与“资源下载”这两类页面,新闻资讯类页面更新周期可以精确到每分钟,而下载类页面的更新周期就可以定为一天或者更长。

    分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大量的抓取时间,并大大提高了页面内容的实时性,也增强了页面抓取的灵活性。但是,按照类别而制定页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是相同类别的页面,在不同网站上内容的更新时间也会存在很大的差别。例如新闻类页面,在大型门户网站中内容的更新速度就会比其他小型网站快得多。所以,还需要结合其他的方式如增量抓取等对页面进行监控、更新。

    实际上,搜索引擎对网站中页面的维护也是结合多种方式进行,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减少搜索引擎的负责,又可以为用户提供及时的信息。

    例如在一个网站中,会存在多种不同性质的页面,常见的包括首页、论坛页面、内容页面等。对于更新比较频繁的页面(如首页),可以使用增量抓取方式对其进行监控,这样就可以对网站中相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页面,还需要采用定期抓取的方式。

6、页面存储

    在之前的内容里,我们已经知道了搜索引擎对页面的抓取及维护方式。接着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能满足接下来的工作对数据的需求。

    页面是搜索引擎对网站进行信息处理的基础,搜索引擎大部分工作都是在页面上开展的。但是,仅仅依靠页面中的内容并不能满足搜索引擎对数据处理的需求。搜索引擎能否在抓取页面的过程中获得更多有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以,搜索引擎在抓取页面蝗,除了存储原始页面之外,还会附加一系列的信息,比如文件类型、文件大小、最后修改时间、URL、IP、地址、抓取时间等,再把这些信息作为开展某项工作的依据。例如,如果某个文件过大,就可能会被搜索引擎放弃索引;而最后修改时间则暗示了页面更新的日期等。


标签:  

SEO教程网

猜你喜欢

发表评论

必填

选填

选填

必填,不填不让过哦,嘻嘻。

记住我,下次回复时不用重新输入个人信息

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站长推荐的文章
浏览最多的文章
无觅相关文章插件,快速提升流量