SEO教程提供SEO基础入门教程
微笑SEO优化教程网:关注本站让你的SEO不断进步!

排名原理:有效索引和缓存机制

您现在的位置:SEO教程 > SEO优化教程 > 时间:2018-07-07 09:39:22 > 作者:smiseo
有效索引和缓存机制:现在百度抓取到本地并进行索引的网页已经以千亿计,如果每一个用户提交查询时,百度搜索从这几千亿个网页中进行检索,相信不论百度的服务器集群多么牛,都不能快速响应每天这么多网友的搜索查询。即使勉强能够应付用户的搜索,反应速度和效率也会非常低下。既为了节省资源又为了提升响应速度,搜索引擎一般会引入有效索引和缓存模块。
 
有效索引:面对如此巨大数量的网页,任何一个常规关键词都可能匹配出几万、几十万甚至上亿的网页。但是大部分用户一般都只浏览搜索结果的前三页,这样搜索引擎就没有必要响应每次搜索时都对全部的索引文件进行检索,只需要对一个适当数量范围内的索引文件进行检索就可以了。

并且搜索引擎一般不会把检索到的所有相关网页都呈现给用户,而只是呈现1000个左右的结果,比如,百度最多呈现760个结果,Google最多呈现1000个结果。所以搜索引擎只要建立一个能够满足大众搜索请求的小范围网页索引集合也就是有效索引就可以了。

稍微有过SEO经验的朋友应该就有这种经验:一个新网站的网页,搜索网页的URL发现百度是收录的,但是搜索网页包含网站品牌词的Title却搜索不到。对于老网站来说这是降权的现象,对于新网站来说就是这个新网页的权重比较低,并没有参与排名计算。例如在百度中搜索,笔者原创并发布在个人博客上的一篇文章的URL,百度已经收录了。但是直接搜索该页面的Title时,在百度搜索结果中却找不到这个页面,并且为了使得这个搜索词和网页建立唯一的对应关系,搜索词为网页的Title而不只是文章标题。理论上全互联网只有笔者博客上的这个网页符合搜索请求,百度既然己经索引,那么就应该在搜索结果第一的位置呈现出来,但是百度并没有这么做。
 
找不到这个页面

如果百度是在己索引的全部文件中进行检索,肯定就会把这个网页呈现出来了(权重正常的网站都可以)。搜索Title时,百度并没有呈现出这个网页,代表这个网页并没有在百度的有效索引库中。出现这种情况一般是两种原因:该网页的权重太低,或者该网站已被降权。有很多网站的首页都是这种情况,直接搜索域名是有收录的,如果只是搜索目标关键词却没有排名,那可能是算法微调或更新,但是如果搜索几乎是独一无二的Title都找不到网站,那就要小心了,可能是被降权了,或者是降权的前兆。这个例子就体现出了搜索引擎拥有“有效索引”的模块,但是搜索引擎内部可能不叫有效索引,可能是叫“一级索引数据”“初始子集”之类的名字。

从这里也可以看出搜索引擎的“有效索引”应该是和网页权重挂钩的,有效索引库中是权重正常参与搜索排名的网页,其他低权重的网页可能就被列入了“无效索引”中,以备他用。当然在真实的大型搜索引擎中的索引库级别肯定不会只有“有效”和“无效”索引库两个级别,而是有一个多级别并伴随很复杂算法的索引系统。另外,也有可能搜索引擎并没有对索引进行明确分类,而是搜索用户只需要一小部分网页,搜索引擎只需要从整个索引库中抽取按照重要程度排序后比较靠前的一些网页来进行检索、排序和呈现就可以了,也就是说有些网页没有参与到排序并不是一定被归为“无效索引”,而只是暂时权重不是很高,两者还是有本质区别的。
 
在SEO工作中,提升网站和网页的权重是一个很重要的工作,并且提升网站的有效收录也是一个很重要的工作方向,这里的“有效收录”指的是在搜索引擎中不仅仅搜索内容标题和网页Title有排名,搜索网页所涉及的关键词也会有相关排名,并且可以带来搜索流量的网页。
 
缓存机制:缓存就是临时文件交换区,是可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速率极快。现在为了加快用户查询的响应速度,缓存几乎成了搜索引擎的标配。搜索引擎会把一些用户经常搜索的关键词的搜索结果放入到缓存中,这样当该关键词再次被搜索时,就可以直接从内存中调取搜索结果,而不必再从索引库中进行重新检索和排名。缓存机制的引入,不仅加快了搜索引擎对用户搜索的反应速度,也减少了搜索引擎对数据的重复计算。
 
用户的搜索请求中,少数查询词占了查询总数的相当大比例,而大多数查询词单个出现的次数都非常少,类似于长尾理论。因此搜索引擎把用户经常查询的“少量”关键词的搜索结果存放于缓存中,就可以应对大多数用户的搜索请求了。整个搜索引擎的缓存机制中还会涉及缓存淘汰和缓存更新机制。

因为搜索引擎的缓存也不是无限的,肯定有满载的时候,此时就需要有合理的淘汰机制,把使用频率小的搜索结果剔除,补充进来使用频率大的搜索结果,来保证缓存空间中的内容可以响应及命中当下尽可能多的用户搜索请求。同时网页和索引库中的文件内容随着时间的变化也会有所变动,为了使得缓存中的结果和网页内容同步,此时就需要有合理的缓存更新机制。

解释一下缓存更新机制:搜索引擎为了节省资源,不可能对缓存中的内容进行实时更新,而是会选择在午夜等搜索请求比较少的时间段进行更新缓存,所以用户在不同时间搜索同一个关键词得到的结果可能是不同的,但是一般在较短时间内的重复搜索会得到相同的搜索结果。现在的搜索引擎会分析搜索词的属性,并根据搜索词的属性调整缓存的更新频率,比如,现在百度的“最新相关信息”“最新相关微博”等实时性搜索的缓存更新频率和普通词缓存更新频率肯定是不同的。需要说明的是,现在大型搜索引擎的缓存都不是简单地直接缓存关键词的搜索结果,而是拥有很复杂的缓存结构和数据,一般是多级结构的,同时提升搜索引擎的响应速度和缓存数据的命中搜索范围。

排名原理:有效索引和缓存机制
 
这里要特别注意一下“有效索引”和“缓存”这两个模块,站长和SEO人员所留意到的很多问题其实都可以在这两个模块的原理中找到答案。在第3章快照、site命令等基础内容介绍部分进行详细讨论。
 
本文出自微笑SEO优化教程网,未经允许不得转载:排名原理:有效索引和缓存机制 http://jc.smiseo.com/seoyhjc/254.html