在全球海量的网站中,数量已高达数十亿,而搜索引擎的资源却相对有限,无法实现对每个网站的每日全面审视。因此,搜索引擎制定了策略,决定哪些内容应被优先抓取,以及何时进行抓取。
接下来,我们将分析搜索引擎的抓取配额机制如何深刻影响网站的排名,并分享如何借助Semrush来精准优化网站的SEO策略,从而提升网站在搜索引擎结果中的表现。
01 什么是抓取配额?
抓取配额是指Google等搜索引擎在一定时间内计划抓取的网站上的URL 数量。在规定时间内,搜索引擎将按计划对网站URL进行抓取。
02 为什么抓取配额对SEO很重要?
Google首先需要抓取您的网页并将其编入索引,然后才能对其进行排名。并且这些流程必须顺利进行,您的内容才能显示在搜索结果中,这是网站获取自然搜索排名和流量的前提。
>>>
大多数网站站长不需要太担心抓取配额。因为Google抓取网站的效率相当高。但在某些特定情况下,Google的抓取配额对网站SEO尤为重要:
01 网站页面非常多
如果您的网站很大且很复杂(10K+页面),Google可能不会立即找到新页面或经常重新抓取您的所有页面
02网站添加了大量新页面
如果网站频繁添加大量新页面,则抓取配额可能会影响这些页面的可见性;
03 网站存在技术问题
如果可抓取性问题阻碍搜索引擎有效地抓取您的网站,您的内容可能不会显示在搜索结果中。
03 Google如何确定抓取配额?
您网站的抓取配额由两个主要因素决定:
1 抓取需求
抓取需求是指Google根据感知的重要性对您的网站进行抓取的频率。有三个因素会影响您网站的抓取需求:
a.感知库存
Google通常会尝试抓取您网站上它所能识别的全部或大部分网页,除非您禁止Google抓取。例如如果您没有禁止Googlebot抓取重复页面和您已删除的页面,它每次仍可能会反复抓取这些页面。
b.受欢迎程度
Google通常会优先抓取具有更多反向链接(来自其他网站的链接)和流量较大的网页。这两者都可以向Google算法发出信号,表明您的网站很重要,值得更频繁地抓取。但注意,反向链接不能只追求数量,需相关性强且来源权威。
使用Semrush的反向链接分析工具查询网站各页面的反向链接情况。
我们可查看网站反向链接概况,点击 “编入索引页面” 选项卡,可按页面查看反向链接。
单击 “反向链接” 列,按反向链接最多的页面排序。
Semrush所列的页面都是Google最常抓取的页面,我们需留意那些反向链接较少的重要页面,并考虑实施反向链接策略,让更多网站链接到这些重要页面。
c.过时
搜索引擎的目标是以足够高的频率抓取内容,以便发现任何变化。但是,如果您的内容在一段时间内没有发生太大变化,Google可能会开始降低抓取频率。
例如,Google通常会大量抓取新闻网站,因为这些网站通常每天发布数次新内容。在这种情况下,网站的抓取需求很高。当然,这并不意味着您需要每天更新内容,只是为了让Google更频繁地抓取您的网站。Google的指导方针表示它只想抓取高质量的内容。因此,应优先考虑内容质量,而不是为了提高抓取频率而进行频繁、不相关的更新。
2抓取容量限制
抓取容量限制可防止Google机器人因过多请求而减慢您的网站速度,从而导致性能问题,它主要受您网站的整体健康状况和Google自身的抓取限制的影响。
a.网站的抓取健康状况
您的网站响应Google请求的速度会影响您的抓取配额。如果您的网站响应迅速,您的抓取容量限制就会增加。Google可能会更快地抓取您的网页。但如果您的网站速度变慢,您的抓取容量限制可能会降低。如果您的网站响应服务器错误,这也会降低限制。并且 Google可能会减少对您的网站的抓取频率。
提示:使用 Semrush Site Audit检查加载速度问题和服务器错误。以减少网站抓取容量限制下降的可能性。
b.Google 的抓取限制
Google没有无限的资源来抓取网站。这就是为什么首先要有抓取配额。基本上,这是Google确定最常抓取哪些页面的优先级的一种方式。如果由于某种原因Google的资源有限,这可能会影响您网站的抓取容量限制。
04 如何检查你网站的抓取情况?
Google Search Console (GSC) 提供有关Google如何抓取您的网站的完整信息。以及可能存在的任何问题以及抓取行为随时间发生的任何重大变化。这可以帮助您了解是否存在影响抓取配额的问题并可以进行修复。要查找此信息,请访问您的GSC属性并单击“Settings”。
在“Crawling”部分,您将看到过去90天内的抓取请求数量,单击 “OPEN REPORT” 以获取更详细的见解。
Google Search Console可以直接从源头提供有关您的抓取配额的有用信息。但其他工具可以提供您提高网站抓取能力所需的更详细的见解。
05 如何分析网站的可抓取性?
Semrush的项目(project)工具可以向您显示您的抓取配额被浪费的地方,并可以帮助您优化网站的抓取能力。
在这里,你会发现你网站的抓取配额有多少被浪费了,以及出现了哪些问题。例如临时重定向、永久重定向、重复内容和加载速度慢。单击任意一个栏都会显示存在该问题的页面列表。根据问题的不同,您将看到每个受影响页面的各个列中的信息。浏览这些页面并修复相应的问题。以提高您网站的可抓取性。
06 抓取配额优化的7个技巧
一旦您知道网站的抓取配额问题出在哪里,您就可以修复它们以最大限度提高抓取效率。我们可以做好以下工作:
01 提高网站速度
提高网站速度可以帮助Google更快地抓取您的网站。这可以更好地利用您网站的抓取配额。此外,这对用户体验 (UX) 和SEO也有好处。要检查页面加载速度,请返回之前设置的项目概览,然后单击“效果”框中的“查看详情”。您将看到页面加载速度和平均页面加载速度的细分,以及可能导致性能不佳的错误和警告列表。
有很多方法可以提高页面速度,包括:
a.优化图片:使用图片压缩器等在线工具来减少文件大小,而不会使图片变得模糊;
b.最小化代码和脚本:考虑使用Minifier.org等在线工具或WP Rocket等 WordPress 插件来最小化网站代码,以加快加载速度;
c.使用内容分发网络 (CDN):CDN是一个分布式服务器网络,可根据用户位置向其分发 Web 内容,以加快加载速度。
02 使用战略性内部链接
完善的内部链接结构可以让搜索引擎爬虫更轻松地找到并理解您的内容。这可以更有效地利用您的爬虫预算并提高您的排名潜力,同时,这也会为您的网站创建一个清晰且合乎逻辑的结构,方便用户和搜索引擎浏览。
为所有重要页面添加内部链接,以便 Google 更轻松地找到您最重要的内容。
这还可以帮助您避免无主页面(没有内部链接指向的页面)。Google仍然可以找到这些页面,但如果您有相关的内部链接指向它们,那么查找起来就容易多了。单击项目的 “内部链接” 框中的 “查看详情” 以查找内部链接的问题,您可看到网站内部链接结构的概览,包括从主页到每个页面需要点击多少次。
您还将看到错误、警告和通知的列表。这些内容涵盖诸如链接断开、内部链接上的nofollow 属性以及无锚文本的链接等问题。仔细检查并纠正每个页面上的问题,以便搜索引擎更轻松地抓取和索引您的内容。03
保持网站地图更新
拥有最新的XML站点地图是另一种让Google找到您最重要的页面的方法。添加新页面时更新站点地图可使这些页面更有可能被抓取。Google建议仅在站点地图中包含您希望出现在搜索结果中的URL,以避免浪费抓取配额。您还可以使用<lastmod>标签来指示您上次更新给定URL的时间。但这不是必需的。04
屏蔽你不想让搜索引擎抓取的URL
使用robots.txt文件(该文件会告诉搜索引擎机器人哪些页面应该被抓取,哪些页面不应该被抓取)来最大程度地减少Google抓取您不希望抓取的页面的机会。这有助于减少抓取配额浪费。
05 删除不必要的重定向
重定向会将用户(和机器人)从一个URL带到另一个URL。这会减慢页面加载时间并浪费抓取配额。如果您有重定向链,这种情况会特别成问题。当原始URL 和最终URL之间有多个重定向时,就会发生这种情况。像这样:
要了解有关在您的网站上设置的重定向的更多信息,请打开项目工具并导航到 “问题” 选项卡。在搜索栏中输入“重定向”以查看与您网站重定向相关的问题,点击 “原因及如何修复” 或 “了解更多” 以获取有关每个问题的更多信息。并查看如何解决问题的指导。
06 修复损坏的链接
断开的链接是那些不会引导至实际页面的链接,它们通常会返回404错误代码。这不一定是坏事。事实上,不存在的页面通常应该返回404状态代码。但大量指向不存在的损坏页面的链接会浪费抓取配额。因为机器人可能仍会尝试抓取它,即使页面上没有任何有价值的内容。07
消除重复内容
重复内容是指您的网站上有高度相似的页面。这个问题会浪费抓取配额,因为机器人实际上是在抓取同一页面的多个版本。重复内容有几种形式。例如,相同或几乎相同的页面(通常要避免这种情况)。或者由URL参数导致的页面变化(电子商务网站中很常见)。
07 通过定期网站诊断最大化网站的抓取配额
定期监控和优化网站的问题有助于搜索引擎找到您的内容。定期使用Semrush对网站进行全面分析,可使我们第一时间发现问题并针对性解决问题,提升网站在搜索引擎中的综合表现。
Semrush是全球知名数字营销工具,拥有包括:竞争对手流量分析,网站排名跟踪,外链分析,关键字研究,PPC广告分析,网站分析,社交媒体监控和内容规划等服务