首页 SEO Google SEO 抓取配额的12个建议

Google SEO 抓取配额的12个建议

如果您的网站没有大量快速变化的页面,或者您的页面在发布当天就被抓取,那么不断更新站点地图并定期检查索引覆盖范围就足够了。谷歌还规定必须对每个页面进行审查、整合和评估,以确定其抓取后的索引位置

优化您的网站,让谷歌更快地发现和索引您的内容,有助于提高网站的可见度和流量。互联网是一个不断演进的虚拟宇宙,拥有着11亿多个网站。你认为谷歌可以抓取世界上的每个网站吗?虽然谷歌拥有大量资源、资金和数据,但它不能也不想抓取整个网络。

什么是抓取配额?抓取配额重要吗?

抓取配额指的是谷歌爬虫在一个域名中抓取页面所花费的时间和资源量。

优化您的网站非常重要,因为这样谷歌能更快地找到您的内容并对其进行索引,以此提高网站的可见度和流量。

如果您拥有包含数百万个页面的大型网站,那么管理抓取配额尤为重要,这将帮助谷歌更易抓到您网站的重要页面,并更好地理解页面的内容。

谷歌指出:

“如果您的网站没有大量快速变化的页面,或者您的页面在发布当天就被抓取,那么不断更新站点地图并定期检查索引覆盖范围就足够了。谷歌还规定必须对每个页面进行审查、整合和评估,以确定其抓取后的索引位置。

抓取配额主要由两个因素决定:抓取速度限制和抓取需求

抓取需求是指谷歌希望在您的网站上进行抓取的程度。较受欢迎的页面,例如CNN的热门报道和有显著变化的页面,会被抓取得更多。

谷歌爬虫希望在不给您的服务器带来过大负担的情况下抓取网站。为防止这种情况发生,谷歌机器人会计算抓取速度限制,即谷歌爬虫可用于抓取网站的最大并连数,以及抓取之间的时间延迟。

结合抓取速度和抓取需求,谷歌将抓取配额定义为谷歌爬虫可以且希望抓取的URL集合。即使未达到抓取速度限制,在抓取需求较低时,谷歌机器人也会减少对网站的抓取。

以下是管理大中型网站(拥有10,000个URL到数百万个URL)抓取配额的12个建议:

01确定哪些页面重要,哪些页面不需要被抓取

确定哪些页面重要,哪些页面不值得抓取(谷歌会较少访问不重要的页面)。

通过分析确定这一点后,就可以知道网站上哪些页面值得抓取,哪些页面不值得抓取,并将其排除在抓取范围之外。

例如,Macys.com200多万个已编入索引的页面。

2023年6月,谷歌搜索 [site:macys.com] 的截图

该网站通过在robots.txt文件中通知谷歌不要抓取站点上的某些页面来管理其抓取配额。谷歌爬虫可能会认为不值得花时间查看网站的其他部分或增加抓取配额。因此要确保通过robots.txt文件阻止分面导航和会话标识符的访问。

02管理重复内容

虽然谷歌不会对重复内容进行处罚,但您还是希望向谷歌提供原创和独特的信息,以满足终端用户的搜索需求,并使其具有相关性和实用性。确保有使用robots.txt文件。

谷歌建议不要使用noindex标签,因为谷歌仍会请求但随后会放弃。

03使用robots.txt文件阻止抓取不重要的URL,并告诉谷歌可以抓取哪些页面

对于拥有数百万个页面的企业级网站,谷歌建议使用robots.txt文件来阻止抓取不重要的URL。

此外,您还要确保谷歌机器人和其他搜索引擎可以抓取您的重要页面、包含重要内容的目录以及关键页面。

04长重定向链

如果可能的话,请保持较少数量的重定向。过多的重定向或循环重定向可能会使谷歌产生困惑,并降低抓取限制。

谷歌指出,长重定向链可能会对抓取产生负面影响。

05使用HTML

使用HTML可以增加任何搜索引擎爬虫访问您网站的几率。

虽然谷歌机器人在抓取和索引JavaScript方面已经有所改进,但其他搜索引擎爬虫并不像谷歌那样复杂,因此可能会在HTML以外的其他语言方面出现问题。

06确保页面加载迅速,提供良好的用户体验

确保您的网站对网站核心指标(Core Web Vitals)进行了优化。

您的内容加载速度越快(即三秒以内),谷歌就能越快地向终端用户提供信息。如果用户喜欢您的网站,谷歌将继续索引您的内容,因为您的网站显示出良好的谷歌抓取健康状况,也可能会因此增加您的抓取配额。

07确保内容有用

谷歌认为,内容是根据质量而非页面新旧评估的。必要时需要创建和更新内容,但通过微小的改动和更新页面日期来人为地让页面看起来更新并没有额外的价值。

如果您的内容满足终端用户的需求,那么新旧并不重要,只要它有帮助且相关即可。

如果用户认为您的内容没有帮助且无关,那么建议您更新和刷新内容,使其更新、相关且有用,并通过社交媒体进行推广。

此外,在主页增加链接到您的页面,这样可能增加重要性,被抓取的次数也会更多。

08注意抓取错误

如果您删除了网站上的某些页面,请确保URL返回404或410状态,表示永久删除。404状态码表明将不再抓取该URL。

不过,被阻止的URL会在抓取队列中保留更长时间,并且将在阻止解除后被重新抓取。

此外,谷歌还规定要移除所有软404页面,这些页面将继续被抓取,浪费您的抓取配额。如要测试这一点,可以进入谷歌GSC并查看索引覆盖率报告,查找软404错误。

如果您的网站存在许多5xx HTTP响应状态码(服务器错误)或连接超时信号,抓取速度就会变慢。谷歌建议您密切关注搜索控制台中的抓取统计报告,并尽量减少服务器错误的数量。

另外,谷歌不会遵守非标准的“抓取延迟”robots.txt规则。

即使您使用了nofollow标签,但如果您网站上的其他页面或者任何其他页面未将该链接标记为nofollow,那么该页面仍可能被抓取,从而浪费抓取配额。

09及时更新站点地图

XML站点地图对于帮助谷歌发现您的内容并加快抓取速度非常重要。

以下几点至关重要:保持站点地图URL的更新,使用<lastmod>标签标记已更新的内容,以及遵循SEO最佳实践,包括但不限于以下几点:

  • 仅包含您希望被搜索引擎索引的URL。
  • 仅包含返回200状态码的URL。
  • 确保单个站点地图文件不超过50MB或少于50,000个URL。如果决定使用多个站点地图,请创建一个索引站点地图,列出所有站点地图。
  • 确保您的站点地图采用UTF-8编码。
  • 包含指向每个URL的本地化版本链接。
  • 及时更新站点地图,即每当有新的URL,或者旧的URL已更新或删除时,都要更新您的站点地图。

10建立良好的网络架构

拥有良好的网站架构对于SEO排名和索引以及用户体验至关重要。

网站架构可以在多方面影响搜索引擎结果页面(SERP)的结果,包括抓取能力、点击率和用户体验。

拥有清晰的网站架构可以有效利用抓取配额,从而帮助谷歌机器人找到任何新的或已更新的内容。

请始终牢记三次点击规则,即任何用户最多点击三次即可从网站上的任何页面跳转到另一个页面。

11 内部链接

网站越容易被搜素引擎抓取和浏览,抓取工具就越容易识别您的网站结构、上下文和重要内容。

建立指向某个页面的内部链接可以让谷歌知道该页面的重要性,有助于建立特定网站的信息层次结构,并有助于在整个网站中传播链接权益。

12时刻监控抓取统计数据

始终查看和监控GSC,以了解网站在抓取过程中是否存在任何问题,并寻找提高抓取效率的方法。

您可以使用抓取统计报告来查看谷歌机器人在抓取您的网站时是否遇到任何问题。

如果GSC报告了您网站的可用性错误或警告,请在主机可用性图表中查找谷歌爬虫请求超过红色限制线的情况,点击进入图表查看哪些URL存在问题,并尝试将其与您网站上的问题联系起来。

此外,您还可以使用URL Inspector工具来随机测试网站上的几个URL。

如果URL检测工具返回主机负载警告,这就意味着谷歌爬虫无法从您的网站中抓取到它所发现的多个URL。

总结

由于大型网站规模庞大、结构复杂,因此抓取配额优化对于大型网站来说至关重要。

由于页面和动态内容众多,搜索引擎爬虫在高效抓取和索引网站内容方面面临挑战。

通过优化抓取配额,网站所有者可以优先抓取重要和更新的页面并编制索引,确保搜索引擎合理有效地利用资源。

这一优化过程包括改进网站架构、管理URL参数、设置抓取优先级和消除重复内容等技术,从而提高搜索引擎的可见度,改善用户体验,增加大型网站的有机流量。

CrossBorderDigital,Google SEO+SEM整合营销服务商,Sermush国内独家金牌代理商,添加微信nanxipeng,专享正版75折Sermush以及咨询SEO代运营服务

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。

作者: CrossBorderDigital

Google SEO+SEM整合营销服务商,Sermush国内独家金牌代理商,致力于为进行全球业务拓展的中国企业提供服务. 专注于跨境数字营销全案,从品牌规划,广告投放,内容优化,SEO到销售线索获取,包括整体和各环节的规划与落地

为您推荐

7个SEO效果进行考核的指标

我们怎么去判定网站的SEO效果做得好不好呢?跟着小编从以下7大指标来进行考核吧

ASO优化指南:掌握应用商店优化的7个关键点

了解应用商店优化 (ASO)的基础要素,提升应用程序的可见性、增加自然安装量,并降低获客成本

如何利用Semrush找到低竞争难度的关键词

如果你能够了解困难关键词和低竞争难度关键词之间的区别,就可以开始寻找低竞争度关键词,并添加至你的SEO 计划中

如何用 Semrush AI Writing Assistant 四步写出高质量文章

AI Writing Assistant是一款强大的Semrush 应用程序,它集合了75 种不同的 AI 内容生成工具,比如博客和文章内容、社交媒体和广告、营销和电子商务工具等

语义化SEO的10个最佳实践

语义化SEO是指围绕主题或用户需求(而非仅针对关键词)来优化内容的过程,当用户搜索相关词时,从而能获得更好的排名

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部