Le « Budget crawl » représente les ressources de temps-machine allouées par un moteur de recherche à l’exploration de votre site. Cette notion, dont on parle très souvent depuis quelques temps, doit être prise en compte dans certains cas. Alors, comment Google calcule-t-il ce « crawl budget » et surtout, votre site est-il concerné ?

On entend régulièrement parler de « budget d’indexation » (ou budget d’indexation) dans le monde du référencement naturel. Ce terme représente le temps machine que les moteurs de recherche alloueront à un site lors de l’indexation. Avec l’augmentation exponentielle du nombre de pages que Google et les autres moteurs vont indexer, il est nécessaire d’améliorer le budget d’indexation pour que les moteurs se concentrent sur l’essentiel. Ils doivent non seulement découvrir de nouvelles pages, mais aussi rafraîchir celles qui sont connues dans leur index.

Plusieurs leviers sont à notre disposition pour améliorer ce « budget d’indexation », comme l’appelle Google (restreindre la recherche aux pages pertinentes, améliorer les temps de chargement, etc.), afin de contrôler ensuite l’indexation et de s’assurer de l’efficacité de l’optimisation effectuée.

Dans cet article, nous allons dissiper certains mythes et voir que tous les sites Web n’ont pas de problèmes avec leur budget d’indexation. Mais d’abord, rappelons-nous ce qu’est l’indexation Google.

Rappel sur le fonctionnement du moteur

Afin de proposer des résultats pertinents sur ses pages de résultats, Google doit visiter et mettre à jour un grand nombre de pages qu’il stockera dans son index, afin de satisfaire les besoins d’information des internautes à travers ses pages de résultats. La recherche Google fonctionne donc en 3 étapes :

À Lire  Serpple, un outil pour gérer vos positions dans les résultats des moteurs de recherche

C’est la phase de recherche qui sera détaillée dans cet article (en rouge ci-dessous) : Google doit visiter de nouvelles URL et les ajouter à l’ensemble des pages déjà connues.

Le processus d’indexation, d’indexation et de classement.

Nous savons que Google utilise des liens sous la forme <a href= »/url »>Ancre</a> pour découvrir de nouvelles URL, qui seront ajoutées à la file d’attente d’indexation. Mais le crawl ne se limite pas aux pages Web…

En effet, l’indexation peut faire référence à différents types de fichiers tels que des images, des fichiers PDF, mais aussi des styles CSS ou des fichiers Javascript. Google a besoin que ces fichiers JS et CSS soient au plus proche de ce que verra l’utilisateur : il faut donc rappeler que le moteur ne se limite pas aux liens qu’il va découvrir grâce au < un href= »/url « > pendant sa phase de recherche, mais aussi de visiter des ressources complémentaires.

Bien que cette détection d’URL se fasse en théorie via des balises standardisées (<><link><script><img>, etc.), le moteur de recherche de Google (Googlebot) peut également suivre les URL sans les inclure dans les balises HTML . Ainsi, une URL sans lien dans le corps du texte sera également visitée par ses robots : tout ce qui ressemble à une URL dans le code source de la page peut potentiellement être indexé par Googlebot (ce qui peut parfois présenter un avantage, notamment lorsque il détecte les URL partielles dans le code Javascript du segment).

Le moteur de rendu WRS

La machine veut être aussi proche que possible de ce que voient les utilisateurs finaux, elle passe donc par le processus de rendu (WRS = Web Rendering Service) en interprétant les styles et les fichiers Javascript, ce qui implique qu’elle doit également visiter ces fichiers.

[Cet article est disponible dans son intégralité aux abonnés sur le site Réacteur. Pour plus d’informations : https://www.reacteur.com/2022/11/comment-apprehender-au-mieux-le-budget-de-crawl-sur-son-site.html]

Article rédigé par Aymeric Bouillat, Consultant SEO Senior chez Novalem.