Crawl Budget - Qu’est-ce que c’est ?

Le « Crawl Budget », que l’on peut traduire littéralement par « budget d’exploration », est fréquemment abordé ces temps-ci. On peut le définir comme l’association de différents facteurs qui conduit à l’indexation des pages d’un site web sur les moteurs de recherche. Mais comment l’index d’un site web est-il mis à jour, et quels sont les paramètres les plus importants pris en compte dans le Budget Crawl ?
 

Comment définir le Crawl Budget ? 

 
Comme l’ensemble des moteurs de recherche, Google analyse régulièrement chaque site web afin de mettre à jour son index. Pour réaliser cette opération, Google utilise des robots, lesquels ont pour mission d’explorer toutes les pages dudit site web en cliquant sur les liens rencontrés et en sauvegardant les moindres éléments des pages visitées. Cette étape essentielle du processus d’analyse d’un site web se nomme « Crawl ».
 
Mais Google va plus loin et a progressivement introduit la notion de « Crawl Budget », principe qui correspond en quelque sorte au temps alloué par le moteur de recherche à l’exploration d’un site web. Théoriquement, plus un site est riche en pages et en contenu, plus le Crawl Budget concédé est important.
 

Les facteurs pris en compte par Google

 
Il convient de souligner que seuls les gros sites (ceux qui comportent des milliers d’URLs) sont concernés par le Crawl Budget. Qui plus est, deux critères majeurs sont pris en compte dans le calcul de ce dernier :
 
La vitesse d'exploration : les Googlebots peuvent effectuer un Crawl plus ou moins rapide selon le temps de réponse du serveur. Si ce dernier envoie des codes d’erreur, l’exploration de la page mettra plus de temps.
 
La nécessité d’exploration : un site statique ou dont le contenu n’est pas régulièrement mis à jour ne sera pas crawlé aussi souvent qu’un autre. 
 
Il faut donc comprendre que le Crawl Budget est fixé en fonction du nombre d’URL qui doivent être examinées, mais pas uniquement ! La vitesse et la nécessité d’exploration sont deux autres critères majeurs.
 
Pour terminer, nous vous ferons remarquer que Google a clairement indiqué qu’il était important de ne pas gaspiller les ressources des robots inutilement. Ainsi, tout contenu en double mais aussi les pages d’erreur 404, le spam et les pages d’identifiants de connexion doivent être prohibés car ils font perdre un temps précieux aux robots de Google.
 Back to news
Français English