MinimalAuditor
Auditoría de marketing

Crawl budget para sites pequeños: por qué importa aunque tengas 50 páginas

Crawl budget se asocia a sites grandes, pero también afecta a sites pequeños. Esta guía explica cuándo te impacta y qué hacer si tu sitio tiene 50-500 páginas.

Gonzalo Fischer6 min de lectura

Qué es crawl budget

Crawl budget es la cantidad de URLs que Googlebot decide visitar de tu sitio en un período (típicamente día o semana). Google calcula este budget basándose en:

  • Crawl rate limit: cuántas solicitudes simultáneas tu servidor puede manejar sin colapsar.
  • Crawl demand:qué tan “interesante” considera tu sitio (popularidad, frescura, autoridad).

Cuándo importa en sites pequeños

Para un blog corporativo con 50 páginas estables y rápidas, crawl budget rara vez es problema. Google rastrea todo sin esfuerzo.

Pero hay 3 escenarios donde un site pequeño tiene problemas:

  1. Generación masiva de URLs variantes. Tienda con 50 productos pero filtros que generan 5000 combinaciones (color + talla + marca + orden). Googlebot se pierde en variantes.
  2. Errores 4xx/5xx persistentes. 50 páginas, 30 devuelven 404 o 500. Googlebot pierde su budget en URLs muertas.
  3. Cadenas de redirects. URLs viejas redirigen a URLs viejas que redirigen a URLs nuevas. Cada hop consume budget.

Cómo detectar problemas

Tres lugares para mirar:

  1. Search Console > Estadísticas de rastreo. Solicitudes por día, tiempo medio de respuesta, tamaño descargado. Si las solicitudes caen mes a mes sin causa obvia: problema.
  2. Search Console > Indexación. URLs descubiertas vs indexadas. Si descubre 1000 pero indexa 200, hay disonancia.
  3. Logs del servidor. Filtrar por User-Agent Googlebot. Ver qué URLs visita y con qué frecuencia. Es la fuente más precisa.

3 causas comunes

  1. Filtros y parámetros sin canonical. Una tienda con ?color=rojo&orden=precio genera infinitas variantes. Sin canonical, Googlebot las trata como URLs únicas.
  2. Paginación profunda. Blog con 200 posts paginados de 10 en 10 = 20 páginas de paginación. Si cada una tiene rel=next/prev mal o sin canonical, drena budget.
  3. URLs huérfanas en sitemap. Páginas que están en sitemap pero ya no enlazadas internamente. Googlebot las visita sin saber qué hacer con ellas.

Cómo mejorar tu crawl budget

  1. Limpiar errores 4xx.Search Console > Indexación > lista de páginas no indexadas. Fix las que sean legítimas (redirect 301 o restaurar contenido).
  2. Arreglar redirects en cadena. Una URL que redirige a otra que redirige a otra = 3 hops. Apuntar todas al destino final directamente.
  3. Canonical en URLs variantes. Todas las combinaciones de filtros con canonical apuntando a la URL base.
  4. Mejorar tiempo de respuesta. Servidor lento = Google reduce el crawl rate. CDN + caché agresivo ayuda.
  5. Sitemap limpio. Solo URLs válidas, canónicas y actualizadas. Sin URLs deprecadas ni duplicados.
  6. IndexNow para cambios frecuentes. Si publicas o actualizas seguido, IndexNow notifica proactivamente y reduce crawl desperdiciado.

Cuándo NO obsesionarse

  • Site con 50-100 páginas estables. Google rastrea todo en horas. No es problema.
  • Sitio nuevo (menos de 6 meses). El crawl budget crece con autoridad. Espera a que Google te conozca antes de obsesionarte.
  • Tráfico orgánico estable.Si las visitas no caen y rankings se mantienen, el budget está bien aunque las estadísticas se vean “raras”.

Preguntas frecuentes

¿A partir de cuántas URLs preocuparse por crawl budget?+

Tradicionalmente: 1000+. Pero en sites pequeños con problemas técnicos (errores 4xx, redirects en cadena, contenido huérfano) el impacto puede empezar a notarse incluso con 100-200 URLs. La regla práctica: si Search Console reporta caída de rastreo, hay tema.

¿Google publica el crawl budget de mi sitio?+

Indirectamente. Search Console > Estadísticas de rastreo muestra solicitudes promedio por día, tiempo de respuesta y tamaño descargado. No dice un número exacto de 'budget', pero te da las métricas para entenderlo.

¿Bloquear bots de IA mejora mi crawl budget de Google?+

No directamente. Cada bot tiene su propio budget. Bloquear GPTBot no aumenta lo que Googlebot puede rastrear. Lo único que ayuda al crawl budget de Google es: site rápido, errores limpios, sitemap actualizado.

¿Sitios con menos de 50 páginas pueden tener problemas?+

Raramente. Con 50 páginas, incluso un sitio lento Googlebot las rastrea sin problema. La excepción: si tienes 50 páginas pero generas decenas de URLs variantes (con parámetros, filtros, paginación infinita), puedes inflar artificialmente y tener problemas.

¿Cómo evito que Googlebot rastree URLs basura (filtros, parámetros)?+

Tres opciones: (1) robots.txt Disallow de las rutas problemáticas, (2) meta noindex en las páginas variantes, (3) canonical apuntando a la URL principal. La (3) es la más limpia para SEO.

¿IndexNow ayuda al crawl budget?+

Sí indirectamente: notifica al instante cuando publicas o actualizas, así Googlebot/Bingbot no malgastan visitas rastreando URLs que no han cambiado. Recomendable implementarlo si publicas frecuentemente.

Sigue leyendo