MinimalAuditor
Auditoría de marketing

Sitemap.xml y robots.txt en 2026: la guía sin mitos

Dos archivos pequeños que controlan cómo los buscadores y LLMs entienden tu sitio. Esta guía aclara lo que cambió en 2026, mitos comunes y plantillas listas para usar.

Gonzalo Fischer6 min de lectura

robots.txt: qué es y qué no

robots.txt es un archivo de texto en la raíz de tu dominio (tudominio.com/robots.txt) que indica a los crawlers qué rutas pueden visitar y cuáles no.

Lo que es:

  • Una sugerencia para crawlers que respetan el estándar.
  • Una forma de controlar carga del servidor (crawl rate).
  • Una forma de excluir rutas técnicas (/api, /admin, /tmp).
  • Donde declaras la ubicación del sitemap.

Lo que no es:

  • Protección de privacidad (para eso, auth).
  • Garantía de que Google no indexará (para eso, meta noindex).
  • Factor de ranking directo.

Lo que cambió en robots.txt en 2026

Tres cambios relevantes desde 2024:

  1. Nuevos bots de IA con User-Agents propios. GPTBot, ClaudeBot, PerplexityBot, Google-Extended, GoogleOther, Applebot-Extended, Meta-ExternalAgent. Conviene gestionarlos explícitamente.
  2. Cloudflare y Vercel con bloqueos AI por default. Aunque tu robots.txt los permita, el bloqueo puede venir de la capa CDN. Verificar ambas capas.
  3. IndexNow como complemento. No reemplaza robots.txt ni sitemap, pero acelera la notificación de cambios. Implementable en 1 hora.

Plantilla robots.txt moderna

# robots.txt para minimalauditor.com

User-agent: *
Allow: /

# Bots de IA - permitir explícitamente
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Applebot-Extended
Allow: /

# Rutas técnicas excluidas
User-agent: *
Disallow: /api/
Disallow: /admin/
Disallow: /_next/

# Sitemap
Sitemap: https://minimalauditor.com/sitemap.xml

sitemap.xml: qué incluir

El sitemap es la lista de URLs que quieres que los buscadores descubran e indexen. Reglas básicas:

  • Solo URLs canónicas. No incluir URLs con parámetros, duplicados o variantes.
  • Solo URLs indexables. Las que tienen noindex no van.
  • lastmod actualizado. Cuando actualices el contenido, actualiza lastmod.
  • changefreq y priority son opcionales (Google los ignora en gran medida). Útiles solo para otros buscadores.

Plantilla sitemap.xml

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://minimalauditor.com/</loc>
    <lastmod>2026-05-14</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://minimalauditor.com/blog</loc>
    <lastmod>2026-05-14</lastmod>
    <changefreq>daily</changefreq>
    <priority>0.9</priority>
  </url>
  <url>
    <loc>https://minimalauditor.com/blog/que-es-aeo</loc>
    <lastmod>2026-05-14</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Mitos que conviene desterrar

  • “robots.txt protege páginas privadas.” Falso. Es una sugerencia para crawlers honestos. Para privacidad, auth.
  • “Sitemap garantiza indexación.” Falso. Es invitación. Google puede ignorar URLs si las considera de baja calidad.
  • “Cuantas más URLs en sitemap, mejor.” Falso. Si incluyes URLs duplicadas o de baja calidad, diluyes la autoridad. Curar es mejor que listar todo.
  • “Bloquear bots de IA mejora SEO.” Falso. Los bots de IA son separados de Googlebot. Bloquearlos solo te quita visibilidad en LLMs.
  • “priority en sitemap influye en ranking.” Falso. Google ignora priority. Solo es para uso interno o buscadores menores.

Cómo validar ambos

  1. robots.txt:Search Console > Configuración > robots.txt tester. Muestra si tu robots.txt es válido y qué URLs están bloqueadas.
  2. sitemap.xml:Search Console > Sitemaps. Sube la URL del sitemap. Google reporta cuántas URLs descubrió y cuántas indexó.
  3. Validación XML: xmlvalidator.com o similares para asegurar sintaxis correcta.
  4. MinimalAuditor verifica ambos automáticamente en el audit Free, detecta errores comunes y sugiere correcciones.

Preguntas frecuentes

¿robots.txt protege información privada?+

No. robots.txt es una sugerencia para crawlers que respetan el estándar. Los maliciosos lo ignoran. Para datos sensibles, usa auth (login). Para páginas que no quieres indexar pero que son públicas, usa meta noindex.

¿Necesito sitemap si Google ya rastrea mi sitio?+

Sí, especialmente para sitios grandes (1000+ URLs), sites nuevos, multi-idioma, o con contenido huérfano (no enlazado internamente). Sitemap acelera descubrimiento y da contexto (lastmod, priority).

¿Sitemap dinámico o estático?+

Dinámico si tu sitio cambia mucho (blog activo, e-commerce). Estático si es brochure site con pocas páginas. En Next.js usa sitemap.ts nativo (genera dinámicamente en build).

¿Cuál es el tamaño máximo de un sitemap?+

50.000 URLs o 50MB por archivo (sin comprimir). Para sites grandes, dividir en sitemaps por sección + sitemap index que los referencie.

¿IndexNow reemplaza al sitemap?+

No. IndexNow es complementario: avisa proactivamente cuando publicas/actualizas URLs. Sitemap es la lista completa. Lo ideal es tener ambos: sitemap como índice + IndexNow para notificaciones rápidas.

¿Cómo bloqueo solo bots de IA pero permito Googlebot?+

En robots.txt, permite a Googlebot (User-agent: Googlebot, Allow: /) y prohíbe selectivamente cada bot de IA (User-agent: GPTBot, Disallow: /, etc.). Cada User-agent tiene su sección.

Sigue leyendo