Sitemap.xml y robots.txt en 2026: la guía sin mitos
Dos archivos pequeños que controlan cómo los buscadores y LLMs entienden tu sitio. Esta guía aclara lo que cambió en 2026, mitos comunes y plantillas listas para usar.
robots.txt: qué es y qué no
robots.txt es un archivo de texto en la raíz de tu dominio (tudominio.com/robots.txt) que indica a los crawlers qué rutas pueden visitar y cuáles no.
Lo que sí es:
- Una sugerencia para crawlers que respetan el estándar.
- Una forma de controlar carga del servidor (crawl rate).
- Una forma de excluir rutas técnicas (/api, /admin, /tmp).
- Donde declaras la ubicación del sitemap.
Lo que no es:
- Protección de privacidad (para eso, auth).
- Garantía de que Google no indexará (para eso, meta noindex).
- Factor de ranking directo.
Lo que cambió en robots.txt en 2026
Tres cambios relevantes desde 2024:
- Nuevos bots de IA con User-Agents propios. GPTBot, ClaudeBot, PerplexityBot, Google-Extended, GoogleOther, Applebot-Extended, Meta-ExternalAgent. Conviene gestionarlos explícitamente.
- Cloudflare y Vercel con bloqueos AI por default. Aunque tu robots.txt los permita, el bloqueo puede venir de la capa CDN. Verificar ambas capas.
- IndexNow como complemento. No reemplaza robots.txt ni sitemap, pero acelera la notificación de cambios. Implementable en 1 hora.
Plantilla robots.txt moderna
# robots.txt para minimalauditor.com User-agent: * Allow: / # Bots de IA - permitir explícitamente User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: ClaudeBot Allow: / User-agent: Claude-Web Allow: / User-agent: anthropic-ai Allow: / User-agent: Google-Extended Allow: / User-agent: GoogleOther Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / User-agent: Applebot-Extended Allow: / # Rutas técnicas excluidas User-agent: * Disallow: /api/ Disallow: /admin/ Disallow: /_next/ # Sitemap Sitemap: https://minimalauditor.com/sitemap.xml
sitemap.xml: qué incluir
El sitemap es la lista de URLs que quieres que los buscadores descubran e indexen. Reglas básicas:
- Solo URLs canónicas. No incluir URLs con parámetros, duplicados o variantes.
- Solo URLs indexables. Las que tienen noindex no van.
- lastmod actualizado. Cuando actualices el contenido, actualiza lastmod.
- changefreq y priority son opcionales (Google los ignora en gran medida). Útiles solo para otros buscadores.
Plantilla sitemap.xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://minimalauditor.com/</loc>
<lastmod>2026-05-14</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://minimalauditor.com/blog</loc>
<lastmod>2026-05-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.9</priority>
</url>
<url>
<loc>https://minimalauditor.com/blog/que-es-aeo</loc>
<lastmod>2026-05-14</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>Mitos que conviene desterrar
- “robots.txt protege páginas privadas.” Falso. Es una sugerencia para crawlers honestos. Para privacidad, auth.
- “Sitemap garantiza indexación.” Falso. Es invitación. Google puede ignorar URLs si las considera de baja calidad.
- “Cuantas más URLs en sitemap, mejor.” Falso. Si incluyes URLs duplicadas o de baja calidad, diluyes la autoridad. Curar es mejor que listar todo.
- “Bloquear bots de IA mejora SEO.” Falso. Los bots de IA son separados de Googlebot. Bloquearlos solo te quita visibilidad en LLMs.
- “priority en sitemap influye en ranking.” Falso. Google ignora priority. Solo es para uso interno o buscadores menores.
Cómo validar ambos
- robots.txt:Search Console > Configuración > robots.txt tester. Muestra si tu robots.txt es válido y qué URLs están bloqueadas.
- sitemap.xml:Search Console > Sitemaps. Sube la URL del sitemap. Google reporta cuántas URLs descubrió y cuántas indexó.
- Validación XML: xmlvalidator.com o similares para asegurar sintaxis correcta.
- MinimalAuditor verifica ambos automáticamente en el audit Free, detecta errores comunes y sugiere correcciones.
Preguntas frecuentes
¿robots.txt protege información privada?+
No. robots.txt es una sugerencia para crawlers que respetan el estándar. Los maliciosos lo ignoran. Para datos sensibles, usa auth (login). Para páginas que no quieres indexar pero que son públicas, usa meta noindex.
¿Necesito sitemap si Google ya rastrea mi sitio?+
Sí, especialmente para sitios grandes (1000+ URLs), sites nuevos, multi-idioma, o con contenido huérfano (no enlazado internamente). Sitemap acelera descubrimiento y da contexto (lastmod, priority).
¿Sitemap dinámico o estático?+
Dinámico si tu sitio cambia mucho (blog activo, e-commerce). Estático si es brochure site con pocas páginas. En Next.js usa sitemap.ts nativo (genera dinámicamente en build).
¿Cuál es el tamaño máximo de un sitemap?+
50.000 URLs o 50MB por archivo (sin comprimir). Para sites grandes, dividir en sitemaps por sección + sitemap index que los referencie.
¿IndexNow reemplaza al sitemap?+
No. IndexNow es complementario: avisa proactivamente cuando publicas/actualizas URLs. Sitemap es la lista completa. Lo ideal es tener ambos: sitemap como índice + IndexNow para notificaciones rápidas.
¿Cómo bloqueo solo bots de IA pero permito Googlebot?+
En robots.txt, permite a Googlebot (User-agent: Googlebot, Allow: /) y prohíbe selectivamente cada bot de IA (User-agent: GPTBot, Disallow: /, etc.). Cada User-agent tiene su sección.
Sigue leyendo
Bots de IA explicados: GPTBot, ClaudeBot, PerplexityBot, GoogleOther y más
Lista completa de los bots de IA que crawlean tu sitio en 2026: qué hace cada uno, cómo configurar tu robots.txt para permitirlos selectivamente y cómo verificar que sí entran.
30 checks de SEO técnico que probablemente nadie te revisó
La lista exacta de verificaciones técnicas que toda auditoría seria debe cubrir, agrupadas por categoría y con criterio de pase/fallo claro para cada una.
llms.txt explicado: el robots.txt para LLMs (con plantilla lista para usar)
Qué es llms.txt, qué problema resuelve, cómo se diferencia de robots.txt y de sitemap.xml, y una plantilla en español que puedes copiar y adaptar para tu sitio.