AEO & AI Search

Bots de IA 2026: GPTBot, ClaudeBot, PerplexityBot

Lista completa de bots IA que crawlean tu sitio en 2026: qué hace cada uno, cómo configurar robots.txt selectivamente y cómo verificar que sí entran.

Gonzalo Fischer14 de mayo de 20268 min de lectura

Dos tipos de bots: entrenamiento vs búsqueda

Conviene distinguir desde el principio:

Bots de entrenamiento

Recopilan contenido para entrenar futuros modelos. Lo que aprenden se refleja en el modo memoria del LLM (sin búsqueda web). Es lento: el próximo entrenamiento puede tardar 6-12 meses. Ejemplos: GPTBot, anthropic-ai, Google-Extended.

Bots de búsqueda en vivo

Crawlean para alimentar respuestas en tiempo real. Tu contenido se usa en respuestas esta semana, no en 12 meses. Ejemplos: OAI-SearchBot, ChatGPT-User, Claude-Web, PerplexityBot, GoogleOther.

Lista completa de bots a permitir

Bot	Empresa	Tipo	Para qué sirve
GPTBot	OpenAI	Entrenamiento	Alimenta futuros GPT
OAI-SearchBot	OpenAI	Búsqueda en vivo	ChatGPT con web search
ChatGPT-User	OpenAI	Búsqueda dirigida	Cuando el usuario pide visitar una URL
ClaudeBot	Anthropic	Búsqueda en vivo	Alimenta Claude.ai con web search
Claude-Web	Anthropic	Búsqueda dirigida	Usuario pide a Claude visitar URL
anthropic-ai	Anthropic	Entrenamiento	Futuros modelos Claude
Google-Extended	Google	Entrenamiento	Gemini y futuros productos generativos
GoogleOther	Google	Búsqueda en vivo	AI Overviews y respuestas generativas
PerplexityBot	Perplexity	Búsqueda en vivo	Alimenta perplexity.ai
Perplexity-User	Perplexity	Búsqueda dirigida	Usuario pide visitar URL
Applebot-Extended	Apple	Entrenamiento	Apple Intelligence y Siri
Bytespider	ByteDance	Entrenamiento	Modelos de TikTok/Doubao (mercado asiático)
Meta-ExternalAgent	Meta	Búsqueda en vivo	Meta AI y respuestas en apps Meta

Configuración recomendada del robots.txt

Para el caso default (sitio comercial que quiere maximizar visibilidad):

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Atención: Cloudflare bloquea por default

Si usas Cloudflare, hay una trampa común. Cloudflare añadió en 2024 una opción para “bloquear AI Scrapers and Crawlers” activada por default en planes nuevos. Si la dejas activa, no importa qué diga tu robots.txt: los bots no entran.

Verificar en: Cloudflare Dashboard > tu dominio > Security > Bots > AI Scrapers and Crawlers. Debe estar en Off o en Allow.

Cuándo bloquear bots selectivamente

No siempre es correcto permitir todos. Casos legítimos de bloqueo:

Medios con paywall. Si tu negocio es vender contenido, bloquear bots de entrenamiento (GPTBot, anthropic-ai, Google-Extended) protege tu IP sin afectar visibilidad en búsqueda.
Contenido legalmente sensible. Información médica, legal o financiera donde no quieras que un LLM la sintetice fuera de contexto.
Marketplace con catálogo propietario. Si tu ventaja competitiva es tu base de productos, bloquear scrapers (incluidos bots de entrenamiento) protege el dato.
Mercado no asiático. Bloquear Bytespider si tu negocio no opera en mercados ByteDance.

Para casos de marketing, SaaS B2B, e-commerce occidental y consultoría: permitir todo es lo correcto.

Cómo verificar que sí entran

Revisa tu robots.txt manualmente. Visita tudominio.com/robots.txt. Si no ves los User-Agent correctos, falta configurarlos.
Revisa Cloudflare.Dashboard > Security > Bots. Asegúrate de que AI Scrapers no esté bloqueado.
Logs de servidor.Filtra por User-Agent = “GPTBot”, “ClaudeBot”, etc. Si ves hits, están entrando.
Test conversacional.Pregunta a Claude/ChatGPT (con búsqueda web): “Visita tudominio.com y descríbelo”. Si la descripción es coherente, los bots funcionan.
MinimalAuditor verifica el robots.txt y simula fetch desde los User-Agents principales en su audit Free.

Preguntas frecuentes

¿Tiene sentido bloquear GPTBot para que OpenAI no entrene con mi contenido?+

Depende de tu negocio. Si vives de contenido propietario (medios, paywall, contenido pago), bloquear bots de entrenamiento es razonable. Si vives de visibilidad (marketing, B2B, SaaS), bloquearlos es autoinflingirse un golpe: pierdes presencia en modo memoria de futuros modelos.

¿Los bots de IA respetan robots.txt?+

Los grandes (OpenAI, Anthropic, Google, Perplexity) sí. Perplexity tuvo polémica en 2024 pero corrigió. Bots menores y scrapers no oficiales pueden ignorarlo. Para proteger contenido sensible, robots.txt no basta: pon auth o paywall.

¿Hay diferencia entre OAI-SearchBot y ChatGPT-User?+

Sí. OAI-SearchBot crawlea proactivamente para alimentar respuestas con búsqueda web. ChatGPT-User es el user-agent cuando un usuario específicamente pide a ChatGPT visitar tu URL. Ambos deben estar permitidos.

¿Qué pasa si solo bloqueo Bytespider (TikTok)?+

No te afecta visibilidad en LLMs occidentales (ChatGPT, Claude, Gemini, Perplexity). Bytespider alimenta los modelos de ByteDance/Doubao usados principalmente en mercado chino. Bloquearlo es decisión legítima si tu mercado no es Asia.

¿Cómo bloqueo todos los bots de IA pero permito Googlebot tradicional?+

Sí se puede: en robots.txt, permites a Googlebot y prohíbes selectivamente cada bot de IA con su User-agent específico. Google-Extended es el bot de IA de Google; Googlebot es el de búsqueda tradicional. Son distintos.

¿Apple tiene un bot de IA?+

Sí, Applebot-Extended (para Apple Intelligence). Es nuevo y aún tiene tráfico bajo. Permitirlo no cuesta nada y prepara el terreno para visibilidad en Siri, Apple Intelligence y futuros productos integrados.

Sigue leyendo

AEO & AI Search14 may 20269 min

Qué es AEO 2026: Answer Engine Optimization

AEO es la disciplina de optimizar tu contenido para que ChatGPT, Claude, Gemini y Perplexity te citen como respuesta. No reemplaza al SEO: lo extiende.

Leer artículo →

AEO & AI Search14 may 202611 min

Cómo aparecer en ChatGPT cuando preguntan por tu marca

Guía concreta de 10 pasos para que ChatGPT te mencione cuando alguien pregunta por una solución como la tuya. Con ejemplos y la lista de bots a permitir.

Leer artículo →

AEO & AI Search14 may 20267 min

llms.txt explicado: el robots.txt para LLMs 2026

Qué es llms.txt, qué problema resuelve, cómo se diferencia de robots.txt y de sitemap.xml, y una plantilla en español que puedes copiar y adaptar para tu sitio.

Leer artículo →