Bots de IA explicados: GPTBot, ClaudeBot, PerplexityBot, GoogleOther y más
Lista completa de los bots de IA que crawlean tu sitio en 2026: qué hace cada uno, cómo configurar tu robots.txt para permitirlos selectivamente y cómo verificar que sí entran.
Dos tipos de bots: entrenamiento vs búsqueda
Conviene distinguir desde el principio:
Bots de entrenamiento
Recopilan contenido para entrenar futuros modelos. Lo que aprenden se refleja en el modo memoria del LLM (sin búsqueda web). Es lento: el próximo entrenamiento puede tardar 6-12 meses. Ejemplos: GPTBot, anthropic-ai, Google-Extended.
Bots de búsqueda en vivo
Crawlean para alimentar respuestas en tiempo real. Tu contenido se usa en respuestas esta semana, no en 12 meses. Ejemplos: OAI-SearchBot, ChatGPT-User, Claude-Web, PerplexityBot, GoogleOther.
Lista completa de bots a permitir
| Bot | Empresa | Tipo | Para qué sirve |
|---|---|---|---|
| GPTBot | OpenAI | Entrenamiento | Alimenta futuros GPT |
| OAI-SearchBot | OpenAI | Búsqueda en vivo | ChatGPT con web search |
| ChatGPT-User | OpenAI | Búsqueda dirigida | Cuando el usuario pide visitar una URL |
| ClaudeBot | Anthropic | Búsqueda en vivo | Alimenta Claude.ai con web search |
| Claude-Web | Anthropic | Búsqueda dirigida | Usuario pide a Claude visitar URL |
| anthropic-ai | Anthropic | Entrenamiento | Futuros modelos Claude |
| Google-Extended | Entrenamiento | Gemini y futuros productos generativos | |
| GoogleOther | Búsqueda en vivo | AI Overviews y respuestas generativas | |
| PerplexityBot | Perplexity | Búsqueda en vivo | Alimenta perplexity.ai |
| Perplexity-User | Perplexity | Búsqueda dirigida | Usuario pide visitar URL |
| Applebot-Extended | Apple | Entrenamiento | Apple Intelligence y Siri |
| Bytespider | ByteDance | Entrenamiento | Modelos de TikTok/Doubao (mercado asiático) |
| Meta-ExternalAgent | Meta | Búsqueda en vivo | Meta AI y respuestas en apps Meta |
Configuración recomendada del robots.txt
Para el caso default (sitio comercial que quiere maximizar visibilidad):
User-agent: * Allow: / User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: ClaudeBot Allow: / User-agent: Claude-Web Allow: / User-agent: anthropic-ai Allow: / User-agent: Google-Extended Allow: / User-agent: GoogleOther Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / User-agent: Applebot-Extended Allow: / User-agent: Meta-ExternalAgent Allow: / Sitemap: https://tudominio.com/sitemap.xml
Atención: Cloudflare bloquea por default
Si usas Cloudflare, hay una trampa común. Cloudflare añadió en 2024 una opción para “bloquear AI Scrapers and Crawlers” activada por default en planes nuevos. Si la dejas activa, no importa qué diga tu robots.txt: los bots no entran.
Verificar en: Cloudflare Dashboard > tu dominio > Security > Bots > AI Scrapers and Crawlers. Debe estar en Off o en Allow.
Cuándo bloquear bots selectivamente
No siempre es correcto permitir todos. Casos legítimos de bloqueo:
- Medios con paywall. Si tu negocio es vender contenido, bloquear bots de entrenamiento (GPTBot, anthropic-ai, Google-Extended) protege tu IP sin afectar visibilidad en búsqueda.
- Contenido legalmente sensible. Información médica, legal o financiera donde no quieras que un LLM la sintetice fuera de contexto.
- Marketplace con catálogo propietario. Si tu ventaja competitiva es tu base de productos, bloquear scrapers (incluidos bots de entrenamiento) protege el dato.
- Mercado no asiático. Bloquear Bytespider si tu negocio no opera en mercados ByteDance.
Para casos de marketing, SaaS B2B, e-commerce occidental y consultoría: permitir todo es lo correcto.
Cómo verificar que sí entran
- Revisa tu robots.txt manualmente. Visita tudominio.com/robots.txt. Si no ves los User-Agent correctos, falta configurarlos.
- Revisa Cloudflare.Dashboard > Security > Bots. Asegúrate de que AI Scrapers no esté bloqueado.
- Logs de servidor.Filtra por User-Agent = “GPTBot”, “ClaudeBot”, etc. Si ves hits, están entrando.
- Test conversacional.Pregunta a Claude/ChatGPT (con búsqueda web): “Visita tudominio.com y descríbelo”. Si la descripción es coherente, los bots funcionan.
- MinimalAuditor verifica el robots.txt y simula fetch desde los User-Agents principales en su audit Free.
Preguntas frecuentes
¿Tiene sentido bloquear GPTBot para que OpenAI no entrene con mi contenido?+
Depende de tu negocio. Si vives de contenido propietario (medios, paywall, contenido pago), bloquear bots de entrenamiento es razonable. Si vives de visibilidad (marketing, B2B, SaaS), bloquearlos es autoinflingirse un golpe: pierdes presencia en modo memoria de futuros modelos.
¿Los bots de IA respetan robots.txt?+
Los grandes (OpenAI, Anthropic, Google, Perplexity) sí. Perplexity tuvo polémica en 2024 pero corrigió. Bots menores y scrapers no oficiales pueden ignorarlo. Para proteger contenido sensible, robots.txt no basta: pon auth o paywall.
¿Hay diferencia entre OAI-SearchBot y ChatGPT-User?+
Sí. OAI-SearchBot crawlea proactivamente para alimentar respuestas con búsqueda web. ChatGPT-User es el user-agent cuando un usuario específicamente pide a ChatGPT visitar tu URL. Ambos deben estar permitidos.
¿Qué pasa si solo bloqueo Bytespider (TikTok)?+
No te afecta visibilidad en LLMs occidentales (ChatGPT, Claude, Gemini, Perplexity). Bytespider alimenta los modelos de ByteDance/Doubao usados principalmente en mercado chino. Bloquearlo es decisión legítima si tu mercado no es Asia.
¿Cómo bloqueo todos los bots de IA pero permito Googlebot tradicional?+
Sí se puede: en robots.txt, permites a Googlebot y prohíbes selectivamente cada bot de IA con su User-agent específico. Google-Extended es el bot de IA de Google; Googlebot es el de búsqueda tradicional. Son distintos.
¿Apple tiene un bot de IA?+
Sí, Applebot-Extended (para Apple Intelligence). Es nuevo y aún tiene tráfico bajo. Permitirlo no cuesta nada y prepara el terreno para visibilidad en Siri, Apple Intelligence y futuros productos integrados.
Sigue leyendo
Qué es AEO (Answer Engine Optimization) y por qué importa en 2026
AEO es la disciplina de optimizar tu contenido para que ChatGPT, Claude, Gemini y Perplexity te citen como respuesta. No reemplaza al SEO: lo extiende. Esto es lo que cambia y qué hacer al respecto.
Cómo aparecer en ChatGPT cuando un cliente pregunta por tu marca
Guía concreta de 10 pasos para que ChatGPT te mencione cuando alguien pregunta por una solución como la tuya. Sin humo, con ejemplos y la lista exacta de bots que tienes que permitir.
llms.txt explicado: el robots.txt para LLMs (con plantilla lista para usar)
Qué es llms.txt, qué problema resuelve, cómo se diferencia de robots.txt y de sitemap.xml, y una plantilla en español que puedes copiar y adaptar para tu sitio.