MinimalAuditor
AEO & AI Search

Bots de IA explicados: GPTBot, ClaudeBot, PerplexityBot, GoogleOther y más

Lista completa de los bots de IA que crawlean tu sitio en 2026: qué hace cada uno, cómo configurar tu robots.txt para permitirlos selectivamente y cómo verificar que sí entran.

Gonzalo Fischer8 min de lectura

Dos tipos de bots: entrenamiento vs búsqueda

Conviene distinguir desde el principio:

Bots de entrenamiento

Recopilan contenido para entrenar futuros modelos. Lo que aprenden se refleja en el modo memoria del LLM (sin búsqueda web). Es lento: el próximo entrenamiento puede tardar 6-12 meses. Ejemplos: GPTBot, anthropic-ai, Google-Extended.

Bots de búsqueda en vivo

Crawlean para alimentar respuestas en tiempo real. Tu contenido se usa en respuestas esta semana, no en 12 meses. Ejemplos: OAI-SearchBot, ChatGPT-User, Claude-Web, PerplexityBot, GoogleOther.

Lista completa de bots a permitir

BotEmpresaTipoPara qué sirve
GPTBotOpenAIEntrenamientoAlimenta futuros GPT
OAI-SearchBotOpenAIBúsqueda en vivoChatGPT con web search
ChatGPT-UserOpenAIBúsqueda dirigidaCuando el usuario pide visitar una URL
ClaudeBotAnthropicBúsqueda en vivoAlimenta Claude.ai con web search
Claude-WebAnthropicBúsqueda dirigidaUsuario pide a Claude visitar URL
anthropic-aiAnthropicEntrenamientoFuturos modelos Claude
Google-ExtendedGoogleEntrenamientoGemini y futuros productos generativos
GoogleOtherGoogleBúsqueda en vivoAI Overviews y respuestas generativas
PerplexityBotPerplexityBúsqueda en vivoAlimenta perplexity.ai
Perplexity-UserPerplexityBúsqueda dirigidaUsuario pide visitar URL
Applebot-ExtendedAppleEntrenamientoApple Intelligence y Siri
BytespiderByteDanceEntrenamientoModelos de TikTok/Doubao (mercado asiático)
Meta-ExternalAgentMetaBúsqueda en vivoMeta AI y respuestas en apps Meta

Configuración recomendada del robots.txt

Para el caso default (sitio comercial que quiere maximizar visibilidad):

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: GoogleOther
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://tudominio.com/sitemap.xml

Atención: Cloudflare bloquea por default

Si usas Cloudflare, hay una trampa común. Cloudflare añadió en 2024 una opción para “bloquear AI Scrapers and Crawlers” activada por default en planes nuevos. Si la dejas activa, no importa qué diga tu robots.txt: los bots no entran.

Verificar en: Cloudflare Dashboard > tu dominio > Security > Bots > AI Scrapers and Crawlers. Debe estar en Off o en Allow.

Cuándo bloquear bots selectivamente

No siempre es correcto permitir todos. Casos legítimos de bloqueo:

  • Medios con paywall. Si tu negocio es vender contenido, bloquear bots de entrenamiento (GPTBot, anthropic-ai, Google-Extended) protege tu IP sin afectar visibilidad en búsqueda.
  • Contenido legalmente sensible. Información médica, legal o financiera donde no quieras que un LLM la sintetice fuera de contexto.
  • Marketplace con catálogo propietario. Si tu ventaja competitiva es tu base de productos, bloquear scrapers (incluidos bots de entrenamiento) protege el dato.
  • Mercado no asiático. Bloquear Bytespider si tu negocio no opera en mercados ByteDance.

Para casos de marketing, SaaS B2B, e-commerce occidental y consultoría: permitir todo es lo correcto.

Cómo verificar que sí entran

  1. Revisa tu robots.txt manualmente. Visita tudominio.com/robots.txt. Si no ves los User-Agent correctos, falta configurarlos.
  2. Revisa Cloudflare.Dashboard > Security > Bots. Asegúrate de que AI Scrapers no esté bloqueado.
  3. Logs de servidor.Filtra por User-Agent = “GPTBot”, “ClaudeBot”, etc. Si ves hits, están entrando.
  4. Test conversacional.Pregunta a Claude/ChatGPT (con búsqueda web): “Visita tudominio.com y descríbelo”. Si la descripción es coherente, los bots funcionan.
  5. MinimalAuditor verifica el robots.txt y simula fetch desde los User-Agents principales en su audit Free.

Preguntas frecuentes

¿Tiene sentido bloquear GPTBot para que OpenAI no entrene con mi contenido?+

Depende de tu negocio. Si vives de contenido propietario (medios, paywall, contenido pago), bloquear bots de entrenamiento es razonable. Si vives de visibilidad (marketing, B2B, SaaS), bloquearlos es autoinflingirse un golpe: pierdes presencia en modo memoria de futuros modelos.

¿Los bots de IA respetan robots.txt?+

Los grandes (OpenAI, Anthropic, Google, Perplexity) sí. Perplexity tuvo polémica en 2024 pero corrigió. Bots menores y scrapers no oficiales pueden ignorarlo. Para proteger contenido sensible, robots.txt no basta: pon auth o paywall.

¿Hay diferencia entre OAI-SearchBot y ChatGPT-User?+

Sí. OAI-SearchBot crawlea proactivamente para alimentar respuestas con búsqueda web. ChatGPT-User es el user-agent cuando un usuario específicamente pide a ChatGPT visitar tu URL. Ambos deben estar permitidos.

¿Qué pasa si solo bloqueo Bytespider (TikTok)?+

No te afecta visibilidad en LLMs occidentales (ChatGPT, Claude, Gemini, Perplexity). Bytespider alimenta los modelos de ByteDance/Doubao usados principalmente en mercado chino. Bloquearlo es decisión legítima si tu mercado no es Asia.

¿Cómo bloqueo todos los bots de IA pero permito Googlebot tradicional?+

Sí se puede: en robots.txt, permites a Googlebot y prohíbes selectivamente cada bot de IA con su User-agent específico. Google-Extended es el bot de IA de Google; Googlebot es el de búsqueda tradicional. Son distintos.

¿Apple tiene un bot de IA?+

Sí, Applebot-Extended (para Apple Intelligence). Es nuevo y aún tiene tráfico bajo. Permitirlo no cuesta nada y prepara el terreno para visibilidad en Siri, Apple Intelligence y futuros productos integrados.

Sigue leyendo