● 4 de junio, 2026 Referencia · 14 min

Mapa competitivo del ecosistema agéntico 2026: frameworks, SDKs, builders, observabilidad, y dónde encaja LLM4Agents

Cualquier operador decidiendo su stack en 2026 pasa dos semanas googleando "LangGraph vs CrewAI vs Microsoft Agent Framework vs OpenAI Agents SDK vs Lindy vs Vellum vs Galileo vs LangSmith vs AgentOps". El post que comprimiría esas dos semanas en una tarde todavía no existe — al menos no escrito honestamente. Este es ese post. Cinco categorías de tooling, los cuatro a ocho players que importan en cada categoría, una oración de fortaleza y una de debilidad por player, una tabla cruzada mapeando cada player contra el stack de cinco capas, un framework de decisión para elegir framework vs plataforma vs SDK, y una sección honesta de cierre sobre dónde encaja LLM4Agents y dónde no. La intención es el post que le pasarías a un colega que está por tomar una decisión de stack y no quiere gastar sus próximas diez tardes leyendo threads de comparación.

El mapa, de arriba hacia abajo

El ecosistema de tooling agéntico a mediados de 2026 se divide limpiamente en cinco categorías. La mayoría de los operadores termina usando un ítem de cada categoría; la fricción es elegir el correcto en cada una y después hacerlos componer.

Mapa del ecosistema agéntico, mediados de 2026:

  ┌─────────────────────────────────────────────────────────────┐
  │ 1. Frameworks open-source de orquestación                   │
  │    LangGraph · AutoGen · CrewAI · Letta · Pydantic AI       │
  └─────────────────────────────────────────────────────────────┘
  ┌─────────────────────────────────────────────────────────────┐
  │ 2. SDKs de los model providers                              │
  │    OpenAI Agents SDK · Anthropic SDK + Computer Use         │
  │    Google ADK · Microsoft Agent Framework                   │
  └─────────────────────────────────────────────────────────────┘
  ┌─────────────────────────────────────────────────────────────┐
  │ 3. Plataformas no-code de builder                           │
  │    Lindy · Sema4 · Relevance AI · Vellum                    │
  └─────────────────────────────────────────────────────────────┘
  ┌─────────────────────────────────────────────────────────────┐
  │ 4. Plataformas de evaluación + observabilidad               │
  │    Galileo · LangSmith · AgentOps · Helicone                │
  └─────────────────────────────────────────────────────────────┘
  ┌─────────────────────────────────────────────────────────────┐
  │ 5. Marketplaces + registries                                │
  │    Agent.ai · ManusAI · Sakana · ERC-8004 nativos           │
  └─────────────────────────────────────────────────────────────┘

Categoría 1 — frameworks open-source de orquestación

La categoría donde el operador escribe código en Python o TypeScript y obtiene control fino del comportamiento del agente. Lo mejor para builders que ya programan y quieren máxima flexibilidad.

LangGraph. El framework de orquestación con forma de grafo del equipo de LangChain, a mediados de 2026 el estándar open-source de facto para workflows de agentes con estado. Fortaleza: el modelo más limpio para máquinas de estado explícitas, persistencia, y checkpoints human-in-the-loop; ecosistema amplio de integraciones. Debilidad: todavía hereda la reputación de LangChain por abstracciones que pelean con el desarrollador cuando el caso de uso se aleja del modelo mental del framework.

AutoGen. El framework conversacional multi-agente de Microsoft, ahora consolidado con Semantic Kernel en Microsoft Agent Framework (cubierto en la Categoría 2). El AutoGen v0.x legado todavía se usa pero está en camino de deprecación. Fortaleza: patrones de conversación multi-agente probados en batalla. Debilidad: el camino de migración al framework MS unificado es el time sink en 2026.

CrewAI. Framework multi-agente basado en roles que te deja declarar "este agente es un investigador, este es un escritor, este es un crítico" y los orquesta en patrones supervisor-worker o peer. Fortaleza: legible, rápido de prototipar, un fit excelente para workflows de contenido y automatizaciones con forma de equipo. Debilidad: las abstracciones se vuelven más difíciles de debuggear cuando empujas más allá de los patrones para los que el framework fue diseñado.

Letta (antes MemGPT). El framework de agente memory-first. El framework si el valor de tu agente es continuidad entre sesiones — ver nuestro post de memoria. Fortaleza: la implementación open-source más limpia de memoria de agente estructurada que conocemos. Debilidad: scope más angosto que LangGraph o CrewAI; vas a terminar combinándolo con otro framework para orquestación no-memoria.

Pydantic AI. Framework de agente con seguridad de tipos del equipo de Pydantic, diseñado para codebases Python de producción que ya usan Pydantic. Fortaleza: la historia de disciplina de tipos y validación es la más fuerte del espacio open-source; encaja naturalmente en pipelines de datos Python existentes. Debilidad: comunidad más chica, menos integraciones pre-construidas que LangGraph.

Categoría 2 — SDKs de los model providers

Los toolkits oficiales de construcción de agentes lanzados por los model providers mismos. Tienden a ser la forma más limpia de usar los modelos de un solo provider con máximo soporte de features, al costo de portabilidad cross-provider.

OpenAI Agents SDK. La evolución 2026 de la Assistants API original, ahora con tool use de primera clase, structured outputs, llamadas paralelas y una superficie de tracing. Fortaleza: la integración más ajustada con features de la familia GPT-5.x (vision, structured outputs, audio); shippear con los últimos modelos de OpenAI es más rápido acá. Debilidad: portabilidad — código escrito contra este SDK asume que OpenAI es la capa de inferencia, y cambiar de provider después es una reescritura real.

Anthropic SDK + Computer Use. Los SDKs oficiales Python y TypeScript más la API Computer Use que deja a los agentes manejar un browser o desktop. Fortaleza: la superficie Computer Use es la más capaz del mercado para automatización basada en pantalla; los defaults de seguridad son los más fuertes. Debilidad: el SDK es intencionalmente mínimo — patrones de orquestación como supervisor-worker son enteramente responsabilidad del desarrollador.

Google ADK (Agent Development Kit). Lanzado a fines de 2025 junto con la familia Gemini 3, ADK es la respuesta de Google a la pregunta del framework de agentes, con soporte de primera clase para A2A e integración ajustada en Google Cloud Vertex. Fortaleza: la mejor implementación de referencia de A2A que vimos; corre nativamente en Vertex con scaling de Cloud Run. Debilidad: suposición pesada de Google Cloud; correr ADK bien fuera del ecosistema GCP es incómodo.

Microsoft Agent Framework. El GA de Q1 2026 de la consolidación AutoGen + Semantic Kernel. Ahora la respuesta canónica de Microsoft al desarrollo de agentes, con integración profunda en Azure. Fortaleza: la historia enterprise más limpia para organizaciones estandarizadas en Azure; la consolidación absorbió lo mejor de ambos predecesores. Debilidad: la consolidación rompió code paths más viejos de AutoGen de formas que todavía se están asentando; la fricción de migración sigue siendo real.

Categoría 3 — plataformas no-code de builder

Para operadores que quieren lanzar sin escribir Python, las plataformas de builder abstraen la capa de framework detrás de una superficie visual / de configuración.

Lindy. Builder de agentes consumer-friendly con integraciones fuertes en el stack SaaS de todos los días (Gmail, Slack, Notion, Calendar). Fortaleza: la curva de aprendizaje más baja de esta categoría para un operador no técnico; lanza templates pre-construidos para los casos de uso obvios. Debilidad: el techo es más bajo que el camino del framework — una vez que necesitas comportamiento que los templates no cubren, lo golpeas.

Sema4. Builder enfocado a B2B para workflows de ventas, customer-success y revenue-ops. Fortaleza: integraciones profundas con CRM y templates con forma de equipo de revenue; el camino más rápido a valor si estás automatizando una motion de ventas. Debilidad: opinionado sobre la forma del workflow; agentes fuera del dominio revenue-ops no encajan naturalmente.

Relevance AI. Builder multi-agente posicionándose entre la flexibilidad de framework y la simplicidad estilo Lindy, con soporte fuerte para vectores y RAG. Fortaleza: el balance más limpio entre flexibilidad y accesibilidad de la categoría; el editor visual de grafo es el mejor que vimos. Debilidad: el pricing escala rápido con el uso; el operador que tiene éxito en la plataforma a veces termina reconstruyendo en un framework para controlar el costo.

Vellum. Plataforma prompt-engineering-first con superficies de evaluación y deployment envueltas alrededor del prompt como unidad. Fortaleza: si tu valor está en el oficio del prompt y quieres versionado, canary deployment y comparación lado a lado sobre el prompt mismo, Vellum es la opción más limpia. Debilidad: más angosto que los otros builders — Vellum es excelente en la capa de prompt pero necesitas otras herramientas para orquestación y tool use.

Categoría 4 — plataformas de evaluación y observabilidad

Las plataformas que consumen los traces de tu agente y producen las métricas grado operador de nuestro post de evaluación: correctitud, costo, latencia, drift.

Galileo. Plataforma de evaluación exhaustiva con soporte fuerte para detección de alucinaciones, monitoreo de drift y comparación contra ground-truth. Fortaleza: el producto de evaluación más maduro de la categoría; metodología defendible y buenas integraciones. Debilidad: priced para el tier enterprise; los presupuestos de operador solo y pequeño negocio luchan para justificarlo.

LangSmith. La plataforma de observabilidad del equipo de LangChain, integrada ajustadamente con LangGraph. Fortaleza: el setup de menor fricción si ya usas LangGraph; el visor de traces es rápido y la superficie de eval es limpia. Debilidad: el valor se comprime si no estás en LangGraph; las integraciones fuera del ecosistema LangChain son de segunda clase.

AgentOps. Plataforma de observabilidad construida específicamente para sistemas multi-agente, con soporte de primera clase para rastrear llamadas agente-a-agente. Fortaleza: la mejor visualización multi-agente de la categoría; entiende swarms y patrones supervisor-worker nativamente. Debilidad: la superficie de evaluación es menos madura que Galileo o LangSmith; vas a terminar combinando AgentOps para observabilidad con otra herramienta para evaluación.

Helicone. Observabilidad LLM con soporte fuerte de cost-tracking y caching. Fortaleza: la historia de atribución de costo más limpia de la categoría; la capa de caching paga el fee de la plataforma a volumen moderado. Debilidad: las features específicas de agentes (correlación de trace a través de flujos multi-agente) son más débiles que AgentOps; mejor para cargas LLM de un solo agente.

Categoría 5 — marketplaces y registries

Las plataformas donde los agentes descubren y contratan a otros agentes. La categoría más nueva del ecosistema, todavía consolidándose.

Agent.ai. Marketplace cara al consumidor de agentes ensamblados; lo que Zapier fue para integraciones SaaS, Agent.ai intenta ser para agentes off-the-shelf. Fortaleza: el catálogo más grande de agentes pre-construidos disponibles para compradores no técnicos. Debilidad: la calidad varía salvajemente a través del catálogo; la diligencia debida grado operador sobre agentes individuales actualmente queda en manos del comprador.

ManusAI. Híbrido marketplace + plataforma enfocado a agentes autónomos de horizonte largo, con telemetría de track-record más fuerte que Agent.ai. Fortaleza: reputación y datos de outcome por agente son de primera clase; lo más cerca que llegó el mercado a un Yelp para agentes. Debilidad: los agentes en la plataforma están sandboxeados dentro del runtime de ManusAI, lo que limita la portabilidad del operador.

Sakana. Infraestructura grado investigación incluyendo el RL Conductor que cubrimos en notas internas; su marketplace cara al público es chico pero la capacidad subyacente es interesante. Fortaleza: la profundidad técnica no tiene rival para arquitecturas de agentes novedosas. Debilidad: el marketplace es más showcase de investigación que realidad comercial al momento de escribir esto.

ERC-8004 nativos (cohort). La clase de marketplaces y validadores que consumen los registries on-chain que cubrimos en el post de ERC-8004. Los ejemplos incluyen varios proyectos Base-nativos y Solana-nativos, más la red de validators AVS de EigenLayer. Fortaleza: reputación portable, attestations on-chain, sin vendor lock-in. Debilidad: todavía madurando; el volumen es chico relativo a ManusAI; la UX es despareja a través de las implementaciones.

La tabla cruzada

El mapa de categorías es útil para entender dónde vive cada player. La decisión que el operador realmente tiene que tomar es qué combinación de players cubre las cinco capas del stack agéntico. La tabla cruzada de abajo mapea cada player contra las capas que toca.

Cobertura por capa del stack (●  primaria  ◐  parcial  ○  ninguna):

  Player                  MCP   A2A   AP2   x402  ERC-8004  Eval/Obs
  ─────────────────────────────────────────────────────────────────
  LangGraph                ●     ◐     ○     ○      ○         ◐
  AutoGen / MS Agent F.    ●     ◐     ○     ○      ○         ●
  CrewAI                   ●     ◐     ○     ○      ○         ◐
  Letta                    ●     ○     ○     ○      ○         ◐
  Pydantic AI              ●     ○     ○     ○      ○         ◐

  OpenAI Agents SDK        ●     ○     ○     ○      ○         ◐
  Anthropic SDK + CU       ●     ○     ○     ○      ○         ◐
  Google ADK               ●     ●     ○     ○      ○         ◐
  MS Agent Framework       ●     ◐     ○     ○      ○         ●

  Lindy                    ●     ○     ○     ○      ○         ○
  Sema4                    ●     ○     ◐     ○      ○         ○
  Relevance AI             ●     ◐     ○     ○      ○         ◐
  Vellum                   ◐     ○     ○     ○      ○         ●

  Galileo                  ○     ○     ○     ○      ○         ●
  LangSmith                ◐     ○     ○     ○      ○         ●
  AgentOps                 ◐     ●     ○     ○      ○         ●
  Helicone                 ◐     ○     ○     ○      ○         ●

  Agent.ai                 ◐     ◐     ○     ○      ○         ○
  ManusAI                  ●     ●     ○     ○      ◐         ◐
  Sakana                   ●     ◐     ○     ○      ○         ◐
  ERC-8004 nativos         ◐     ●     ◐     ●      ●         ◐

  LLM4Agents Agent Builder ●     ●     ●     ●      ●         ●

Lee la tabla por columna. La mayoría de los players cubren MCP porque el uso de tools es table stakes. La mayoría de los players tiene soporte A2A débil porque la capa inter-agente es más nueva. El soporte AP2 y x402 es raro — estas son capas de pago que requieren integración deliberada y la mayoría de los frameworks no la hicieron todavía. ERC-8004 es aún más raro — la capa de identidad on-chain es actualmente el diferenciador del cohort ERC-8004-nativo y de LLM4Agents. La columna eval/obs está universalmente cubierta porque cada framework eventualmente agrega algo ahí, pero la profundidad varía enormemente.

El framework de decisión — framework vs plataforma vs SDK

La categoría por la que un operador debería empezar depende mayormente de tres propiedades del operador y de la carga.

¿Vas a escribir código? Si sí, eliges un framework (Categoría 1) o un SDK (Categoría 2). Si no, eliges un builder no-code (Categoría 3). Esta es la decisión más limpia de la matriz; la mayoría de los operadores la responde en cinco minutos.

¿Estás en un solo model provider o quieres cambiar? Si te comprometiste con OpenAI, Anthropic, Google, o Azure (que probablemente significa OpenAI a través de Azure), el SDK del provider es el camino de menor resistencia para los próximos seis meses — lanza features más rápido. Si quieres portabilidad cross-providers — o estás mezclando modelos por paso al estilo del routing de Project Deal — el camino del framework open-source es la elección correcta.

¿Cuánto tráfico agente-a-agente esperas? Si tu carga es mayormente agentes solos sirviendo a usuarios finales directos, la columna A2A no importa mucho. Si tu carga son flotas de agentes llamándose entre sí y a agentes externos — los patrones de orquestación multi-agente de nuestro post de orquestación — necesitas soporte real de A2A, y eso angosta el campo a MS Agent Framework, Google ADK, AgentOps para observabilidad, ManusAI como marketplace, y el cohort ERC-8004-nativo. La mayoría de los otros players son débiles en A2A.

La cuarta pregunta — si necesitas comportamiento payment-aware (AP2 + x402) — te empuja hacia LLM4Agents o a construir tu propia integración AP2 encima de un framework. Actualmente no hay otra opción off-the-shelf que cubra la capa de pago completamente, lo que es tanto una oportunidad como una señal de que esta parte del ecosistema es temprana.

Dónde encaja LLM4Agents — honestamente

Escribimos 24 posts sobre el stack agéntico y construimos una plataforma que opera encima de él. La descripción honesta de dónde se sienta LLM4Agents en el mapa de arriba:

Qué es LLM4Agents. Un plano de control y dashboard de operador sentado encima del stack de cinco capas, con soporte de primera clase para las cinco capas de protocolo y las preocupaciones de evaluación / observabilidad envueltas alrededor de ellas. Agent Builder es la superficie de builder casi-no-code; el dashboard es la vista de operador multi-agente; el catálogo es la librería pre-conectada de servers MCP y templates de inicio. Dentro de la plataforma, los agentes son ciudadanos completos de los protocolos — hablan A2A, firman mandates AP2, liquidan a través de x402, y postean a ERC-8004 — sin que el operador tenga que escribir esa plomería.

Cuándo LLM4Agents es la elección correcta. Si corres múltiples agentes, quieres el piso de las disciplinas de seguridad y compliance sobre las que escribimos, y no estás profundamente comprometido a escribir tu propio código de orquestación. Si las superficies agente-a-agente y de pago te importan — son las partes del stack donde la mayoría de las otras herramientas son más débiles. Si quieres el catálogo de templates pre-construidos como punto de partida. Si la superficie bundled de observabilidad y eval te ahorra el trabajo de stitching de plataforma que viene con ensamblar AgentOps + Galileo + un framework separado + un builder separado.

Cuándo LLM4Agents es la elección equivocada. Si eres un operador profundamente técnico que quiere máximo control de código y está dispuesto a cablear los protocolos vos mismo — LangGraph + LangSmith + una implementación A2A custom es la respuesta correcta. Si tu carga es agente-solo, usuario-solo, sin tráfico agente-a-agente, sin superficie de pago — Lindy o el OpenAI Agents SDK son más livianos y te van a llevar a producción más rápido. Si estás dentro de una empresa Microsoft estandarizando en Azure end-to-end — MS Agent Framework va a integrarse más naturalmente que nosotros. Si tu negocio depende de un builder vertical-específico (Sema4 para revenue ops, Vellum para workflows prompt-céntricos) — esos van a encajar en el nicho mejor que nuestro plano de control horizontal.

La categoría que no somos. No somos un framework open-source de orquestación; no somos un SDK de model provider; no somos pura observabilidad. Somos la capa que le permite a un operador correr una flota sin volverse un ingeniero de plataforma. Si ese es el rol que quieres jugar, somos la elección natural. Si quieres ser el ingeniero de plataforma vos mismo, tienes mejores opciones en las Categorías 1 y 4 — y te lo decimos.

Componer es la norma, no la excepción

Una última cosa que el mapa categórico puede oscurecer: la mayoría de los operadores exitosos terminan usando dos o tres herramientas a través de categorías, no eligiendo una herramienta para hacer todo. Stacks comunes que vemos en la práctica:

Stack del desarrollador solo. LangGraph para orquestación + LangSmith para eval/obs + Anthropic SDK abajo + Pinecone para vectores. Altamente code-céntrico, máximo control, sin superficie de pago.

Stack del fundador SaaS. OpenAI Agents SDK + Helicone para cost-tracking + Vellum para gestión de prompts + Stripe para billing. Menos código, single-provider, iteración rápida sobre prompts.

Stack del operador multi-agente. LLM4Agents Agent Builder como plano de control + AgentOps para observabilidad cross-flota (donde el built-in no alcanza) + integraciones de marketplace ERC-8004-nativo para discovery de agentes. Multi-protocolo, multi-agente, payment-aware.

Stack enterprise. Microsoft Agent Framework en Azure + Azure OpenAI como capa de modelo + Galileo para evaluación + servers MCP internos para tools propietarias. Compliance enterprise, cargas reguladas.

El punto es que "cuál elijo" a veces es la pregunta equivocada. La pregunta correcta es "qué combinación de dos o tres cubre las cinco capas que efectivamente necesito". El framework de decisión de la sección previa te ayuda a elegir el primario; los secundarios son usualmente obvios una vez que el primario está elegido.

Qué va a cambiar en los próximos seis meses

El ecosistema de arriba es un snapshot de junio de 2026. Tres cambios sobre los que tenemos suficiente confianza como para poner por escrito:

Consolidación en Categoría 1. Cinco frameworks open-source haciendo cosas similares no es un equilibrio estable. Esperamos que al menos uno de los cinco (Pydantic AI es el candidato más probable, pero AutoGen técnicamente ya está en el camino) sea absorbido o de facto deprecado para fin de año. La ventaja de LangGraph se está consolidando; CrewAI está encontrando su nicho en automatizaciones con forma de rol; Letta está encontrando su nicho en memoria; las posiciones apretadas son las generalistas.

Las plataformas eval/obs se van a ampliar hacia gobernanza. El enforcement del EU AI Act empezando en agosto (lo cubrimos en el post del AI Act) va a hacer que cada plataforma de Categoría 4 se extienda hacia "gobernanza de IA" — registros de modelos, technical files, audit trails, conformity assessment. Galileo ya se está moviendo acá; esperamos que LangSmith y AgentOps sigan.

Los marketplaces se van a bifurcar. Los marketplaces estilo Agent.ai cara al consumidor y los marketplaces ERC-8004-nativos no están compitiendo por el mismo comprador — uno tiene forma de appstore, el otro tiene forma de economía-de-agentes B2B. Esperamos que los próximos doce meses vuelvan explícita la bifurcación y veamos al menos dos nuevos entrantes en cada rama.

Cierre

El ecosistema de agentes a mediados de 2026 es el más limpio que estuvo desde que arrancó la categoría. Cinco categorías, ~25 players nombrados, un stack de cinco capas asentado debajo, y frameworks de decisión que un operador efectivamente puede usar. Los próximos doce meses van a producir más consolidación que fragmentación, que es lo opuesto a lo que la mayoría de los observadores predijo a principios de 2025. Esta es señal de madurez de la categoría, no de estancamiento — los players que queden en pie dentro de doce meses van a ser más capaces que los del mapa de hoy, y los operadores que elijan un stack ahora van a poder componer sobre él en lugar de reconstruirlo.

Si todavía estás decidiendo, camina el framework de decisión: código o no-code, single provider o portable, volumen agente-a-agente, superficie de pago. La respuesta angosta el campo de veinticinco players a dos o tres. Elige entre esos dos o tres basándote en los criterios secundarios (comunidad, pricing, integraciones que ya tienes). Y no le des demasiadas vueltas — los operadores que lanzaron con lo que había en el mapa hace nueve meses le ganan a los operadores que todavía están eligiendo nueve meses después.

El próximo post de esta serie da un paso atrás de la infraestructura completamente y actualiza el paisaje de memoria de agentes — Graphiti, Mem0, Titans, MemOS — para los operadores que estuvieron esperando saber si su capa de memoria sigue siendo la elección correcta. Nos vemos allá.