Lo que cuesta de verdad una flota de agentes: números reales para uno, diez y treinta agentes
Dijimos "la inferencia es barata" al menos ocho veces a lo largo de este blog sin nunca poner números en la página. El post tutorial mencionó el neto de Mariana de $575/mes en la semana ocho pero no lo desglosó. El editorial sobre despidos argumentó que la economía funciona sin mostrar la planilla. Esta es la planilla. Precios reales de mediados de 2026 para cada capa de una flota de agentes, tres presupuestos concretos en tres escalas distintas, y los cuatro anti-patrones de costo que componen invisiblemente hasta que llega la factura. Si estás decidiendo si comprometer un trimestre de tu vida a correr agentes, este es el post que lees antes de comprometerte.
Pricing por capa, mediados de 2026
La flota de agentes tiene aproximadamente seis categorías de costo. Antes de armar cualquier presupuesto necesitas números defendibles para cada una. Abajo están los precios que vemos a través de clientes a junio de 2026. Tu kilometraje va a variar según provider y volumen; estos son valores centrales realistas, no mínimos promocionales.
Inferencia de modelo, por millón de tokens.
Tier frontera / razonamiento pesado:
Claude Opus 4.5 $15 in / $75 out
GPT-5.4 $12 in / $60 out
Gemini 3.1 Pro $10 in / $50 out
Tier medio:
Claude Sonnet 4.6 $3 in / $15 out
GPT-5.4 Mini $2 in / $10 out
Gemini 3.1 Flash $1.5 in / $7.5 out
Tier barato / rutina:
Claude Haiku 4.5 $0.80 in / $4 out
GPT-5.4 Nano $0.50 in / $2.5 out
Gemini 3.1 Nano $0.40 in / $2 out
Un modelo frontera cuesta aproximadamente 20x lo que cuesta el tier más barato. El hallazgo de Project Deal importa acá: en trabajo rutinario, el tier barato es suficientemente bueno como para que el operador defaultee a él. En trabajo adversarial (negociación, revisión de contrato, screening de fraude), la prima del modelo frontera se paga muchas veces. Rutear bien vale de dos a cinco veces en margen.
Infraestructura y tooling, fijo mensual.
Ejecución aislada por agente:
microVM Firecracker, bundled ~$0 (incluido)
Equivalente self-hosted ~$5/mes por agente
Vector store (corpus RAG):
Pinecone serverless $25-100/mes para < 1M vectores
Weaviate Cloud $25-150/mes
Qdrant self-hosted $10-30/mes (solo infra)
Gestión de secretos:
Doppler Team $15-50/mes
1Password Business $8 por usuario
Cloud KMS (AWS / GCP) $1-10/mes
Observabilidad:
Honeycomb free tier $0 (hasta 20M eventos/mes)
Datadog APM $15-31 por host/mes
Dashboard built-in $0 (incluido)
Marketplaces de tools (servers MCP de terceros). La mayoría de los servers MCP son free open source. Una fracción creciente de servers premium cobran: datos enriquecidos de LinkedIn ($50-200/mes), corpora legales especializadas ($100-500/mes), scraping web de alto volumen ($30-300/mes), APIs de market data ($50-2000/mes según el dataset). Presupuestá alrededor de $30-200/mes por agente que consume tools premium.
Settlement y on-chain.
Fees de settlement x402 por transacción:
Base mainnet $0.001 - 0.005
Solana $0.0001 - 0.001
Polygon $0.005 - 0.02
Attestations ERC-8004 por escritura:
Update de Identity / Reputation $0.05 - 0.20 en L2
Validation receipt $0.10 - 0.30 en L2
AP2 vía rail de tarjeta (fees del PSP):
Procesamiento estándar 2.9% + $0.30 por tx
Alto volumen / enterprise ~2.4% + $0.10 por tx
Para un agente haciendo 10.000 settlements al mes en x402 / Base, los fees de settlement salen $10-50 — despreciable. Para el mismo volumen sobre un rail de tarjeta con ticket promedio de $20, los fees del PSP son $5.000-6.000 — material. La elección del rail de settlement es una de las decisiones de estructura de costo más grandes que toma un operador.
Economía de pasos — la matemática del routing
Antes de armar las tablas de presupuesto, un building block más: ¿cuánto cuesta efectivamente un paso individual del agente? Depende del tipo de paso, y la varianza es enorme.
Costo típico por paso, por categoría:
Paso Tier Tokens (in/out) Costo por paso
──────────────────────────────────────────────────────────────────────
RAG retrieval + resumen Haiku 2000 / 300 $0.0028
Clasificación Haiku 500 / 50 $0.0006
Selección de tool + plan Sonnet 3000 / 500 $0.0165
Razonamiento multi-paso Sonnet 5000 / 1500 $0.0375
Generación de código Sonnet 4000 / 2000 $0.042
Síntesis final (reporte) Opus 8000 / 3000 $0.345
Paso de negociación Opus 4000 / 800 $0.120
Revisión de contrato Opus 15000 / 2000 $0.375
Los patrones de orquestación del post de orquestación determinan qué pasos corren cada cuánto. Un patrón supervisor-worker con cinco workers corriendo clasificación (Haiku) y un supervisor corriendo síntesis (Opus) cuesta ~$0.35 por request — casi todo el costo está en el supervisor. Los workers baratos son esencialmente gratis. Un patrón mal diseñado que corre Opus en cada worker convierte la misma request en $1.70 — cinco veces más por el mismo output.
Presupuesto 1: operador solo, meses 1-3
Esta es Mariana del post tutorial, modelada al mes tres con ocho clientes pagantes a $80/mes por un servicio de inbox-triage. Suposiciones conservadoras a lo largo.
Operador solo — mes 3 — inbox triage @ $80/cliente
REVENUE
8 clientes x $80 $640.00
COSTOS VARIABLES
Inferencia de modelo (mayormente Haiku, $32.00
síntesis semanal en Sonnet, ~80K tokens/cli/mes)
Refreshes de embedding RAG (Haiku) $4.00
Vector store (Pinecone serverless, 8 clientes $25.00
x ~80K vectores)
Tiempo de microVM por agente (bundled) $0.00
Fees x402 (sin settlements en este nicho) $0.00
Stripe (8 facturas x 2.9% + $0.30 x $80) $20.96
──────────────────────────────────────────────────────
Subtotal variable $81.96
COSTOS FIJOS
Agent Builder, free tier $0.00
Doppler personal $7.00
Honeycomb free tier $0.00
Cloudflare Workers (funciones auxiliares chicas) $5.00
Dominio + email $2.00
──────────────────────────────────────────────────────
Subtotal fijo $14.00
COSTO TOTAL $95.96
NETO $544.04
MARGEN 85.0%
El margen a esta escala es engañoso porque el tiempo del operador no está en la planilla. Si Mariana pasa 20 horas por semana corriendo la operación (onboarding de clientes, lectura de transcripts, ajuste de prompts, ventas), su tasa horaria es de unos $6.80/hora al mes tres. Real pero todavía no vivible — por eso la trayectoria importa más que el snapshot. Al mes ocho con 25 clientes, la misma estructura de costo produce $1.940 neto a las mismas 20 horas/semana, o $24/hora. Al mes doce, la base de clientes típicamente llega a 50 con algunas conversiones a tier premium, y la tasa horaria pasa los $45/hora. La economía es real; toma un trimestre componer hasta un salario vivible.
Presupuesto 2: pequeña operación, 10 agentes y 60 clientes
Este es el operador que pasó la fase solo: diez agentes distintos (cada uno sirviendo un sub-nicho o proveyendo funciones de supervisión), sesenta clientes a través de los agentes, ARPU de $150/mes. El operador contrató a una persona part-time de customer-success ($1.500/mes). Las herramientas crecieron para soportar operación multi-tenant.
Pequeña operación — mes 9 — 10 agentes, 60 clientes @ $150 prom
REVENUE
60 clientes x $150 $9.000,00
COSTOS VARIABLES
Inferencia de modelo (mix de tiers, $580,00
~150K tok/cliente)
Servers MCP premium (datos enriquecidos $260,00
LinkedIn, scraping web para 2 de los 10
agentes)
Vector store (Pinecone, multi-tenant) $180,00
Servicios de parsing de documentos $90,00
(OCR para agente de AP)
Settlements x402 (uno de los agentes $35,00
factura por llamada vía x402, ~15K txs/mes)
Attestations ERC-8004 (updates de reputación, $20,00
~100 validation receipts/mes)
Fees de Stripe $315,00
──────────────────────────────────────────────────────
Subtotal variable $1.480,00
COSTOS FIJOS
Agent Builder, tier Pro $99,00
Doppler Team $32,00
Honeycomb startup tier $130,00
Cloud infra (Workers, R2, etc.) $45,00
Dominio, email, SSO $50,00
Persona CS part-time $1.500,00
──────────────────────────────────────────────────────
Subtotal fijo $1.856,00
COSTO TOTAL $3.336,00
NETO $5.664,00
MARGEN 62.9%
Tres cosas merecen atención en este presupuesto. Primero, el costo variable como porcentaje del revenue se mantiene bajo 20%, que es la marca de unit economics SaaS saludables. Segundo, el costo fijo está dominado por la contratación part-time — los fees reales de la plataforma ($99/mes Pro, $32/mes Doppler) son ruido. Tercero, el presupuesto de inferencia de modelo soporta diez agentes sirviendo sesenta clientes con $580/mes. La afirmación "la inferencia es barata" tiene recibos.
El breakeven para esta forma de negocio es alrededor de ARPU x conteo de clientes = $3.300, que se alcanza con 22 clientes al mismo ARPU de $150. El operador que contrata a la persona CS part-time antes de llegar a 30 clientes está sobre-extendido; el operador que demora la contratación más allá de 50 está dejando crecimiento sobre la mesa.
Presupuesto 3: multi-flota, 30+ agentes y un negocio real
Este es el operador que creció hasta múltiples flotas — una flota cara al cliente, una flota interna de investigación, una flota de monitoreo — con 30+ agentes en total, 200+ clientes a través de múltiples líneas de servicio, ARPU $300/mes, y un equipo de cuatro (operador + lead técnico + dos CS / ventas).
Multi-flota — año 2 — 30 agentes, 200 clientes @ $300 prom
REVENUE
200 clientes x $300 $60.000,00
COSTOS VARIABLES
Inferencia de modelo (Opus pesado para $4.800,00
agentes de negociación, Sonnet para
análisis, Haiku para rutina — ~$24/cli/mes)
Servers MCP premium + APIs $1.800,00
Vector store (tier enterprise) $850,00
x402 + ERC-8004 (alto volumen) $420,00
Servicios de documentos $300,00
Stripe enterprise (negociado 2.4%) $1.560,00
──────────────────────────────────────────────────────
Subtotal variable $9.730,00
COSTOS FIJOS
Agent Builder, tier Enterprise $499,00
Doppler Enterprise $180,00
Honeycomb Enterprise $750,00
Cloud infra $400,00
Auditoría SOC2 (amortizada mensual) $700,00
Salario del operador (founder draw) $8.000,00
Lead técnico $11.000,00
Lead de CS $6.500,00
Sales rep $5.500,00
Oficina + beneficios + misc $2.400,00
──────────────────────────────────────────────────────
Subtotal fijo $35.929,00
COSTO TOTAL $45.659,00
NETO $14.341,00
MARGEN 23.9%
El margen se comprime a esta escala porque el operador está reinvirtiendo en gente. La misma flota corrida con el founder solo netearía 50%+, pero el tiempo del operador es la restricción dura a esta escala y las contrataciones son el único camino hacia adelante. El costo variable se mantiene bajo 17% — los unit economics siguen sanos. La línea interesante es "salario del operador" — a esta escala, el operador finalmente está sacando una compensación real, que los dos presupuestos previos no mostraban porque no existía todavía.
Esta forma de negocio es donde la mayoría de los operadores con los que trabajamos hace plateau o break through. Pasados los 200 clientes, el negocio o se vuelve un lifestyle business estable en el rango $60-100K MRR (elección del operador; muchos prefieren esto) o levanta capital y trata de crecer hacia una valuación SaaS real. Ambos son válidos; la tercera opción — quedarse solo más allá de 50 clientes — es la que quema gente.
Los cuatro anti-patrones de costo
Los operadores usualmente no fallan porque los unit economics sean malos. Fallan porque cuatro caminos invisibles de costo componen hasta el punto sin retorno. Cada uno apareció en post-mortems reales de clientes de nuestro lado.
Inflado de contexto. El contexto de trabajo del agente crece linealmente con la conversación, y los costos de tokens del modelo frontera crecen linealmente con el contexto. Un agente diseñado sin memoria de ventana deslizante o sin poda explícita de contexto va a ver un aumento de costo 5x entre la semana uno y la semana ocho para la misma actividad del usuario. Fix: cap de contexto por request, resumir turnos viejos, evict de historiales de tool-call agresivamente. La disciplina del post de memoria aplica acá.
Sobre-dimensionado de modelo. El operador elige Opus porque funciona en el demo y nunca re-evalúa si Sonnet o Haiku funcionarían igual para el 80% rutinario de requests. La factura es 5-15x lo que debería ser. Fix: cada paso del flujo del agente debería estar etiquetado con su requisito de tier, y el routing debería defaultear al tier más barato que cumple el bar. Ver la tabla de routing en el post de Project Deal.
Loops de tool-call. Un agente que reintenta en falla sin backoff, o que llama a la misma tool repetidamente porque el resultado fue ambiguo, puede quemar el presupuesto de un mes en una sola tarde. Vimos $4.000 en un incidente de cuatro horas por un loop de reintento mal-prompteado. Fix: caps duros en tool-calls por request (3-10 según la carga), manejo explícito de error para cada tool, y un kill-switch en el dashboard que cualquier operador puede apretar cuando los costos saltan.
Crecimiento subestimado del corpus RAG. El costo de almacenamiento vector escala con el tamaño del corpus, y los corpora por cliente crecen silenciosamente a medida que el cliente agrega documentos, mailboxes, o fuentes de datos. El patrón del tutorial de Mariana — un cliente conectó un segundo mailbox y triplicó el corpus — es normativo, no excepcional. Fix: caps duros por cliente, tiers de pricing explícitos para crecimiento de corpus más allá de un baseline, monitorear el gráfico de tamaño de corpus tan cuidadosamente como el de token-spend.
Los costos que la página de pricing de la plataforma no menciona
Tres categorías de costo que ningún vendor de plataforma lista en su página de pricing pero que cada operador paga.
Tiempo del operador. La línea de costo más grande de los primeros dieciocho meses es el tiempo propio del operador. A 25 horas/semana y un costo de oportunidad nocional de $50/hora, el operador está "gastando" $5.000/mes antes de que se cobre ningún fee de plataforma. La economía del presupuesto solo de arriba funciona solo si aceptas este costo de oportunidad voluntariamente — es decir, crees en la trayectoria.
Overhead de compliance. Trabajar en industrias reguladas (salud, finanzas, usuarios UE) carga costos fijos que las páginas de pricing SaaS saltean: revisión legal de contratos ($500-3.000 una vez), preparación del technical file del AI Act ($200-1.000 una vez por agente, ver el post del EU AI Act), auditoría SOC2 en la etapa multi-flota ($8.000-25.000 el primer año), acuerdos de procesamiento de datos con cada cliente (tu tiempo). Presupuestá esto desde el mes uno si tu nicho toca datos regulados.
Adquisición de clientes. Los primeros diez clientes en el presupuesto solo cuestan cero porque vienen de la red de primer grado del operador. Los clientes once a cincuenta empiezan a costar. El outreach frío a escala cuesta $100-500 por cliente adquirido; los ads pagos en los nichos relevantes cuestan más. Los operadores más sanos que vemos tratan al contenido (este formato de blog) como la estrategia de adquisición de largo plazo y presupuestan cero para ads pagos durante el primer año. Los no-sanos gastan su margen en Google Ads persiguiendo un crecimiento que nunca compone.
La respuesta honesta a "¿esto vale la pena?"
La aritmética de arriba sugiere tres conclusiones honestas para operadores considerando este camino.
El mes uno al tres es una fase de entrenamiento con margen casi cero por diseño. El operador está pagando dues en tiempo cara al cliente. Si no puedes flotar $500-1.000 de gastos personales durante un trimestre mientras el negocio llega a breakeven, este camino no es el camino correcto en este momento — el financiamiento puente es lo que vuelve posible la composición.
Mes cuatro al doce es cuando la matemática empieza a tener sentido para el operador que eligió un nicho real y se mantuvo enfocado. El presupuesto solo llegando a $5K-10K MRR es alcanzable en esta ventana. Llegar a ese rango requiere decir no a veinte distracciones por cada uno sí — la disciplina de nicho es ella misma una disciplina económica en esta etapa.
El año dos es el punto de bifurcación. Los operadores que se mantuvieron enfocados llegan al presupuesto de pequeña operación y eligen entre quedarse lifestyle (60-80% margen, ingreso vivible, horas controladas) o escalar al modelo multi-flota con contrataciones y menor margen por dólar pero mayor retorno absoluto. Ambos son negocios reales; ninguno es equivocado.
Cómo Agent Builder mapea a estos line items
Tres cosas concretas que el pricing de la plataforma absorbe y no absorbe.
Qué está incluido en el fee bundled. Ejecución de microVM por agente (sin fees por-VM mientras te quedes dentro de los caps blandos que el tier especifica), el dashboard de operador multi-agente, el stack de observabilidad con W3C Trace Context con retención hasta el límite del tier, el catálogo de servers MCP pre-conectados, la herramienta de eval-suite y canary deployment, el minteo de identidad ERC-8004, y la infraestructura de firma de mandates AP2.
Qué pagas por separado. Tokens de modelo a las tarifas publicadas del provider del modelo (no hacemos markup, pasamos through). Los fees de servers MCP premium van directamente a sus providers. Fees del vector store si usas un servicio gestionado (puedes self-hostear si quieres absorber ese costo). Fees del rail de settlement (fees de chain x402, fees del PSP de AP2, Stripe). Costos de attestation on-chain.
Dónde la plataforma absorbe costo en tu nombre. Las lecturas de ERC-8004 (usadas pesadamente por la capa de routing) se hacen en batch y se absorben hasta el límite de tu tier. Las llamadas de inferencia fallidas por errores del provider se acreditan de vuelta. El almacenamiento de observabilidad del dashboard se mantiene dentro del tier aunque tengas un spike. La intención es que el fee de plataforma sea predecible y los operadores no tengan que modelar cargos de plataforma por request — esa línea debería sentarse en "Agent Builder $X/mes" y eso es todo.
Cierre
La economía de correr agentes en 2026 ya no es un debate sobre si la matemática unit funciona. La matemática unit funciona en tres escalas distintas para tres formas distintas de negocio. La pregunta real es la que la planilla no responde: ¿estás dispuesto a invertir el tiempo y la disciplina a través del valle del trimestre temprano donde el margen existe en papel pero el operador todavía está sub-compensado, a cambio del margen compuesto que emerge del mes cuatro en adelante?
Si leíste hasta acá, el próximo movimiento es abrir tu propia planilla y correr el presupuesto contra el nicho que efectivamente elegiste del post de nichos. Mete el ARPU realista para tu vertical elegida, el spend de tokens realista por request, el perfil de settlement realista. El número al que llegues es el número que importa. Los nuestros son los valores centrales; los tuyos son los que tienes que defender frente a ti mismo antes de comprometerte.
El próximo post de esta serie deja la economía cara al operador atrás y se aleja al ecosistema: el mapa competitivo de qué framework, qué plataforma, qué builder encaja dónde. Después de que sepas qué construir, a quién servir, cuánto cuesta, y cómo lanzar en cinco días, la última pregunta es qué herramientas usar al lado de nosotros. Nos vemos allá.