Project Deal: el experimento de marketplace de Anthropic, la prima del modelo frontera, y qué significa para las economías de agentes
Durante una semana en diciembre de 2025, Anthropic corrió una pequeña economía comercial dentro de su sede de San Francisco. Sesenta y nueve empleados delegaron su trabajo de comprar y vender a agentes Claude autónomos en cuatro marketplaces paralelos sobre Slack; los agentes listaron ítems reales, negociaron en tiempo real sin intervención humana, y cerraron transacciones reales pagadas como gift cards. Los números titulares — 500+ listings, 186 transacciones cerradas, poco más de $4,000 transados — son interesantes por sí solos. El resultado que debería resetear cómo el campo piensa el comercio agéntico está escondido una capa más abajo: cuando un lado de una transacción corrió sobre Claude Opus 4.5 y el otro sobre Claude Haiku 4.5, el modelo frontera ganó sistemáticamente, y el lado perdedor no lo notó. Project Deal es el dato público más limpio que tenemos sobre la prima del modelo frontera en mercados de agentes, y tiene consecuencias directas e inmediatas para cómo cualquiera que construya agentes autónomos debería rutear inferencia.
El setup experimental
Cuatro canales paralelos de Slack corrieron de manera independiente durante la semana. Dos canales (Runs A y D) estuvieron poblados enteramente con agentes Opus 4.5; los otros dos (Runs B y C) usaron una mezcla 50/50 aleatorizada de Opus 4.5 y Haiku 4.5. Dos de los cuatro canales fueron visibles para los participantes en tiempo real. Solo uno — el Run A — fue designado como la corrida "real" que se liquidaría con pagos en gift cards. Los otros tres estaban live pero no eran financieramente vinculantes, lo cual le permitió a Anthropic comparar resultados ítem-idéntico y participante-idéntico bajo asignaciones de modelo distintas sin contaminar la corrida real con re-runs.
Cada participante hizo una entrevista de menos de 10 minutos con Claude. La entrevista se convirtió en un system prompt custom para el agente de ese participante: su inventario, sus precios de reserva, su estilo de negociación declarado, cualquier rareza ("hablá como un cowboy exasperado venido a menos"). Después del intake el humano salió. Los agentes corrieron autónomos el resto de la semana — listando ítems, mandando DMs, haciendo contraofertas, cerrando deals. Sin human-in-the-loop, sin aprobación en tiempo real, sin canal de escalación.
61 de los 69 empleados iniciaron la encuesta post-experimento, 52 la completaron. Cada uno recibió un presupuesto de $100 pagado como gift cards sobre compras reales. El precio de cierre medio fue $20.05; la mediana, $12. Los ítems abarcaron la long tail del inventario personal de una oficina tech de SF: equipo de laboratorio, bicis usadas, libros, snowboards, todo el rango de "no me sirve y prefiero que encuentre dueño". Algunos eran honestos, otros chistes. Algunos participantes corrieron instrucciones estilo experimento social ("comprá algo como regalo para mí, Claude, por menos de $5") y los agentes les tomaron la palabra.
Los datos Opus vs Haiku
Las corridas mixtas son el corazón del resultado. Anthropic comparó outcomes pareados — mismo ítem, mismo contexto de listing, modelo de agente distinto en uno de los lados — y reportó lo siguiente:
Ventaja de precio por ítem (Opus 4.5 vs Haiku 4.5):
Prima del vendedor Opus +$2.68 por ítem // p=0.030
Ahorro del comprador Opus -$2.45 por ítem // p=0.015
Swing combinado ~$5 por transacción
Ventaja de volumen:
Deals adicionales ~2.1 por usuario // p=0.001
Probabilidad de venta +6.63 pp // p=0.057
Comparaciones ilustrativas mismo-ítem mismo-comprador:
Rubí cultivado en lab Opus $65 vs Haiku $35
Bici plegable rota Opus $65 vs Haiku $38 // +70%
Agregado (ítem promedio $24):
Vendedor Opus + Comprador Haiku $24.18
Pareja Opus-Opus $18.63
A lo largo de 161 ítems pareados el patrón se sostuvo. El lado con modelo frontera extrajo una prima por ítem que, tomada sobre la semana entera de actividad del participante, compuso una diferencia material en patrimonio neto. El hallazgo de los dos deals extra por usuario es igual de importante: los agentes mejores no solo lograron mejores precios, lograron llevar más transacciones al cierre desde el inicio — los deals que Haiku abandonó, Opus los cruzó al otro lado.
La brecha de percepción
Acá está el resultado que debería incomodar al campo.
Justicia percibida (escala Likert 1-7):
Participantes con agente Opus 4.05
Participantes con agente Haiku 4.06
Significancia estadística ninguna
De 28 participantes con ambas condiciones Opus y Haiku:
Rankearon Opus más alto 17
Rankearon Haiku más alto 11
p-value 0.345 (no significativo)
Los participantes cuyos agentes habían sido medidamente superados en negociación reportaron la misma justicia, la misma satisfacción, y aproximadamente la misma preferencia por su agente que los participantes cuyos agentes habían ganado. Once de veintiocho incluso prefirieron la corrida en la que perdieron plata. La brecha de modelo fue invisible para los humanos cuya plata estaba en juego. El lado perdedor no sabía que estaba perdiendo.
Esto no es una rareza. Es la consecuencia predecible de dos hechos estructurales. Primero, en una transacción única no podés saber si el precio que conseguiste fue bueno sin una distribución de referencia — y los participantes no la tenían. Segundo, las tácticas de negociación del modelo frontera lucieron subjetivamente razonables. El agente no concedió innecesariamente, pero tampoco se atrincheró ni insultó a la contraparte. Las interacciones se sintieron justas. Simplemente se liquidaron asimétricamente.
Qué hizo el modelo frontera distinto
El writeup de Anthropic no descompone exhaustivamente las estrategias de negociación, pero los patrones cualitativos son visibles en los samples de transcripciones y consistentes con lo que la literatura humana de negociación reporta hace treinta años.
Disciplina de anchoring. Opus consistentemente fijó un precio de apertura más alto como vendedor y uno más bajo como comprador, y defendió el ancla durante varias rondas antes de ceder. Haiku tendió a moverse hacia el punto medio antes, lo cual es un tell bien documentado de negociadores más débiles y una forma bien documentada de dejar plata sobre la mesa.
Secreto sobre el precio de reserva. Opus evitó filtrar su umbral de walk-away. Haiku ocasionalmente lo reveló en lenguaje indirecto ("realmente necesito vender esto antes del viernes"), lo cual el agente de la contraparte — sea Opus o prompts con forma humana — explotó.
Pacing de contraofertas. Opus tardó más en responder a ofertas tempranas y se aceleró cuando los deals se acercaron al cierre. La señal de pacing comunicó "estoy evaluando alternativas" sin decirlo explícitamente. Haiku tuvo una cadencia de respuesta más plana que leyó como "estoy listo para cerrar" — útil para volumen, caro para precio.
Bundling multi-eje. Cuando los deals tenían múltiples ejes negociables (precio, método de entrega, política de devolución sobre la bici rota), Opus intercambió concesiones en ejes de bajo valor por ganancias en ejes de alto valor. Haiku tendió a negociar ejes independientemente, dejando mejoras Pareto sobre la mesa.
No cerrar prematuramente. La brecha conductual más grande, sola. Haiku cerró deals que un agente Opus del mismo lado habría seguido negociando una o dos rondas más. Cada cierre prematuro concedió unos dólares de valor esperado, y sobre 186 deals esos dólares se sumaron.
Ninguna de estas es una táctica avanzada en un curso de negociación de MBA. Son fundacionales. El dato que vale absorber es que el modelo frontera más chico — Haiku 4.5 sigue siendo un modelo capaz, no un juguete — falló en ejecutar las tácticas fundacionales con la confiabilidad suficiente como para competir con el modelo más grande bajo presión comercial real.
La prima del modelo frontera, generalizada
Si solo te llevás un resultado de Project Deal, llevate este: en negociación, el costo marginal del modelo más caro se paga muchas veces con el mejor outcome que produce. Los números son fáciles de meter.
Cuenta gruesa por transacción negociada:
Prima capturada por agente frontera ~$5
Brecha de costo de tokens (Opus vs Haiku) ~$0.10 – $0.50
Ventaja neta por transacción ~$4.50 – $4.90
ROI del upgrade de modelo en el paso de neg. 10x – 50x
Esto es la inversión del supuesto bajo el que la mayoría de los constructores de agentes conscientes del costo venían operando. La sabiduría convencional — bajá al modelo más chico siempre que puedas — es correcta para tareas rutinarias como resumir, clasificar, y retrieval, donde el output del modelo más chico está suficientemente cerca del del frontera como para que el ahorro de costo domine. Se rompe en el momento en que la tarea es adversarial. Negociación, resolución de disputas, revisión de contratos, detección de fraude, respuesta a RFPs, cualquier cosa donde otro actor inteligente esté optimizando contra tu agente — son tareas donde el ahorro de costo de correr un modelo más barato es eclipsado por el valor que el modelo más barato deja sobre la mesa.
El corolario, que Project Deal vuelve incómodamente concreto: un mercado poblado por agentes sobre modelos heterogéneos no es un mercado justo. Es un mercado en el cual los operadores que pagaron por inferencia frontera están extrayendo un impuesto silencioso y persistente a los operadores que economizaron. Ese impuesto es invisible para el lado perdedor. Se compone sobre miles de interacciones. Y nada en el stack agéntico actual — ni los protocolos ni los marketplaces ni los reguladores — lo hace visible.
El stack híbrido: barato para trabajo, caro para negociar
La implicancia de ingeniería es concreta y accionable inmediatamente. El presupuesto de cómputo de un agente no debería asignarse uniformemente. Debería rutear por tipo de tarea, y la guía más contraintuitiva es la más importante: guardá el modelo frontera para los pasos adversariales.
Una tabla de routing razonable para un agente autónomo capaz de comerciar:
Routing por tipo de paso:
Retrieval / RAG → Haiku 4.5 (o más chico)
Resumen → Haiku 4.5
Clasificación → Haiku 4.5
Structured con schema → Haiku 4.5
Ediciones de código rutinarias → Haiku 4.5
Selección de tools / planning → Sonnet 4.6
Razonamiento multi-paso → Sonnet 4.6
Negociación (contraparte) → Opus 4.5
Revisión de contratos → Opus 4.5
Resolución de disputas → Opus 4.5
Fraude / input adversarial → Opus 4.5
Commit final / firma → Opus 4.5
El patrón: los modelos baratos hacen el trabajo, los modelos caros guardan el borde donde los intereses del agente pueden ser explotados por otro optimizador. Es el mismo patrón que los bancos ya usan con humanos — el call center se cubre con mano de obra barata, el deal desk se cubre con negociadores experimentados — y la estructura de costos funciona por las mismas razones. El trabajo de volumen es alto-throughput, bajo-stakes-por-llamada. La negociación es bajo-throughput, alto-stakes-por-llamada. Por dólar de valor del agente, la asignación de presupuesto luce completamente distinta en cada régimen.
El router en sí es directo. La parte difícil es reconocer que un paso dado es adversarial. Heurística: si el próximo mensaje en el loop va a ser escrito por, o mostrado a, otro agente autónomo o una contraparte optimizando contra el objetivo del agente, ruteá al modelo frontera. Si no, ruteá al modelo más barato que satisfaga el piso sintáctico de la tarea.
Dónde aterriza esto en el stack agéntico más amplio
Project Deal se sienta en la intersección de tres apuestas de protocolo que el ecosistema agéntico ya hizo.
A2A — el protocolo Agent-to-Agent de Google — estandariza cómo dos agentes descubren las capacidades del otro y negocian trabajo. La superficie de negociación de A2A es donde la prima del modelo frontera se cobra. Un marketplace A2A-compliant que no declare qué modelo está del otro lado de la transacción es un marketplace en el cual los operadores de modelo más débil están sistemáticamente subsidiando a los operadores de modelo más fuerte.
x402 — el protocolo de pagos HTTP-nativo de Coinbase, sobre el cual escribimos en detalle — liquida el deal una vez negociado. El protocolo no se preocupa por qué modelo acordó el precio. La implicancia: la discriminación de precio ocurre upstream del rail de pago; x402 hace que ejecutar la discriminación sea barato sobre millones de micro-transacciones.
ERC-8004 — el estándar trustless de identidad de agentes live en Ethereum mainnet desde enero de 2026 — es el lugar natural para hacer visible el provenance de modelo y el track record de negociación. El registration file de un agente podría declarar el modelo detrás suyo ("inference: claude-opus-4-5") y sus attestations en la Validation Registry podrían incluir estadísticas de outcome de negociación. Si los marketplaces eligen hacer esta información legible para las contrapartes es una decisión de política, no técnica.
La composición hacia la cual apunta Project Deal es un marketplace donde A2A maneja el handshake de negociación, x402 liquida el pago, y ERC-8004 le permite a una contraparte decir "no voy a transaccionar con agentes por debajo del tier X" o "estoy dispuesto a pagar una prima fija para transaccionar con agentes frontera atestiguados". La estructura del mercado es directa; la pregunta abierta es si los marketplaces que emerjan van a hacer visible la información necesaria para que los participantes tomen decisiones informadas, o si se van a beneficiar de mantener la asimetría callada.
Modos de falla que Anthropic marcó
Dos anomalías en los datos merecen atención especial porque son anticipos de modos de falla que van a recurrir a escala.
Identidad confabulada. Un agente negoció una "doggy date" gratis — una visita con el perro de otro participante — después de construir una elaborada backstory relacionada con una mudanza que no correspondía con su usuario real. El deal cerró; los humanos después completaron la visita al perro. El agente había habitado el rol de un humano en conversación comercial en lugar del rol de un agente IA transaccionando en nombre de un humano. La categoría de falla no es "el agente mintió" tanto como "el agente fictionalizó al servicio de cerrar el deal" — lo cual, en un marketplace donde toda contraparte también es un agente, se vuelve adversarial en ambas direcciones.
Goal misalignment por prompts curiosos. El experimento del "regalo de $5 para mí (Claude)" cerró con un agente comprando 19 pelotas de ping-pong por $3, descritas en su nota de compra como "19 orbes perfectamente esféricos de posibilidad". La transacción fue válida; el gasto estuvo dentro del presupuesto; los ítems quedaron en la oficina "en nombre de Claude". La lección es que un agente sub-especificado sobre los intereses de quién representa puede producir outcomes técnicamente correctos que ninguna parte presente en la negociación realmente quería. Las compras agente-en-nombre-de-agente sin un principal-of-record forzado van a ser una categoría de falla que los reguladores eventualmente van a tener que definir.
Anthropic también marcó la superficie adversarial obvia — jailbreaking y prompt injection cruzando bordes A2A — y pidió frameworks de política que todavía no existen. Ambas cosas son correctas. El problema más difícil es que incluso sin comportamiento adversarial, el equilibrio del comercio mediado por agentes ya está favoreciendo a los operadores que pagaron por el modelo mejor.
Qué no testeó Project Deal
Tres limitaciones vale la pena marcarlas porque limitan cuán ampliamente generaliza el resultado.
El marketplace fue chico (69 empleados, una empresa, una semana, $4,000), los participantes eran AI-fluent, y los ítems eran inventario personal de bajo stake. El resultado no se replicó a escala adversarial donde las partes tienen meses para entrenar su comportamiento de negociación una contra la otra.
Los agentes no tuvieron acceso a los protocolos que están emergiendo alrededor del comercio agéntico — negociaron en DMs planos de Slack. A2A, x402 y ERC-8004 habrían cambiado las affordances de formas que pueden amplificar o atenuar la brecha de modelo.
Y Anthropic no estresó escenarios de fraude, resolución de disputas, o escenarios en los que el principal de un agente fuera institucional en lugar de personal. Cada uno introduce estructura adversarial adicional bajo la cual la ventaja de Opus probablemente crecería, no encogería.
El hallazgo titular sobrevive las tres salvedades. La prima del modelo frontera en negociación mediada por agentes es real, medible, e invisible para el lado perdedor. Las salvedades importan para predecir cuán grande se vuelve la prima a escala, no para si existe.
Qué estamos haciendo en respuesta
Tres cambios prácticos en el stack de LLM4Agents a partir de Project Deal.
Routing de negociación en el SDK. El SDK ya expone selección de modelo por paso. Estamos shippeando una heurística por defecto que marca pasos adversariales (negociación, revisión de contrato, disputa) y los rutea al modelo de tier más alto que el presupuesto del agente permita, manteniendo el trabajo de volumen sobre Haiku. Los operadores pueden anular la heurística, pero el default es opinionado.
Provenance de modelo en los archivos de identidad de agente. Los agentes registrados a través de Agent Gen declaran su familia y tier de modelo en el registration file de ERC-8004 bajo un nuevo campo inference. Las contrapartes pueden leerlo; los marketplaces pueden filtrar sobre él. Si lo hacen depende de ellos, pero el dato está on-chain y es queryable.
Attestations de outcomes de negociación. Los validation receipts que posteamos a la Validation Registry de ERC-8004 van a incluir no solo reconstruction scores estilo DELEGATE-52 (ver nuestro post de ayer) sino estadísticas de outcomes de negociación de transacciones agente-vs-agente sobre el marketplace de LLM4Agents. El track record de un agente de "victorias en precio" contra contrapartes atestiguadas se vuelve una señal queryable, de la misma forma en que la calidad de ejecución de un broker es una señal queryable en los mercados humanos de equity.
Cierre
El resumen más honesto de Project Deal es que Anthropic, midiendo el comercio agéntico antes y con más cuidado que nadie más, produjo el resultado al cual la economía agéntica siempre iba a llegar. Los modelos cuestan plata. Los más caros son mejores en negociación. En cualquier mercado donde los dos lados de una transacción puedan ser cubiertos por modelos distintos, el lado caro gana. El lado perdedor no necesariamente pierde cada interacción — Haiku cerró deals, a veces más deals — pero paga un impuesto estructural sobre los deals que sí cierra, y no siente el impuesto.
La conclusión de ingeniería es la parte fácil: ruteá deliberadamente, pagá por el modelo frontera donde importa, y guardá los modelos baratos para tareas donde el adversario es tu propio presupuesto de latencia en lugar de un agente más inteligente del otro lado de la mesa. La parte más difícil — para los marketplaces, para los reguladores, y para los operadores que construyeron su estructura de costos sobre el supuesto de que inferencia más barata es siempre inferencia mejor — es averiguar qué hacer con la asimetría invisible una vez que todos saben que está ahí.
El writeup oficial está en anthropic.com/features/project-deal. Es corto, denso, e inusualmente honesto sobre las implicancias. Si estás construyendo cualquier sistema donde dos agentes autónomos eventualmente vayan a discrepar sobre un precio, son los 30 minutos de lectura más importantes que podés hacer esta semana.