● 12 de mayo, 2026 Investigación · 8 min

Memoria de agentes en 2026: Graphiti, Mem0 y la capa que aún no construimos

Un agente autónomo sin memoria es un chatbot con pasos extra. En 2026, la memoria pasó por fin a ser un componente de primera clase del stack agéntico — con benchmarks propios, literatura de investigación propia, y una diferencia de rendimiento medible entre approaches. Esto es lo que hacen Graphiti y Mem0, dónde rompe cada uno, y qué alternativas merece seguir antes de apostar tu arquitectura.

Hace dos años, "memoria de agentes" significaba una vector database con un retrieval atornillado al chat loop. Ese setup ya es insuficiente para cualquier cosa más allá de una demo. La razón es simple: un agente que opera durante semanas en muchas sesiones, muchos usuarios y muchas tools necesita saber qué sigue siendo cierto, qué fue cierto y quedó superado, qué ya intentó y qué no debe volver a intentar. Nada de eso se reduce a similitud por coseno.

Los dos proyectos open source que tomaron este problema en serio y lanzaron respuestas production-grade son Graphiti (el motor de grafo temporal dentro de Zep) y Mem0. No compiten por el mismo caso de uso, y las diferencias son más nítidas de lo que sugieren sus páginas de marketing.

Graphiti: knowledge graph bi-temporal

Graphiti modela todo lo que el agente ha visto como un grafo dirigido de entidades, relaciones y hechos — con cada hecho llevando dos timestamps. Uno registra cuándo el hecho se volvió cierto en el mundo (t_valid); el otro, cuándo el sistema lo ingestó (t_ingested). Cuando un hecho nuevo contradice uno existente, el edge viejo no se borra: recibe un t_invalid y queda queryable.

Ese modelo bi-temporal es el punto. "Alice trabaja en Acme" no es el mismo hecho que "Alice trabajó en Acme entre 2024-09 y 2025-11"; un agente que confunde los dos te dará un cargo equivocado con alta confianza. Graphiti hace la diferencia explícita en el schema.

El retrieval es híbrido: embeddings densos para similitud semántica, búsqueda BM25 para match exacto de entidad, y graph traversal para razonamiento multi-hop. La combinación importa porque elimina la necesidad de una pasada de LLM summarisation en query time — Graphiti devuelve subgrafos rankeados en tiempo aproximadamente constante independiente del tamaño del grafo, que es lo que lo hace usable para agentes interactivos.

En los benchmarks publicados de Zep, la memoria respaldada por Graphiti supera a MemGPT en Deep Memory Retrieval y obtiene alrededor de quince puntos más que Mem0 en la sección de razonamiento temporal de LongMemEval. El coste es operacional: estás corriendo una graph database (Neo4j o FalkorDB), y estás pagando una llamada LLM en cada ingestión para extraer entidades y relaciones desde texto plano.

Cuándo Graphiti es la respuesta correcta — agentes long-lived donde los hechos sobre la misma entidad cambian en el tiempo (un asistente CRM, un personal trainer, un experto en un dominio), y donde respuestas con período-temporal-equivocado son fallos visibles al usuario. Menos obviamente correcto cuando la mayoría de tu memoria son factoides one-shot sin estructura temporal.

Mem0: vector-first, managed por defecto

Mem0 toma el punto de partida opuesto. El store por defecto es una vector database con metadata key-value; la extracción, la detección de conflictos y el retrieval los maneja un pipeline pequeño que el usuario no tiene que ensamblar. Hay una oferta managed en mem0.ai y una librería open source que refleja la mayoría de sus capacidades.

Los números que Mem0 publica son agresivos: 91.6 en LoCoMo, 93.4 en LongMemEval, alrededor de 200ms de latencia p95 de retrieval, y aproximadamente 7,000 tokens por retrieval versus 25,000+ para un approach full-context. La reducción de 3–4× en coste de tokens es el verdadero titular para deployments en producción — cuando un agente habla con un usuario miles de turnos, los ahorros se acumulan.

Mem0 también lanza una variante graph-augmented llamada Mem0g, que construye un knowledge graph dirigido y etiquetado al lado del vector store durante la extracción. En preguntas multi-hop, Mem0g obtiene 68.4% LLM-as-a-judge versus 66.9% del Mem0 vanilla. La mejora es real pero menor que el gap que Graphiti logra en razonamiento temporal, porque Mem0g trata al grafo como un booster de retrieval en vez de como el modelo de datos primario.

El tradeoff que hace Mem0 es en precisión temporal. Los conflictos se detectan y el hecho más nuevo gana, pero la historia no es bi-temporal por defecto — pierdes la capacidad de responder "¿qué creía el sistema el mes pasado?" de forma limpia. Para la mayoría de asistentes consumer esto es aceptable. Para un agente que tiene que justificar sus decisiones a un revisor humano o a una auditoría de compliance, no lo es.

Cuándo Mem0 es la respuesta correcta — agentes de personalización, support bots, cualquier cosa donde el objetivo sea "recuerda al usuario entre sesiones y recupera contexto relevante rápido" y no quieras correr una graph database. También la pick correcta cuando necesitas un managed service en vez de infraestructura que mantener.

La elección entre los dos, en una frase

Elige Graphiti cuando el agente necesita razonar sobre cómo cambiaron los hechos en el tiempo. Elige Mem0 cuando el agente necesita recuperar el contexto correcto barato y a escala. Los propios frameworks lo saben — el equipo de Mem0 ha reconocido abiertamente que Zep obtiene mejores puntuaciones en razonamiento temporal, y el equipo de Zep ha reconocido que Mem0 gana en eficiencia de tokens y amplitud de ecosistema.

Si necesitas las dos cosas, puedes apilarlas: Mem0 como working memory para la conversación activa, Graphiti como almacén de hechos a largo plazo que el agente consulta cuando necesita historia con ground truth. No hemos visto un deployment público documentado que corra ambas todavía, pero la arquitectura es directa y esperamos verla aparecer dentro del próximo trimestre.

Letta: el agente decide qué recordar

Letta (el framework antes conocido como MemGPT) aborda el problema desde un ángulo diferente. En lugar de un pipeline de extracción que construye memoria automáticamente, Letta le da al agente tools para gestionar su propia memoria — tres niveles explícitos prestados del diseño de sistemas operativos: core memory en la ventana de contexto (RAM), recall memory como historial de conversación searchable (caché en disco), y archival memory como almacenamiento frío a largo plazo accedido por tool call.

El agente usa tool calls para leer, escribir, editar y consolidar entre los niveles. En LongMemEval, Letta llega a aproximadamente 83.2% en total, que es competitivo con los mejores sistemas basados en grafo en tareas que recompensan el juicio en vez de la precisión de retrieval.

La debilidad honesta: la calidad de la memoria es ahora enteramente función del juicio del modelo. Si el modelo escribe una nota equivocada a core memory, el razonamiento futuro compone el error. Letta es la pick correcta cuando tu agente es long-running, el modelo es capaz, y confías en él para curarse a sí mismo. Es la pick equivocada cuando necesitas garantías de recall deterministas.

Lo que viene, vale la pena seguirlo

Cuatro direcciones merecen tiempo de investigación antes de fin de año.

Titans, y test-time memorization a nivel de arquitectura. Titans (Google Research) construye memoria directamente dentro del transformer, usando una métrica de "surprise" para decidir qué tokens nuevos comprometer a un módulo de neural memory durante inferencia. Escala a 2M+ de contexto con mayor precisión en needle-in-haystack que los baselines de long-context, y no necesita un store externo. Si una arquitectura sucesora sale en un modelo frontier con memoria a largo plazo nativa, toda la capa de memoria externa se vuelve opcional para muchos casos.

MemOS, y memoria como recurso schedulable. MemOS propone un sistema operativo de memoria que unifica tres tipos de memoria bajo una sola abstracción (llamada MemCube): plaintext memory, activation memory (estados de KV-cache), y parametric memory (pesos). La idea interesante es que la memoria debería ser un recurso schedulable que el agente asigna y desaloja deliberadamente, no un store pasivo. Es el camino más limpio que hemos visto hacia agentes que negocian conscientemente espacio de context window por coste de retrieval.

Procedural memory. La mayoría de sistemas actuales manejan memoria episódica (qué pasó) y memoria semántica (qué se sabe). Casi ninguno maneja memoria procedural de forma limpia — "cómo hacer este tipo de tarea", reutilizable entre sesiones. El self-editing de Letta es lo más cerca, pero el campo está completamente abierto. Esperamos las primeras librerías dedicadas a procedural memory dentro de doce meses.

Multi-grafo y memoria self-evolving. Papers recientes — MAGMA (multi-graph agentic memory), MemRL (memoria episódica aprendida por refuerzo), Agentic Memory (gestión unificada long/short-term) — apuntan a sistemas de memoria que aprenden su propia política de retrieval en vez de depender de un pipeline de extracción fijo. Ninguno está production-ready hoy; todos vale la pena leerlos.

Dónde aterriza esto para builders hoy

Si vas a lanzar un agente en el próximo trimestre, elige Mem0 o Graphiti según si tu problema duro es economía de tokens o razonamiento temporal. Si haces personalización y quieres moverte rápido, el managed service de Mem0 es el camino de menos resistencia. Si haces cualquier cosa donde el tiempo importa — finanzas, salud, workflows regulados, operaciones long-running — empieza con Graphiti y acepta el overhead operacional.

Trata a Letta como opción seria para agentes en los que confías para auto-gestionarse, y corre LongMemEval y LoCoMo contra tus propios datos antes de comprometerte. Los números en los papers son reales pero no son tus números.

Sigue Titans, MemOS y la investigación en procedural memory como las cosas que podrían volver obsoleta tu decisión arquitectónica actual en 2027. Ninguno está production-ready en mayo de 2026; todos son lo suficientemente creíbles como para que la pregunta "capa de memoria externa vs memoria nativa del modelo" merezca revisarse en doce meses.

Construye agentes con memoria persistente sobre LLM4Agents

Gateway LLM OpenAI-compatible, MCP tools, fondeo gasless en USDC/USDT — el resto del stack agéntico para que puedas concentrarte en la arquitectura de memoria que realmente quieres.

Registrar agente