"La ingeniería de prompts ha muerto": ese estribillo empezó a circular hacia 2025. Lo que ocupó su lugar es el concepto de "ingeniería de arnés" (Harness Engineering). Acuñado por investigadores de Anthropic y por los ingenieros que construyen agentes como Claude Code y Cursor, se ha convertido rápidamente en una de las disciplinas centrales de ingeniería de la era de los agentes de IA.

Este artículo explica qué es realmente la ingeniería de arnés, en qué se diferencia de la ingeniería de prompts, los seis componentes que conforman un arnés, una lista de verificación práctica para el diseño y ejemplos concretos de las herramientas líderes actuales: la base que necesitas si te tomas en serio el uso o la construcción de agentes de IA.

MAPA CONCEPTUAL

Un arnés = las 4 capas que envuelven al LLM

— como el arnés de un caballo, el aparejo que canaliza a un animal poderoso hacia tu objetivo

1
NÚCLEO — LLM
El propio motor de razonamiento (Claude / GPT / Gemini). Los prompts dirigen su comportamiento.
2
CAPA DEL ARNÉS
Definición de herramientas, gestión de contexto, memoria, bucle del agente. El diseño central que decide qué hace realmente el LLM.
3
CAPA DE SEGURIDAD
Hooks, sandbox, límites de permisos, modo de aprobación. Bloquea físicamente comportamientos descontrolados y daños.
4
CAPA DE UX
Renderizado de Markdown, citas, streaming, razonamiento visible. Salidas que los usuarios pueden confiar y verificar.

Con el mismo LLM, solo el diseño del arnés puede mover drásticamente tanto la calidad como la seguridad.
Ese es el campo de batalla de la "ingeniería de arnés": una disciplina de diseño completamente nueva.

1. ¿Qué es la ingeniería de arnés (Harness Engineering)?

"Harness" se refiere originalmente al equipo y arreos usados sobre un caballo: el aparejo que canaliza la fuerza del animal en la dirección que quieres. El término en IA funciona exactamente con la misma metáfora: el conjunto completo de equipamiento que pone a trabajar de forma productiva a un LLM potente pero indómito.

Concretamente, eso incluye:

  • Herramientas (tools): operaciones de archivos, búsqueda web, ejecución de código — los medios por los cuales el LLM puede actuar.
  • Gestión de contexto: la estrategia sobre qué entra en el prompt y qué se comprime o se descarta.
  • Sistemas de memoria: conocimiento persistente y preferencias del usuario que sobreviven entre sesiones.
  • Bucle del agente: el ciclo percibir → razonar → actuar → observar.
  • Guardarraíles (guardrails): permisos, sandbox, Hooks, flujos de aprobación.
  • Formato de salida: markdown, JSON, citas, streaming.

Diseñar todo eso en conjunto es lo que llamamos ingeniería de arnés. En lugar de entrenar o mejorar el LLM en sí, es el oficio de elevar la utilidad real diseñando todo lo que rodea al LLM. Claude Code, Cursor, Devin, Codex CLI: todos funcionan con modelos más o menos iguales y, sin embargo, su comportamiento y rendimiento divergen marcadamente debido a la diferencia de sus arneses.

2. Ingeniería de arnés vs. ingeniería de prompts

La ingeniería de prompts no ha desaparecido, pero el alcance es fundamentalmente distinto.

DimensiónIngeniería de promptsIngeniería de arnés
ObjetivoTexto de entrada de un solo turnoTodo el sistema (herramientas, memoria, bucle)
Trabajo principalOptimizar la redacción del prompt, elegir ejemplos few-shotDiseño de herramientas, estrategia de contexto, diseño del bucle
EntregablePlantillas de textoCódigo, configuración, arquitectura del sistema
Habilidades requeridasSensibilidad lingüística, intuición sobre el comportamiento del LLMIngeniería de software general
Alcance del impactoCalidad de una respuestaTasa de finalización, coste y seguridad de tareas largas
Ejemplo"Piensa paso a paso"Definir una herramienta calculadora y dejar que el LLM la invoque

Si la ingeniería de prompts es el oficio de "qué decirle al LLM", la ingeniería de arnés es el oficio de "qué darle al LLM y cómo operarlo". Las dos no compiten: están en capas. El prompt es solo un componente dentro del arnés.

3. Los 6 componentes de un arnés

1. Uso de herramientas (Tool Use)

El medio del LLM para actuar en el mundo: leer y escribir archivos, ejecutar código, buscar en la web, llamar APIs. Si te equivocas con la interfaz de la herramienta — nombres, argumentos, valores de retorno —, el LLM no podrá usarla correctamente. Concretamente:

  • Nombres basados en verbos, sin ambigüedad (p. ej. read_file).
  • Argumentos obligatorios vs. opcionales explícitos, con valores por defecto.
  • Mensajes de error estructurados ante fallos (decirle al modelo qué hacer a continuación).
  • Advertencias explícitas en operaciones con efectos secundarios (destructivas).

2. Gestión de contexto

La atención del LLM es finita: lo que le muestras determina lo que dice. Concretamente:

  • Filtrado por relevancia: extraer solo las partes relevantes para la tarea, no archivos enteros.
  • Compactación: resumir conversaciones largas para conservarlas.
  • Integración con RAG: traer lo necesario mediante búsqueda vectorial.
  • Caché: recortar coste en system prompts repetidos usando herramientas como el prompt cache de Anthropic.

Relacionado: ¿Qué es RAG?

3. Sistema de memoria

Mantener conocimiento entre sesiones. CLAUDE.md de Claude Code, .cursor/rules de Cursor y AGENTS.md de Codex son todos ejemplos de memoria de proyecto. Más allá de eso:

  • Memoria a corto plazo: historial reciente de conversación.
  • Memoria a largo plazo: perfil del usuario, decisiones pasadas.
  • Conocimiento factual: bases de conocimiento específicas del dominio.

4. Bucle del agente

El núcleo que hace que un "agente de IA" funcione realmente. La forma base es el ciclo percibir → razonar → actuar → observar:

  1. Recibir el objetivo del usuario.
  2. Analizar el estado actual (recopilar información con herramientas si es necesario).
  3. Planificar la siguiente acción.
  4. Actuar mediante una herramienta.
  5. Observar el resultado; comprobar si se cumple el objetivo.
  6. Iterar si no, terminar si sí.

Lo inteligente que llegue a ser tu agente depende de si incorporas replanificación, autocrítica y descomposición en subobjetivos.

5. Guardarraíles (Guardrails)

Los mecanismos que evitan comportamientos descontrolados. Como cubre Por qué la IA ignora tus reglas .md, imponer el comportamiento a través del entorno es mucho más fiable que pedirlo amablemente en prosa:

  • Modo de aprobación: las operaciones peligrosas requieren confirmación humana (p. ej., el modo Plan de Claude Code).
  • Sandbox: restringir el acceso al sistema de archivos y a la red.
  • Hooks: comprobaciones arbitrarias antes y después de las llamadas a herramientas.
  • Limitación de tasa: minimizar el daño si algo se descontrola.

6. UX de salida

Presentar los resultados de forma que el usuario pueda entender y verificar. Renderizado de markdown, citas de fuentes, bloques de código con resaltado de sintaxis, salida en streaming, razonamiento visible (thinking), salida estructurada (JSON), etc. Producir la "respuesta correcta" no basta: es trabajo del arnés entregarla en una forma en la que el usuario pueda confiar y verificar.

4. ¿Por qué la ingeniería de arnés y por qué ahora?

Tres fuerzas están impulsando el auge del interés en el trabajo de arnés.

1. El techo de la capacidad bruta del LLM ya se ve. Con modelos del nivel GPT-5, Claude Opus 4.7 y Gemini 3.1 Pro en circulación, las ganancias en benchmarks han empezado a aplanarse. El rendimiento real para un modelo fijo puede oscilar 2x o más según el arnés, lo que significa que hemos entrado en una era en la que cambiar el arnés rinde más que cambiar el modelo.

2. Los problemas que los prompts por sí solos no pueden resolver se acumulan. "Demasiadas herramientas, el modelo elige la equivocada". "El contexto está tan saturado que la señal importante queda enterrada". "En tareas largas, el agente pierde el hilo a mitad de camino". Estos no son problemas que se arreglen con una redacción más ingeniosa en un solo turno: son problemas de diseño.

3. El cuello de botella para los agentes de IA en producción se ha trasladado al arnés. 2024 fue la carrera por hacer LLMs más inteligentes. De 2025 a 2026 es la carrera por hacer arneses más inteligentes. Cada producto importante — Claude Code de Anthropic, Codex de OpenAI, Cursor, Devin — compite en ingeniería de arnés.

5. Una lista práctica para diseñar un arnés

7 puntos de control para un buen arnés

1. DISEÑO DE HERRAMIENTAS
Verbos para los nombres, argumentos explícitos
Los errores vuelven como mensajes estructurados que dicen "haz esto a continuación".
2. CONTEXTO
Inyectar solo lo relevante, de forma dinámica
Prompt cache más RAG: lo justo para leer, nunca tanto como para atragantarse.
3. MEMORIA
Una sola fuente de verdad para la memoria persistente
Mantén CLAUDE.md / AGENTS.md cortos, mueve el detalle a SPEC.md.
4. BUCLE
Hacer explícitas las condiciones de terminación
Define siempre iteraciones máximas, tokens máximos y un timeout.
5. SEGURIDAD
Las operaciones destructivas requieren aprobación previa
Los Hooks bloquean automáticamente; el sandbox limita el radio de impacto.
6. OBSERVABILIDAD
Registra cada llamada a herramienta
Trazabilidad para reconstruir lo ocurrido a posteriori.
7. COSTE
Diseñar pensando en la economía de tokens
Caché, APIs por lotes, sub-agents — todo mantiene el coste mensual a raya.

6. Comparativa de los principales arneses

Tendencias de diseño de los principales arneses de agentes de IA

Claude Code
Anthropic
Fortalezas
Hooks ricos / sub-agents / modo Plan / slash commands.
Memoria
CLAUDE.md a nivel de usuario y de proyecto.
Punto fuerte
Programación compleja, tareas largas
Cursor
Anysphere
Fortalezas
Integración con el IDE, selección de contexto vía @-mention.
Memoria
.cursor/rules/*.mdc aplicados mediante patrones glob.
Punto fuerte
Edición interactiva de código, feedback inmediato
Codex CLI
OpenAI
Fortalezas
Modo de aprobación conmutable, sandbox impuesto.
Memoria
AGENTS.md (los modelos clase GPT-5 toleran archivos más largos).
Punto fuerte
Flujos en CLI, integración con pipelines de código
Devin
Cognition
Fortalezas
Agente totalmente autónomo con integración de navegador, IDE y shell.
Memoria
Memoria persistente propietaria más una función Knowledge.
Punto fuerte
Tareas para "delegar y olvidar", entrega de extremo a extremo

Cada uno de estos arneses funciona con más o menos los mismos LLMs (Claude / GPT / Gemini), y sin embargo sus fortalezas divergen marcadamente debido a filosofías de diseño de arnés diferentes. "¿Qué arnés?" importa más que "¿qué LLM?": ese es el verdadero campo de batalla de la era de los agentes.

7. Antipatrones

1. Añadir demasiadas herramientas

Una vez que cruzas más o menos las 20 herramientas, la probabilidad de que el LLM elija la equivocada se dispara. Sé implacable manteniendo solo las herramientas que realmente necesitas, y fusiona las similares.

2. Meterlo todo en el contexto

"Mejor enséñaselo todo, por si acaso" es contraproducente. Pásalo por un filtro de relevancia e incluye solo lo necesario. El contexto es un dispositivo para resaltar la señal importante, no un trastero.

3. Implementar la seguridad solo con prompts

"Por favor, no realices operaciones peligrosas" se ignora tarde o temprano, según la situación. La respuesta correcta es hacerlo físicamente imposible a nivel de entorno: sandbox, Hooks, límites de permisos.

Resumen

La ingeniería de arnés es el oficio de diseñar la capa "exterior" al LLM. La ingeniería de prompts es solo un componente dentro del arnés. Tratar los seis elementos con intención — definición de herramientas, gestión de contexto, memoria, bucle, guardarraíles, UX de salida — puede transformar el rendimiento real partiendo del mismo LLM subyacente.

A fecha de 2026, el principal campo de batalla para los agentes de IA en producción se ha trasladado claramente al arnés. Construir "arneses inteligentes" — y no solo escribir "prompts inteligentes" — será el factor diferencial para la próxima generación de ingenieros.

FAQ

P1. ¿Entonces ya no necesitamos la ingeniería de prompts?

Falso. Sigue siendo esencial, como un componente dentro del arnés. Las descripciones de herramientas, los system prompts, los mensajes de error: todas esas son superficies de diseño de prompts. Lo que está obsoleto es la mentalidad de "esto lo arreglo con un mejor prompt".

P2. ¿Cuál es el primer paso para aprender ingeniería de arnés?

Coge Claude Code o Cursor y no te limites a usarlo: cambia su comportamiento ajustando su configuración. Escribe un CLAUDE.md / .cursor/rules. Prueba los Hooks. Construye un slash command. Esa es la experiencia práctica de qué es realmente un arnés.

P3. ¿Los arneses son lo mismo que frameworks como LangChain?

Cercano, pero no es lo mismo. Un framework es un kit de implementación; un arnés es una disciplina de diseño y una mentalidad. LangChain, LlamaIndex, el Claude Agent SDK y similares son herramientas para construir arneses.

P4. ¿Construir mi propio arnés o usar uno existente?

Para la mayoría de casos, un arnés existente (Claude Code, Cursor, etc.) más personalización es suficiente. Construir uno desde cero solo tiene sentido para requisitos empresariales, dominios de nicho u optimización extrema de costes.

P5. ¿"Ingeniero de arnés" se convertirá en un puesto de trabajo real?

Las señales ya están ahí. Anthropic, OpenAI, Cursor y otras empresas que construyen agentes han empezado a contratar para puestos como "Agent Engineer", "Tool Designer" y "Context Engineer". Hacia 2027 o 2028, es probable que se asiente como su propia categoría laboral.