Las agent evals son el proceso de medir sistematicamente si un agente —uno que usa herramientas y da multiples pasos para alcanzar un objetivo— puede realmente cumplir sus tareas. Son una evolucion de las LLM evals, que amplia el objetivo de "una salida" a "una secuencia de acciones". Como un agente planifica, llama a herramientas y actualiza el estado, la salida final por si sola no basta; Google senala que hay que entender el "por que" detras de las acciones de un agente y divide la evaluacion en respuesta final y trajectory. Las cinco dimensiones son: resultado (exito de la tarea, juzgado por el estado final —si existe una reserva en la DB, no la frase "lo reserve"), trajectory (pasos razonables, herramientas correctas en el orden correcto), correccion en el uso de herramientas (herramienta y argumentos correctos, comprobando nombres de funcion y tipos), eficiencia (pasos, tokens, coste, latencia —a menudo senales de observabilidad llevadas a la evaluacion) y calidad de la respuesta final (via LLM-as-judge o una rubrica). Los evaluadores son codigo (rapido/barato/reproducible pero fragil), LLM-as-judge (flexible pero no determinista y necesita calibracion) y humano (estandar de oro pero caro —evitalo si es posible). Anthropic recomienda puntuar el resultado, no el camino: el emparejamiento mecanico de trajectory es "demasiado rigido y fragil" porque los agentes encuentran alternativas validas, mientras que Google y Microsoft ofrecen metricas de coincidencia de trajectory para diagnosticar fallos. Los escollos exclusivos son el no determinismo (pass^k), los errores que se acumulan (p^t), el reward hacking (el brazo robotico de DeepMind fingiendo un agarre) y los conjuntos de eval obsoletos o contaminados. La jugada practica, segun Anthropic: convertir 20-50 fallos de produccion en casos de prueba, ejecutar puntuacion automatizada en CI, separar capability y regression evals, y escribirlas pronto. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld y BFCL son referencias utiles (las puntuaciones cambian segun la version, asi que no las tomes al pie de la letra). Basado en informacion oficial, con las incertidumbres senaladas.

2026/06/20

Últimos artículos

Ver todo

Claude Desarrollo IA y Programación Principiantes

Que son las Agent Evals? Medir tanto el resultado como la trajectory

2026/06/20

Claude Desarrollo IA y Programación Principiantes

¿Qué son los hooks de Claude Code? Ejecuta comandos de shell de forma determinista

Los hooks de Claude Code son comandos de shell definidos por el usuario que se ejecutan automáticamente en puntos concretos del ciclo de vida de Claude Code, haciendo que el "esto siempre debe ocurrir" sea real y determinista sin depender del criterio del LLM. Los eventos clásicos son nueve —SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact—, de los cuales PreToolUse y otros pueden bloquear (deteniendo ediciones a archivos protegidos o comandos peligrosos). Se configuran en settings.json bajo la clave "hooks" como nombre de evento -> matcher -> type + command. El contrato de E/S: un hook recibe JSON en stdin (session_id, tool_input, etc.) y devuelve mediante el código de salida 0 (éxito) / 2 (bloquear, con stderr devuelto a Claude) o JSON estructurado (continue, decision:block, permissionDecision: deny/allow/ask). El principio clave es "los hooks pueden endurecer pero no relajar las restricciones" (deny siempre gana, bloquea incluso bajo bypassPermissions). Casos de uso clásicos: formateo automático tras editar (PostToolUse + Edit|Write), proteger archivos críticos, detener comandos peligrosos, reinyectar contexto (SessionStart), notificaciones/registro de auditoría y probar antes de detenerse (Stop). Sobre seguridad, los hooks ejecutan comandos de shell arbitrarios con tus privilegios, así que configura solo los de confianza y valida/entrecomilla las entradas; la configuración de los hooks se captura al iniciar la sesión (una función de seguridad), de modo que los cambios a mitad de sesión no se aplican. Con base en la documentación oficial, anclado en los nueve eventos clásicos y el contrato de E/S.

2026/06/20

Claude Desarrollo IA y Programación Principiantes

¿Qué son el checkpointing y /rewind de Claude Code? Revierte cambios

El checkpointing y /rewind son una red de seguridad: Claude Code rastrea automáticamente las ediciones de archivos de Claude mientras trabajas, para que puedas volver a "antes de que saliera mal" con unas pocas pulsaciones. Se toma una instantánea antes de cada edición, cada prompt que envías se convierte en un punto de restauración, y los checkpoints persisten entre sesiones. Para usarlo, escribe /rewind o pulsa Esc dos veces cuando la entrada está vacía para abrir el menú, luego elige un punto y selecciona Restaurar código y conversación / Restaurar conversación / Restaurar código (nota: si la entrada tiene texto, Esc dos veces la borra en su lugar). La advertencia más importante: solo se restauran los cambios hechos por las herramientas de edición de Claude (Write/Edit/NotebookEdit) — los cambios de archivos por comandos bash (rm/mv/cp), los cambios fuera de la sesión o de otras sesiones, las operaciones con directorios, los archivos remotos y el estado de la base de datos NO se deshacen al hacer rewind. La documentación lo enmarca como "checkpoints = deshacer local, Git = historial permanente", indicando que complementa pero no sustituye el control de versiones, por lo que hacer commit en Git en los hitos es la regla. /rewind es también la recuperación para el error 400 ligado a la concurrencia de tool-use y los bloques de pensamiento (el propio producto te pide ejecutarlo), aunque las versiones anteriores a v2.1.156 pueden no eliminarlo, así que claude update va primero. Está activado por defecto en la CLI interactiva, es opcional en el Agent SDK y se retiene con las sesiones durante 30 días (configurable). Basado en la documentación oficial, con las incertidumbres señaladas.

2026/06/20

Claude Desarrollo IA y Programación Principiantes

¿Qué son los Claude Managed Agents? La nube totalmente gestionada de Anthropic

Claude Managed Agents se lanzó como beta pública el 8 de abril de 2026 como un conjunto de APIs componibles para crear y desplegar agentes alojados en la nube a gran escala. En lugar de construir tu propio bucle de agente, ejecución de herramientas y runtime, obtienes un entorno totalmente gestionado donde Claude puede leer archivos, ejecutar comandos, navegar por la web y ejecutar código de forma segura, con prompt caching, compactación de contexto, sandboxing y persistencia de estado integrados. Se organiza en torno a cuatro conceptos (Agent, Environment, Session, Events), y el Environment puede ser un sandbox en la nube gestionado por Anthropic o uno autoalojado. La diferencia con el Agent SDK autoalojado (donde tú ejecutas el bucle, las herramientas y la infraestructura) es "lo ejecutas tú vs. lo ejecuta Anthropic": no competidores, sino una elección sobre cuánto de la operación retienes. Una característica distintiva es la memoria persistente con alcance de workspace (un memory store) montada en el sandbox en /mnt/memory, que el agente lee y escribe con operaciones de archivo normales y que persiste entre sesiones (versiones inmutables, retención de 30 días, límites como 100 kB por memoria). El dreaming es un trabajo asíncrono que lee la memoria existente y transcripciones anteriores para producir un memory store reorganizado: fusiona duplicados, actualiza valores obsoletos y pone de relieve nuevas observaciones (una vista previa de investigación que requiere acceso; algunos lo llaman "programado", pero la documentación describe un trabajo asíncrono bajo demanda). También tiene evaluación basada en resultados (un evaluador independiente evalúa frente a tu rúbrica; se informa una mejora de hasta 10 puntos) y orquestación multiagente. El precio es tokens + $0.08 por hora de sesión (medido al milisegundo, solo mientras se ejecuta; alrededor de $0.705 para una sesión de Opus 4.8 de 1 hora). Activado por defecto para todas las cuentas de API, pero con estado, por lo que no es elegible para ZDR ni para un HIPAA BAA. Con base en información oficial, con las incertidumbres señaladas.

2026/06/20

Claude Desarrollo IA y Programación Principiantes

Qué son los plugins de Claude Code y el marketplace

Un plugin de Claude Code agrupa skills, slash commands, subagentes, hooks y servidores MCP en un único directorio versionable y compartible. Aprende su estructura, cómo instalarlo con /plugin, qué es un marketplace, cómo crear y publicar el tuyo propio vía git, y los ámbitos de distribución y la seguridad.

2026/06/20

Claude Desarrollo IA y Programación Principiantes

Subagents vs Agent Teams en Claude Code: la diferencia decisiva

Claude Code tiene dos mecanismos parecidos pero distintos para repartir el trabajo entre varias IA: subagents y Agent Teams. Los subagents son una función integrada que delega tareas acotadas y devuelve solo un resumen; los Agent Teams son experimentales y están desactivados por defecto. Aclaramos la diferencia decisiva y cuál usar.

2026/06/20