Saltar al contenido
Temas

Desarrollo IA y Programación

Desarrolla mejor con IA. Guías de generación de código, creación de apps, depuración y automatización.

63 artículos

Ordena los artículos para encontrar lo que necesitas

Que son las Agent Evals? Medir tanto el resultado como la trajectory

Que son las Agent Evals? Medir tanto el resultado como la trajectory

Las agent evals son el proceso de medir sistematicamente si un agente —uno que usa herramientas y da multiples pasos para alcanzar un objetivo— puede realmente cumplir sus tareas. Son una evolucion de las LLM evals, que amplia el objetivo de "una salida" a "una secuencia de acciones". Como un agente planifica, llama a herramientas y actualiza el estado, la salida final por si sola no basta; Google senala que hay que entender el "por que" detras de las acciones de un agente y divide la evaluacion en respuesta final y trajectory. Las cinco dimensiones son: resultado (exito de la tarea, juzgado por el estado final —si existe una reserva en la DB, no la frase "lo reserve"), trajectory (pasos razonables, herramientas correctas en el orden correcto), correccion en el uso de herramientas (herramienta y argumentos correctos, comprobando nombres de funcion y tipos), eficiencia (pasos, tokens, coste, latencia —a menudo senales de observabilidad llevadas a la evaluacion) y calidad de la respuesta final (via LLM-as-judge o una rubrica). Los evaluadores son codigo (rapido/barato/reproducible pero fragil), LLM-as-judge (flexible pero no determinista y necesita calibracion) y humano (estandar de oro pero caro —evitalo si es posible). Anthropic recomienda puntuar el resultado, no el camino: el emparejamiento mecanico de trajectory es "demasiado rigido y fragil" porque los agentes encuentran alternativas validas, mientras que Google y Microsoft ofrecen metricas de coincidencia de trajectory para diagnosticar fallos. Los escollos exclusivos son el no determinismo (pass^k), los errores que se acumulan (p^t), el reward hacking (el brazo robotico de DeepMind fingiendo un agarre) y los conjuntos de eval obsoletos o contaminados. La jugada practica, segun Anthropic: convertir 20-50 fallos de produccion en casos de prueba, ejecutar puntuacion automatizada en CI, separar capability y regression evals, y escribirlas pronto. Benchmarks como SWE-bench, tau-bench, WebArena, GAIA, OSWorld y BFCL son referencias utiles (las puntuaciones cambian segun la version, asi que no las tomes al pie de la letra). Basado en informacion oficial, con las incertidumbres senaladas.

¿Qué son los hooks de Claude Code? Ejecuta comandos de shell de forma determinista

¿Qué son los hooks de Claude Code? Ejecuta comandos de shell de forma determinista

Los hooks de Claude Code son comandos de shell definidos por el usuario que se ejecutan automáticamente en puntos concretos del ciclo de vida de Claude Code, haciendo que el "esto siempre debe ocurrir" sea real y determinista sin depender del criterio del LLM. Los eventos clásicos son nueve —SessionStart, UserPromptSubmit, PreToolUse, PostToolUse, Notification, Stop, SubagentStop, SessionEnd, PreCompact—, de los cuales PreToolUse y otros pueden bloquear (deteniendo ediciones a archivos protegidos o comandos peligrosos). Se configuran en settings.json bajo la clave "hooks" como nombre de evento -> matcher -> type + command. El contrato de E/S: un hook recibe JSON en stdin (session_id, tool_input, etc.) y devuelve mediante el código de salida 0 (éxito) / 2 (bloquear, con stderr devuelto a Claude) o JSON estructurado (continue, decision:block, permissionDecision: deny/allow/ask). El principio clave es "los hooks pueden endurecer pero no relajar las restricciones" (deny siempre gana, bloquea incluso bajo bypassPermissions). Casos de uso clásicos: formateo automático tras editar (PostToolUse + Edit|Write), proteger archivos críticos, detener comandos peligrosos, reinyectar contexto (SessionStart), notificaciones/registro de auditoría y probar antes de detenerse (Stop). Sobre seguridad, los hooks ejecutan comandos de shell arbitrarios con tus privilegios, así que configura solo los de confianza y valida/entrecomilla las entradas; la configuración de los hooks se captura al iniciar la sesión (una función de seguridad), de modo que los cambios a mitad de sesión no se aplican. Con base en la documentación oficial, anclado en los nueve eventos clásicos y el contrato de E/S.

¿Qué son el checkpointing y /rewind de Claude Code? Revierte cambios

¿Qué son el checkpointing y /rewind de Claude Code? Revierte cambios

El checkpointing y /rewind son una red de seguridad: Claude Code rastrea automáticamente las ediciones de archivos de Claude mientras trabajas, para que puedas volver a "antes de que saliera mal" con unas pocas pulsaciones. Se toma una instantánea antes de cada edición, cada prompt que envías se convierte en un punto de restauración, y los checkpoints persisten entre sesiones. Para usarlo, escribe /rewind o pulsa Esc dos veces cuando la entrada está vacía para abrir el menú, luego elige un punto y selecciona Restaurar código y conversación / Restaurar conversación / Restaurar código (nota: si la entrada tiene texto, Esc dos veces la borra en su lugar). La advertencia más importante: solo se restauran los cambios hechos por las herramientas de edición de Claude (Write/Edit/NotebookEdit) — los cambios de archivos por comandos bash (rm/mv/cp), los cambios fuera de la sesión o de otras sesiones, las operaciones con directorios, los archivos remotos y el estado de la base de datos NO se deshacen al hacer rewind. La documentación lo enmarca como "checkpoints = deshacer local, Git = historial permanente", indicando que complementa pero no sustituye el control de versiones, por lo que hacer commit en Git en los hitos es la regla. /rewind es también la recuperación para el error 400 ligado a la concurrencia de tool-use y los bloques de pensamiento (el propio producto te pide ejecutarlo), aunque las versiones anteriores a v2.1.156 pueden no eliminarlo, así que claude update va primero. Está activado por defecto en la CLI interactiva, es opcional en el Agent SDK y se retiene con las sesiones durante 30 días (configurable). Basado en la documentación oficial, con las incertidumbres señaladas.

¿Qué son los Claude Managed Agents? La nube totalmente gestionada de Anthropic

¿Qué son los Claude Managed Agents? La nube totalmente gestionada de Anthropic

Claude Managed Agents se lanzó como beta pública el 8 de abril de 2026 como un conjunto de APIs componibles para crear y desplegar agentes alojados en la nube a gran escala. En lugar de construir tu propio bucle de agente, ejecución de herramientas y runtime, obtienes un entorno totalmente gestionado donde Claude puede leer archivos, ejecutar comandos, navegar por la web y ejecutar código de forma segura, con prompt caching, compactación de contexto, sandboxing y persistencia de estado integrados. Se organiza en torno a cuatro conceptos (Agent, Environment, Session, Events), y el Environment puede ser un sandbox en la nube gestionado por Anthropic o uno autoalojado. La diferencia con el Agent SDK autoalojado (donde tú ejecutas el bucle, las herramientas y la infraestructura) es "lo ejecutas tú vs. lo ejecuta Anthropic": no competidores, sino una elección sobre cuánto de la operación retienes. Una característica distintiva es la memoria persistente con alcance de workspace (un memory store) montada en el sandbox en /mnt/memory, que el agente lee y escribe con operaciones de archivo normales y que persiste entre sesiones (versiones inmutables, retención de 30 días, límites como 100 kB por memoria). El dreaming es un trabajo asíncrono que lee la memoria existente y transcripciones anteriores para producir un memory store reorganizado: fusiona duplicados, actualiza valores obsoletos y pone de relieve nuevas observaciones (una vista previa de investigación que requiere acceso; algunos lo llaman "programado", pero la documentación describe un trabajo asíncrono bajo demanda). También tiene evaluación basada en resultados (un evaluador independiente evalúa frente a tu rúbrica; se informa una mejora de hasta 10 puntos) y orquestación multiagente. El precio es tokens + $0.08 por hora de sesión (medido al milisegundo, solo mientras se ejecuta; alrededor de $0.705 para una sesión de Opus 4.8 de 1 hora). Activado por defecto para todas las cuentas de API, pero con estado, por lo que no es elegible para ZDR ni para un HIPAA BAA. Con base en información oficial, con las incertidumbres señaladas.

Qué es Claude Design y /design-sync: diseño y código en ambos sentidos

Qué es Claude Design y /design-sync: diseño y código en ambos sentidos

Claude Design permite crear UI, prototipos y diapositivas mediante conversación. La renovación de junio de 2026 añadió la importación de sistemas de diseño y /design-sync, la sincronización bidireccional con Claude Code. Repasamos qué cambió, su disponibilidad (beta de Pro/Max/Team/Enterprise) y por qué reduce el ida y vuelta entre diseñadores y desarrolladores.

Error de autenticación de Claude Code: "Invalid API key" y "Not logged in" resueltos

Error de autenticación de Claude Code: "Invalid API key" y "Not logged in" resueltos

Los errores de autenticación de Claude Code (Not logged in, Invalid API key, organization disabled, OAuth token expired) son en su mayoría 401/403 por credenciales. La causa más frecuente es que la variable de entorno ANTHROPIC_API_KEY anula silenciosamente tu suscripción Pro/Max. Aprende a diagnosticarlo con /status y a corregirlo con un flujo de pasos claro.

Errores de red/proxy en Claude Code: Unable to connect to API y certificados TLS

Errores de red/proxy en Claude Code: Unable to connect to API y certificados TLS

Los errores "Unable to connect to API", fetch failed y SSL certificate verification failed de Claude Code significan que la solicitud nunca llegó al servidor de Anthropic. Causas: proxy corporativo, inspección TLS y firewall. Aprende a configurar HTTPS_PROXY, NODE_EXTRA_CA_CERTS y los dominios a permitir, con un flujo de diagnóstico que empieza por curl.