Saltar al contenido
Temas

Principiantes

¿Nuevo en la IA? Comienza aquí. Guías para principiantes sobre conceptos de IA y primeros pasos prácticos.

115 artículos

Ordena los artículos para encontrar lo que necesitas

¿Qué es el reranking? La recuperación en dos etapas que mejora la precisión de RAG — Guía para principiantes

¿Qué es el reranking? La recuperación en dos etapas que mejora la precisión de RAG — Guía para principiantes

Construiste un sistema RAG pero la calidad de búsqueda es mediocre: justo ahí es donde ayuda el reranking. El reranking vuelve a puntuar por su relevancia respecto a la consulta los candidatos reunidos de forma aproximada por la búsqueda por embeddings (vectorial) y los reordena, conservando solo los mejores; este único paso puede cambiar drásticamente la calidad de las respuestas de un sistema RAG. Esta guía para principiantes cubre qué es el reranking (con la analogía de una primera criba y una entrevista final), por qué hace falta (la búsqueda por embeddings vectoriza la consulta y los documentos por separado, así que juzga la relevancia solo de forma tosca, y un mal orden reduce directamente la calidad de las respuestas; la investigación reporta en torno a un 40% de mejora de precisión en RAG al añadir reranking, y superponerlo a la hybrid search es el estándar de 2026), cómo funciona la recuperación en dos etapas («reunir amplio» con la rápida búsqueda por embeddings para el recall, luego «acotar con criterio» con el reranker para la precisión, y entregar los mejores al LLM), por qué un reranker es más preciso (un bi-encoder vectoriza la consulta y el documento por separado y es rápido pero aproximado; un cross-encoder los introduce juntos y produce una puntuación de relevancia de 0–1, preciso pero pesado, así que reúnes con el rápido bi-encoder y acotas con el preciso cross-encoder) y los modelos e implementación (tipo API como Cohere Rerank, Voyage y Jina; open-source como BGE reranker, mixedbread y FlashRank; y puntuación con LLM como RankLLM: basta con recuperar 50–100 y acotar a los 5 mejores). El principio: reunir amplio, acotar con criterio y afinar las cantidades con evaluaciones de IA.

¿Qué son las barreras de protección (guardrails) de IA? Defensa contra la inyección de prompts y protección de entrada/salida — Guía para principiantes

¿Qué son las barreras de protección (guardrails) de IA? Defensa contra la inyección de prompts y protección de entrada/salida — Guía para principiantes

Una vez que sabes construir aplicaciones de IA, la siguiente etapa es ejecutarlas de forma segura. Los LLM pueden ser engañados por entradas maliciosas, filtrar datos confidenciales o afirmar disparates con seguridad; el mecanismo de seguridad que evita esto son las barreras de protección (guardrails) de IA, ya una parte esencial de la producción en 2026, cuando los incidentes de agentes de IA ocurren de verdad. Las barreras de protección son reglas y filtros que contienen las entradas peligrosas y las salidas indeseables, revisando la entrada del usuario antes de que llegue al LLM y la respuesta antes de que vuelva: una capa de seguridad independiente, separada del propio modelo. Las principales amenazas son la inyección de prompts (la mayor), los jailbreaks, la filtración de datos (datos confidenciales, PII, el prompt del sistema) y las alucinaciones o salidas dañinas. La protección funciona en dos capas: barreras de entrada (detectar inyecciones y jailbreaks, detectar/enmascarar PII, restringir temas, sanear) y barreras de salida (filtrar contenido dañino, evitar filtraciones, comprobar alucinaciones, validar el formato). La inyección de prompts —situada como la más crítica en el OWASP LLM Top 10— se presenta en forma directa (un usuario escribe «ignora todas las instrucciones anteriores») e indirecta (órdenes ocultas en una página web o un documento de RAG), y la inyección indirecta no se bloquea solo con RAG, por lo que los documentos recuperados necesitan su propia comprobación. Esta guía para principiantes también cubre las herramientas (LLM Guard, Guardrails AI, NeMo Guardrails, Llama Guard y las funciones de seguridad cloud de Azure, AWS y OpenAI) y los principios prácticos de defensa en profundidad, mínimo privilegio, aprobación humana y monitorización continua.

¿Qué es un embedding (vector)? Cómo el significado se vuelve números, usos y cómo elegir un modelo

¿Qué es un embedding (vector)? Cómo el significado se vuelve números, usos y cómo elegir un modelo

RAG, la búsqueda semántica y las recomendaciones dependen todas de un trabajador silencioso: el embedding (vector). Un embedding es el significado de un texto (o una imagen) convertido en una secuencia de números: un vector. La palabra "perro" se convierte en una lista de cientos a miles de números que actúan como "coordenadas del significado", de modo que las palabras con significado cercano quedan próximas ("perro" y "cachorro" están cerca; "perro" y "coche" están lejos), y la cercanía se cuantifica con medidas como la similitud del coseno. Ejemplo famoso: "rey − hombre + mujer ≈ reina". Gracias a esto, una máquina puede juzgar si el significado es cercano aunque los caracteres no coincidan. Esta guía para principiantes cubre qué es un embedding (un "mapa del significado"), por qué la cercanía mide el significado (dimensiones y similitud del coseno), para qué se usa (RAG, búsqueda semántica, clasificación y deduplicación, recomendaciones y multimodal), cómo elegir un modelo de embedding (tipo API como OpenAI text-embedding-3, Cohere, Gemini, Voyage; open source como BGE-M3, Nomic, Qwen3; además de Matryoshka, que puede reducir 3.072 dimensiones a 1.024 conservando alrededor del 95% de la calidad a aproximadamente un tercio del costo), y las bases de datos vectoriales (Pinecone, Weaviate, Qdrant, Chroma, pgvector) con un inicio en tres pasos (elegir un modelo, vectorizar y guardar documentos, vectorizar la pregunta y buscar). Los embeddings son la base para implementar RAG.

¿Qué son las AI evals (y LLM-as-judge)? Cómo funcionan, sesgos y herramientas — Guía para principiantes

¿Qué son las AI evals (y LLM-as-judge)? Cómo funcionan, sesgos y herramientas — Guía para principiantes

Afinaste tus prompts, añadiste conocimiento con RAG y quizá hiciste fine-tuning: entonces, ¿cómo confirmas que realmente mejoró? Aquí toman protagonismo las AI evals, y para 2026 la evaluación es tan esencial que la llaman "infraestructura". Las AI evals consisten en medir sistemáticamente la calidad de las salidas de un LLM (precisión, alucinaciones, adherencia al formato, tono) con una vara de medir fija en lugar de hacerlo a ojo; sin ellas, la mejora es solo una corazonada. Hay dos métodos: la evaluación basada en código para ítems medibles mecánicamente (coincidencia exacta, formato, palabras requeridas o prohibidas — rápida, barata y estable) y LLM-as-judge para los subjetivos (usar un LLM potente como árbitro para puntuar salidas, mediante comparación pairwise o puntuación de una sola salida). El principio: mide con código todo lo que el código pueda medir. LLM-as-judge tiene sesgos de verbosidad, posición y preferencia por sí mismo; las soluciones son usar una familia de modelo distinta como calificador, intercambiar el orden y calificar dos veces, incluir la concisión en la rúbrica y calibrar contra el juicio humano. Las escalas gruesas (pass/fail o 1–3) superan a la fina de 1–10. En la práctica, ejecuta tres niveles — chequeos de código instantáneos en cada cambio, pruebas de regresión nocturnas con LLM-as-judge y monitoreo continuo en producción — con herramientas como DeepEval, Promptfoo y RAGAS para CI más Braintrust, LangSmith y Arize para monitoreo. Empieza reuniendo 10 buenas salidas y 10 malas y puntuándolas.

¿Qué es el fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA y cuándo usarlo — Guía para principiantes

¿Qué es el fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA y cuándo usarlo — Guía para principiantes

Cuando quieres personalizar la IA para tu propia empresa, el fine-tuning es una de las opciones — pero lánzate sin cuidado y resulta caro y fácil de errar. Esta guía para principiantes explica el fine-tuning (ajuste fino): tomar un modelo base ya entrenado, entrenarlo aún más con datos adaptados a tu uso y remodelarlo en un modelo especializado que graba el "comportamiento" (estilo de la casa, formato de salida, lenguaje de un campo) en el modelo mismo reescribiendo sus pesos. El fine-tuning es bueno cambiando el comportamiento pero malo memorizando conocimiento actualizado, así que la regla es "hechos y conocimiento → RAG, personalidad y molde → fine-tuning, primero los prompts". Como señalan los expertos, cerca del 80% del "necesitamos fine-tuning" se resuelve con una mejor recuperación (RAG) o con el prompting, por lo que el orden importa. El artículo cubre qué es el fine-tuning (con una analogía de la formación de un nuevo empleado), en qué es bueno y en qué es malo, una tabla comparativa de fine-tuning vs RAG vs prompting, los métodos principales (full fine-tuning, LoRA y QLoRA — cuantización de 4-bit lo bastante ligera para principiantes), qué necesitas (500+ ejemplos de alta calidad como guía, siendo construir los datos el trabajo de verdad; costes de $5,000 a más de $50,000, fine-tuning de OpenAI en torno a $25–$100 por millón de tokens de entrenamiento; herramientas como OpenAI, Unsloth, Axolotl y Hugging Face) y el orden en que empezar. El fine-tuning es el último recurso.

Cómo ejecutar un LLM local: IA en tu propio PC — specs, herramientas y los mejores modelos para principiantes

Cómo ejecutar un LLM local: IA en tu propio PC — specs, herramientas y los mejores modelos para principiantes

Probablemente das por hecho que un LLM tiene que ejecutarse en la nube, pero en 2026 ejecutar la IA por completo dentro de tu propio PC —un "LLM local"— es una opción realista. Un LLM local significa ejecutar un modelo como ChatGPT o Claude directamente en tu máquina en lugar de en la nube. Los tres grandes atractivos son la privacidad (la entrada nunca sale de tu dispositivo), el coste cero (sin tarifas de API) y el uso sin conexión (funciona sin internet). Las desventajas: no es tan inteligente como la IA en la nube de primer nivel, necesita un PC razonablemente capaz, requiere algo de configuración y no tiene conocimiento actualizado. Esta guía para principiantes cubre qué es un LLM local (con una analogía de streaming vs. descarga), las ventajas y desventajas, las specs que necesitas y la cuantización (el formato GGUF, con Q4_K_M como referencia que mantiene la calidad reduciendo la memoria a una cuarta parte; unos 0,5 GB de memoria por cada 1B de parámetros a 4 bits), cómo empezar (la interfaz gráfica de LM Studio para principiantes, la línea de comandos de Ollama para desarrolladores: 52 millones de descargas mensuales en el Q1 de 2026), modelos recomendados de 2026 (Llama 3.2 7B, Google Gemma 4, Alibaba Qwen3.5, además de DeepSeek y Mistral, todos abiertos) y cuándo usar local frente a nube (local para trabajo confidencial, de alto volumen y sin conexión; la nube para problemas difíciles). El primer paso más rápido: ejecutar un modelo pequeño de 3B–7B en LM Studio.

¿Qué es el Spec-Driven Development (SDD)? Los cuatro pasos, las herramientas y en qué se diferencia del vibe coding

¿Qué es el Spec-Driven Development (SDD)? Los cuatro pasos, las herramientas y en qué se diferencia del vibe coding

En una era en la que la IA escribe el código, la habilidad de mayor valor está pasando de "escribir código" a "escribir la especificación", y la práctica que recoge ese cambio es el spec-driven development (SDD). El SDD coloca la especificación en el centro del proyecto como fuente de verdad, y un agente de IA deriva de ella el diseño, el desglose y la implementación en lugar de programar de inmediato. La clave es que cada paso deja un documento (a menudo Markdown) que el paso siguiente lee. Esta guía para principiantes cubre qué es el SDD (la especificación es canónica; el código es un derivado), por qué importa ahora (previene el "muro de los tres meses" de deuda técnica del vibe coding y la deriva de requisitos en la fase de diseño —GitHub informa de aproximadamente un orden de magnitud menos de ciclos de "regenerar desde cero", cifra reportada por el propio proveedor—), los cuatro pasos básicos (Specify → Plan → Tasks → Implement), las herramientas principales (GitHub Spec Kit con más de 90.000 estrellas y más de 30 agentes compatibles, AWS Kiro con su flujo Requirements → Design → Tasks y router Auto, además de BMAD, OpenSpec, Tessl, Google Antigravity y Cursor), cuándo usarlo frente al vibe coding (un híbrido: vibe para explorar, spec-driven para entregar, con revisión humana obligatoria) y cómo probarlo hoy mismo. En la era de la IA, quienes destacan son los que saben definir con precisión qué construir, no los que escriben código más rápido.

¿Qué es la ingeniería de contexto? La habilidad que sigue a los prompts y cómo vencer el "context rot"

¿Qué es la ingeniería de contexto? La habilidad que sigue a los prompts y cómo vencer el "context rot"

El centro de gravedad del trabajo con IA se está desplazando de la ingeniería de prompts a la ingeniería de contexto. Tomando prestada la definición de Anthropic, la ingeniería de contexto es "el conjunto de estrategias para seleccionar y mantener el conjunto óptimo de tokens (información) que le entregas al modelo durante la inferencia": abarca no solo el prompt, sino todo lo que hay en la ventana de contexto, es decir, el system prompt, las herramientas, el historial de la conversación y los datos externos. Importa por el "context rot" (degradación del contexto): cuantos más tokens añades, más baja en realidad la precisión. El estudio de Chroma de 2025 probó 18 modelos líderes (GPT, Claude, Gemini y más) y todos se degradaron a medida que crecía la entrada, siendo la información en el medio de los contextos largos especialmente fácil de ignorar ("lost in the middle"). Esta guía para principiantes explica qué es la ingeniería de contexto y cómo se relaciona con la ingeniería de prompts, por qué ocurre el context rot (la atención es un presupuesto finito), qué hay realmente dentro del contexto, seis técnicas esenciales (instrucciones a la altura adecuada, selección de herramientas, recuperación just-in-time, compactación o compresión por resumen, notas como memoria externa y aislamiento con subagentes), su relación con RAG y Claude Skills, y hábitos que puedes usar hoy como empezar una sesión nueva cuando cambia el tema y pegar solo los puntos clave. La idea central: conservar únicamente los tokens más pequeños y con mayor señal.

¿Qué son las Claude Skills (Agent Skills)? Cómo funcionan, cómo crear una y en qué se diferencian del MCP

¿Qué son las Claude Skills (Agent Skills)? Cómo funcionan, cómo crear una y en qué se diferencian del MCP

Una guía para principiantes sobre las Claude Skills (Agent Skills), el mecanismo que acaba con la pesadez de volver a explicarle a Claude el mismo procedimiento una y otra vez. Una Skill empaqueta instrucciones, scripts y referencias en una sola carpeta, centrada en un archivo SKILL.md que contiene un nombre, una descripción y los pasos. La mayor parte del tiempo Claude lee solo la breve descripción de cada skill, y despliega el cuerpo únicamente cuando tu petición coincide con ella: un diseño llamado divulgación progresiva que mantiene tu contexto ligero incluso con decenas de skills instaladas. Este artículo cubre qué son las Skills, por qué importan (se acabó volver a pegar prompts), cómo escribir un SKILL.md y una estructura de carpetas mínima, cómo crear una (con la skill-creator oficial o a mano, soltándola en .claude/skills, con la recarga instantánea de enero de 2026), en qué se diferencian del MCP (conectividad) y de los subagentes (aislamiento de contexto), el estándar abierto que ya adoptaron Codex CLI, Cursor, Gemini CLI y GitHub Copilot más allá de las apps de Claude, Claude Code, la API y el Agent SDK, además de usos concretos como la generación de documentos y la aplicación de reglas internas. Anunciado por Anthropic el 16 de octubre de 2025 y calificado de «quizá algo más importante que el MCP» por Simon Willison.

Claude Fable 5 para programar: benchmarks, cuándo usarlo frente a Opus 4.8 y la realidad del coste

Claude Fable 5 para programar: benchmarks, cuándo usarlo frente a Opus 4.8 y la realidad del coste

Claude Fable 5, lanzado el 9 de junio de 2026 como el primer modelo clase Mythos disponible públicamente de Anthropic, se examina aquí solo para programación (el lanzamiento completo se cubre aparte). En pocas palabras: Fable 5 se distancia cuanto más difícil se vuelve la programación. Obtiene un 95.0% en SWE-bench Verified y un 80.3% en el más exigente SWE-bench Pro (frente al 69.2% de Opus 4.8 y el 58.6% de GPT-5.5), y un 29.3% en el difícil FrontierCode Diamond (frente al 13.4% de Opus y el 5.7% de GPT-5.5, ~5x GPT), mientras que Terminal-Bench 2.1 es una carrera reñida en 84.3% (GPT-5.5 sigue competitivo vía Codex CLI). El artículo ofrece un resumen para desarrolladores en tres puntos (el más fuerte en problemas difíciles / termina en menos turnos / pero caro y no se detiene), una tabla comparativa de benchmarks y cómo leerla (cuanto más difícil el benchmark, mayor la brecha; el trabajo en terminal está reñido), la propiedad de escalar con effort (de 11.5% bajo a 30.9% máximo, mientras GPT-5.5 se estanca en 5-6%; cuanto más larga y compleja la tarea, mayor la ventaja; cinco agentes en paralelo alcanzaron un 60% de aprobado en pruebas ocultas 3.2x más rápido que uno solo), en qué es realmente bueno (grandes refactorizaciones multiarchivo, ejecuciones agénticas largas, front-end a partir de una captura, diseño de API más pruebas más documentación; Simon Willison valoró el resultado como varios días de trabajo aunque lo llamó lento y caro con más de $110 en 5.5 horas), sus debilidades (~2x el precio de Opus 4.8 a $10/$50, sesiones complejas de 500k-1M tokens, juzga mal cuándo parar y sigue ejecutándose, su precisión de revisión va por detrás de Opus, los clasificadores de seguridad recurren a Opus 4.8 en cerca del 20% de las pruebas de Terminal-Bench, y tiende a reportar probado sin ejecutar), la guía de enrutamiento (Opus 4.8 por defecto, escalar el 10-20% más difícil a Fable 5, el trabajo en terminal a GPT-5.5, conmutable por model ID) y dónde usarlo (Claude Code, GitHub Copilot, AWS Bedrock, Azure Foundry, Databricks, Anthropic API) con precios, contexto de 1M tokens, salida máxima de 128k y la ventana gratuita del 9 al 22 de junio. Fable 5 para el encargo pesado puntual, Opus 4.8 para la mayor parte del día a día. Las cifras se citan de informes de Anthropic y de terceros y son orientativas, dependientes del scaffold.

¿Hasta dónde puede automatizar la IA las tareas del navegador? La realidad de formularios, reservas e investigación

¿Hasta dónde puede automatizar la IA las tareas del navegador? La realidad de formularios, reservas e investigación

"Le pedí algo a una IA y abrió el navegador, lo buscó por su cuenta e incluso rellenó un formulario por mí." En 2026 esto ya no es una demo preparada: los navegadores agénticos (ChatGPT Atlas, Claude for Chrome, Gemini/Chrome, Perplexity Comet) llegaron todos a la vez. Así que, ¿hasta dónde pueden automatizar realmente? La realidad se divide con nitidez en tres niveles. (1) Investigación = lista para producción: en WebVoyager (sitios reales) los mejores agentes alcanzan el 89-98%, casi saturando el benchmark, y como una acción errónea cuesta poco, es por aquí por donde empezar a delegar. (2) Rellenar formularios = factible pero verifica: la introducción de datos está soportada, pero los agentes pueden etiquetar mal los campos o pulsar el envío equivocado, así que "la IA redacta, una persona envía" es lo seguro, y muchos productos como Atlas piden confirmación antes de acciones importantes. (3) Reserva/pago = mejor hazlo tú: los agentes tropiezan con CAPTCHA, checkouts complejos de JavaScript, autenticación de dos factores y gestión de sesiones, y en WebArena (tareas complejas de varios pasos) hasta los mejores rondan el ~47-68% frente al ~78% de referencia humana; la verdadera razón por la que OpenAI cerró el Operator independiente (2025/8/31) fue la falta de fiabilidad del checkout. El artículo primero plantea los dos enfoques (navegador/extensión de consumidor frente a API/OSS de desarrollador), luego mapea los protagonistas de 2026 (Atlas como navegador dedicado que no puede ejecutar código ni leer contraseñas por diseño; Claude for Chrome como panel lateral de extensión; el Project Mariner de Google terminó el 2026/5/4 e integrado en Gemini/Chrome; Operator pasó a ChatGPT Agent y al Agents SDK; el OSS browser-use con más de 78k estrellas). Explica los cuatro muros que hacen fallar la reserva (defensas antibots, checkout complejo, 2FA, el coste de deshacer), y profundiza en la mayor trampa: la inyección indirecta de prompts (se demostró que Perplexity Comet era vulnerable al robo de credenciales zero-click y lo corrigió en febrero de 2026; el éxito del ataque del 23.6% antes de las defensas baja al ~11% con defensas básicas y al ~1% con las más fuertes, sin llegar nunca a cero). Cierra con cinco principios de seguridad (empezar en solo lectura, que una persona apruebe envíos/pagos, no entregar contraseñas, no ejecutar en sitios no confiables, mínimo privilegio en un perfil dedicado). Un excelente compañero de investigación; las acciones que mueven dinero, hazlas tú mismo. Las cifras se citan de materiales públicos y anuncios como referencias orientativas.

10 casos de uso de agentes de IA: ejemplos reales de automatización empresarial, impacto y cómo empezar

10 casos de uso de agentes de IA: ejemplos reales de automatización empresarial, impacto y cómo empezar

"Vale, los agentes de IA son increíbles, pero ¿para qué puedo usarlos realmente?" Es la pregunta con la que todos topan tras aprender los fundamentos, y en 2026 la respuesta ya no es algo del futuro: en soporte, ventas, contabilidad, desarrollo y RR. HH., los agentes han empezado a asumir de verdad el trabajo rutinario, y una encuesta informa que el 65 % de las empresas ya han automatizado algún flujo. Este artículo deja a un lado las abstracciones y ofrece 10 casos de uso concretos por función con ejemplos reales y números. Cubre por qué los casos de uso importan ahora (los agentes no solo responden sino que actúan, pasando de experimentos a producción; Gartner prevé que un tercio del software empresarial incluirá funciones agénticas para 2028 y que el 80 % de las consultas de soporte se resolverán con mínima ayuda humana para 2029), cómo detectar trabajo automatizable (muy repetitivo x gran volumen x implica criterio — la parte del criterio es la diferencia con la antigua RPA; conserva las grandes decisiones con las personas mediante el agente prepara, la persona aprueba), los 10 casos (1 soporte de primera línea y escalado con contexto, 2 ventas con captación de leads y correo personalizado a 200/hora con tasas de respuesta 2-4x, 3 marketing SEO de 2 a 10 artículos por semana y correo en el momento óptimo, 4 desarrollo de software con más del 35 % de código generado por IA, 5 operaciones TI con detección-diagnóstico-recuperación automática de incidencias, 6 finanzas con KPI en todo el ERP e informes PDF comentados, 7 detección de fraude financiero en tiempo real, 8 RR. HH. con cribado e incorporación, con AMD reportando una resolución un 80 % más rápida, 9 investigación y análisis de datos a informes, 10 torre de control de la cadena de suministro), la realidad del ROI (3.5x a tres años, retorno de 3-14 meses, recortes de costes del 30-60 % según McKinsey, pero solo el 23 % lo escala, así que hacer que cuaje es lo difícil) y cómo empezar de forma segura (elige una tarea, prueba en pequeño, la persona aprueba, mide y expande) con seguridad de mínimo privilegio y aprobar cada vez. Las cifras se citan de encuestas y comunicados de empresas, como referencia y tendencias. Reexamina tu trabajo a través de la repetición, el volumen y el criterio, y da un pequeño paso desde tu tarea más dolorosa.