Saltar al contenido
Herramientas de IA

Otros IA

Descubre y compara herramientas IA emergentes. Reseñas, características y guías prácticas.

40 artículos

Ordena los artículos para encontrar lo que necesitas

¿Qué es LoRA? Personaliza la IA con un poquito de entrenamiento extra

¿Qué es LoRA? Personaliza la IA con un poquito de entrenamiento extra

Volver a entrenar desde cero una IA gigantesca es demasiado caro, pero quieres ajustarla solo para ti; LoRA (Low-Rank Adaptation) cumple ese deseo congelando el modelo original y entrenando solo una pequeña pieza añadida (un adaptador), reduciendo los parámetros entrenables en torno a un 90%. LoRA abarata y acelera enormemente el fine-tuning, y es muy popular en la generación de imágenes como Stable Diffusion como un archivo pequeño que añade un personaje o un estilo. Este artículo lo explica con la analogía del parche. LoRA es el referente del ajuste fino eficiente en parámetros (PEFT): deja congelados los enormes pesos originales, inserta una pequeña matriz añadida en cada capa y entrena solo eso (W = W0 + BA, donde W0 está congelado y BA es la pequeña parte añadida). Se apoya en el descubrimiento de que adaptar una IA no requiere grandes cambios (basta un rango bajo). Ventajas: alrededor de un 90% menos de parámetros entrenables (según se informa, 10,000x menos a escala de GPT-3), menos memoria de GPU (unas 3x menos), entrenamiento más rápido y barato, sin latencia de inferencia una vez fusionado el adaptador, y menor riesgo de sobreajuste. Su mayor fortaleza son los adaptadores intercambiables: mantén una base común y cambia al instante pequeños archivos LoRA (de unos pocos MB) por caso de uso (soporte, tono de empresa, un personaje concreto). Mucha gente conoce LoRA por primera vez en la generación de imágenes, donde se comparten ampliamente LoRA de Stable Diffusion que aprendieron un personaje, estilo o sujeto (añadir un estilo, enseñar un personaje, ligero y fácil de compartir). QLoRA combina la cuantización, entrenando LoRA sobre una base de 4-bit para ~4x menos memoria que el LoRA estándar, lo que permite hacer fine-tuning de modelos enormes en una GPU de consumo (a veces CPU) con una pérdida de precisión mínima. Frente al fine-tuning completo (entrenar todos los pesos), LoRA difiere en los pesos entrenados, el coste, el resultado y el mejor uso; para la mayoría del trabajo, LoRA basta. Conserva la base, sazónala en pequeño. Las cifras se citan de materiales públicos, a modo orientativo.

¿Qué es la cuantización? Encoger modelos de IA para ejecutarlos en tu propia máquina

¿Qué es la cuantización? Encoger modelos de IA para ejecutarlos en tu propia máquina

Que un enorme modelo de 70B corra en un solo PC gaming en casa, en lugar de un rack de GPU de centro de datos, es posible gracias a la cuantización, que reduce la precisión numérica de los pesos de un modelo para encoger drásticamente su tamaño y memoria. Mientras la destilación traslada el conocimiento a otro modelo más pequeño, la cuantización hace más ligero el mismo modelo. Este artículo lo explica con una analogía de compresión de fotos. La cuantización reemplaza los pesos almacenados como decimales FP16/FP32 por enteros INT8 (8 bits) o INT4 (4 bits), recortando los bytes por peso (FP32=4, INT8=1, INT4=0,5); como comprimir una foto RAW a JPEG, sacrificas un poco de precisión a cambio de una gran reducción, y lo sorprendente es lo poco que renuncias. En memoria, 4-bit usa alrededor de un cuarto de FP16: un modelo de 70B baja de ~140GB a ~35GB, y uno de 8B a 4-bit ocupa ~4.5-5GB, que cabe en una GPU de gama media de 8GB de VRAM para uso local (la democratización de los LLM). En precisión, INT8 es casi sin pérdidas e INT4 se degrada por debajo del 4% en tareas generales de preguntas y respuestas o de sentido común, pero la pérdida es más notable en matemáticas, generación de código y razonamiento difícil (se manifiesta como un pequeño aumento de la perplejidad), así que elige el número de bits según la tarea. Métodos principales: GPTQ (pionero del 4-bit preciso), AWQ (protege el ~1% de los pesos más importantes, a menudo 1-2% más preciso y rápido), GGUF (formato llama.cpp/Ollama, Q2_K-Q8_0, híbrido CPU+GPU, para local) y QLoRA (base de 4-bit más LoRA para fine-tuning en GPU de consumo). Se diferencia de la destilación (trasladar a otro modelo pequeño) y del fine-tuning (añadir conocimiento de tarea), y las tres suelen combinarse (cuantizar un modelo destilado; hacer fine-tuning sobre una base cuantizada). Para empezar, ejecuta un modelo GGUF con Ollama en un comando, elige Q4/Q8 según la VRAM y evita INT4 para código o matemáticas exactas. La mayoría de los modelos principales ya vienen cuantizados, así que solo los descargas y usas. Conserva la inteligencia, suelta solo el peso. Las cifras se citan de materiales públicos, orientativas.

¿Qué es la destilación de modelos? Mover el conocimiento de una IA grande a una pequeña

¿Qué es la destilación de modelos? Mover el conocimiento de una IA grande a una pequeña

Una IA enorme y de alto rendimiento es inteligente pero pesada y cara; la destilación de modelos (knowledge distillation) resuelve esto transfiriendo el conocimiento de un gran modelo profesor a un pequeño modelo alumno, conservando más del 95% del rendimiento del profesor con una décima parte del tamaño y la velocidad. Este artículo lo explica con una analogía profesor-alumno. La clave son las soft labels: el entrenamiento normal solo enseña "la respuesta es gato" (hard label), mientras que la destilación transmite la distribución de probabilidad completa del profesor, como "90% gato, 8% perro, 2% zorro", cuyo grado de duda lleva información valiosa; un parámetro temperature suaviza las probabilidades para revelar relaciones sutiles (ejemplo real: GPT-4o mini destilado de GPT-4o). Ventajas: rápido y barato, ~10x más compacto conservando más del 95% del rendimiento, funciona en el edge, potente para la especialización. Dos enfoques: white-box (acceso completo a pesos y representaciones internas, transferencia más profunda; para modelos propios u OSS) y black-box (solo salidas/respuestas de API visibles; usar la API de otra empresa como profesor puede infringir los términos). Se diferencia de la cuantización (comprimir la precisión de los pesos del mismo modelo) y del fine-tuning (seguir entrenando un modelo existente para una tarea): la destilación mueve el conocimiento a un modelo pequeño aparte, y las tres son combinables. La realidad legal/ToS fue un gran tema en 2026: la técnica es legítima, pero OpenAI, Anthropic, Mistral y xAI incluyen cláusulas de destilación anticompetitiva que prohíben usar las salidas para crear modelos competidores, así que destilar un competidor desde una API restringida puede infringir los términos. La disputa OpenAI contra DeepSeek (OpenAI alegó que cuentas vinculadas a DeepSeek eludieron las restricciones para obtener salidas para destilación, mientras que los términos de DeepSeek, según los informes, permiten destilar sus salidas) muestra que la valoración depende de qué términos de API se aplican, y se informa que Claude Fable 5/Mythos 5 restringen las respuestas en trabajos marcados como destilación. Consejos: usa modelos propios u OSS con licencia como profesor, revisa las cláusulas anti-destilación antes de usar una API comercial y valora si el uso es "desarrollar un modelo competidor". La inteligencia, del modelo grande; la operación, del pequeño, pero a quién elijas como profesor cambia el resultado técnica y legalmente. Las cifras provienen de materiales públicos, son orientativas.

¿Qué es el fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA y cuándo usarlo — Guía para principiantes

¿Qué es el fine-tuning? Fine-tuning vs RAG, LoRA/QLoRA y cuándo usarlo — Guía para principiantes

Cuando quieres personalizar la IA para tu propia empresa, el fine-tuning es una de las opciones — pero lánzate sin cuidado y resulta caro y fácil de errar. Esta guía para principiantes explica el fine-tuning (ajuste fino): tomar un modelo base ya entrenado, entrenarlo aún más con datos adaptados a tu uso y remodelarlo en un modelo especializado que graba el "comportamiento" (estilo de la casa, formato de salida, lenguaje de un campo) en el modelo mismo reescribiendo sus pesos. El fine-tuning es bueno cambiando el comportamiento pero malo memorizando conocimiento actualizado, así que la regla es "hechos y conocimiento → RAG, personalidad y molde → fine-tuning, primero los prompts". Como señalan los expertos, cerca del 80% del "necesitamos fine-tuning" se resuelve con una mejor recuperación (RAG) o con el prompting, por lo que el orden importa. El artículo cubre qué es el fine-tuning (con una analogía de la formación de un nuevo empleado), en qué es bueno y en qué es malo, una tabla comparativa de fine-tuning vs RAG vs prompting, los métodos principales (full fine-tuning, LoRA y QLoRA — cuantización de 4-bit lo bastante ligera para principiantes), qué necesitas (500+ ejemplos de alta calidad como guía, siendo construir los datos el trabajo de verdad; costes de $5,000 a más de $50,000, fine-tuning de OpenAI en torno a $25–$100 por millón de tokens de entrenamiento; herramientas como OpenAI, Unsloth, Axolotl y Hugging Face) y el orden en que empezar. El fine-tuning es el último recurso.

Cómo ejecutar un LLM local: IA en tu propio PC — specs, herramientas y los mejores modelos para principiantes

Cómo ejecutar un LLM local: IA en tu propio PC — specs, herramientas y los mejores modelos para principiantes

Probablemente das por hecho que un LLM tiene que ejecutarse en la nube, pero en 2026 ejecutar la IA por completo dentro de tu propio PC —un "LLM local"— es una opción realista. Un LLM local significa ejecutar un modelo como ChatGPT o Claude directamente en tu máquina en lugar de en la nube. Los tres grandes atractivos son la privacidad (la entrada nunca sale de tu dispositivo), el coste cero (sin tarifas de API) y el uso sin conexión (funciona sin internet). Las desventajas: no es tan inteligente como la IA en la nube de primer nivel, necesita un PC razonablemente capaz, requiere algo de configuración y no tiene conocimiento actualizado. Esta guía para principiantes cubre qué es un LLM local (con una analogía de streaming vs. descarga), las ventajas y desventajas, las specs que necesitas y la cuantización (el formato GGUF, con Q4_K_M como referencia que mantiene la calidad reduciendo la memoria a una cuarta parte; unos 0,5 GB de memoria por cada 1B de parámetros a 4 bits), cómo empezar (la interfaz gráfica de LM Studio para principiantes, la línea de comandos de Ollama para desarrolladores: 52 millones de descargas mensuales en el Q1 de 2026), modelos recomendados de 2026 (Llama 3.2 7B, Google Gemma 4, Alibaba Qwen3.5, además de DeepSeek y Mistral, todos abiertos) y cuándo usar local frente a nube (local para trabajo confidencial, de alto volumen y sin conexión; la nube para problemas difíciles). El primer paso más rápido: ejecutar un modelo pequeño de 3B–7B en LM Studio.

Análisis a fondo del lanzamiento de Claude Fable 5: características, benchmarks, precio, la diferencia con Mythos y un nuevo diseño de seguridad

Análisis a fondo del lanzamiento de Claude Fable 5: características, benchmarks, precio, la diferencia con Mythos y un nuevo diseño de seguridad

El 9 de junio de 2026, Anthropic lanzó Claude Fable 5, poniendo a disposición por primera vez, en una forma que usuarios y desarrolladores corrientes pueden usar, una capacidad al nivel de "Mythos", el modelo de frontera considerado durante mucho tiempo el más potente de la casa a nivel interno. Anthropic lo posiciona como el modelo más potente que ofrece de forma general, con el lema "creado para trabajos largos y complejos". Este análisis a fondo, escrito para que los principiantes lo sigan, cubre qué es Fable 5 (una forma pública y segura de la capacidad de clase Mythos, optimizada para terminar un maratón más que una sola pregunta; ID del modelo claude-fable-5), en qué se diferencia de su gemelo Mythos 5 (idénticos por dentro, solo difieren las protecciones; el público usa Fable), los benchmarks (SWE-Bench Pro 80.3% vs Opus 4.8 69.2 y GPT-5.5 58.6, primer 90%+ de la historia en el análisis de larga duración de Hex, primer puesto en Cognition FrontierCode y en el benchmark financiero Hebbia, nuevo SOTA en visión jugando a Pokémon sin ayudas), su verdadera fortaleza en autonomía de larga duración (concentración a lo largo de millones de tokens, ejecuciones de 12 horas, Stripe completando una migración de 50 millones de líneas en Ruby en un día frente a más de dos meses a mano, la memoria de archivos impulsando una tarea de juego 3x más que Opus 4.8, GitHub informando de programación de largo alcance con alta autonomía), precio y disponibilidad ($10 entrada / $50 salida por 1M de tokens, 1M de contexto y 128K de salida, gratis dentro de cada plan del 9 al 22 de junio y luego créditos, API claude-fable-5 y GitHub Copilot), una comparación directa con Opus 4.8 (estándar $5/$25 vs $10/$50, +11.1 puntos en SWE-Bench Pro, mismo contexto de 1M, Opus 4.8 Fast Mode a $10/$50; reparte el trabajo pesado a Fable 5 y el día a día a Opus 4.8 estándar), el destacado nuevo diseño de seguridad (clasificadores de ciber, bioquímica y destilación que recurren a Opus 4.8 solo cuando es peligroso, activándose en menos del 5% de las sesiones para que el 95%+ funcione a pleno rendimiento, con retención de 30 días del tráfico de clase Mythos), el contexto de lanzarlo días después de advertir que la IA es demasiado peligrosa (una tercera vía que cierra solo las áreas peligrosas), y cuándo usarlo. Las cifras están citadas del anuncio de Anthropic y de informes, y pueden cambiar.

Primeros pasos en la generación de vídeo con IA [2026]: el panorama tras Sora, Veo/Kling y consejos de prompts

Primeros pasos en la generación de vídeo con IA [2026]: el panorama tras Sora, Veo/Kling y consejos de prompts

Escribes un poco de texto y, en segundos, nace un vídeo con sonido: lo que hasta hace poco habría sido ciencia ficción se hizo realidad en 2026, y la situación cambia a un ritmo vertiginoso. Sora, de OpenAI, que había dominado la conversación, cerró su app y su web en abril de 2026 (la API le seguirá en septiembre); en su lugar, Google Veo, Kling y Runway tomaron la delantera. Esta guía actualizada (junio de 2026) e independiente de cualquier herramienta cubre qué es la generación de vídeo con IA (crear metraje en movimiento a partir de palabras o de una imagen, con sincronización de audio, 1080p–4K e imagen a vídeo ya estándar), el panorama de 2026 (el cierre de Sora —con el contexto reportado de presión sobre el cómputo y los costes y caída de usuarios— y los líderes actuales Google Veo 3.1, Kling 3.0 y Runway Gen-4.5, con el precio por segundo como norma), cómo funciona (modelos de difusión ampliados a la dimensión temporal; texto a vídeo e imagen a vídeo), el flujo común de 5 pasos (elige una herramienta, prompt/imagen, ajusta duración/proporción/audio, genera y elige, une en la edición), los consejos clave para los prompts de vídeo (sujeto + movimiento + cámara + estilo + duración + audio, con los verbos y la cámara como claves, un plano una acción, usa imagen a vídeo, ejecuta varias veces), lo que ya puede y lo que todavía no (las piezas largas de una sola vez y la plena consistencia siguen siendo difíciles, y el coste por segundo se acumula), y lo esencial de derechos, marcas de agua y ética (SynthID y C2PA hacen estándar e inamovible la procedencia de IA, la salida puramente de IA está débilmente protegida con diferencias por país, el uso comercial depende de los términos y los deepfakes de personas reales están prohibidos). Haz planos y únelos en la edición en lugar de aspirar a una pieza larga de una sola vez. Como el campo se mueve rápido, confirma siempre lo último de forma oficial.

Cómo empezar con la generación de imágenes con IA: cómo funciona, los 4 pasos, la anatomía del prompt y los derechos

Cómo empezar con la generación de imágenes con IA: cómo funciona, los 4 pasos, la anatomía del prompt y los derechos

"No sé dibujar, así que esto no es para mí": ese prejuicio sobre la generación de imágenes con IA está al revés. Basta con darle instrucciones en palabras y, segundos después, tienes imágenes de nivel profesional. Esta guía transversal cubre qué es la generación de imágenes con IA (crear imágenes desde cero mediante palabras: la habilidad de comunicar, no de dibujar; la versión visual de la ingeniería de prompts), cómo funciona (los modelos de difusión esculpen una imagen a partir de ruido aleatorio usando tu prompt como pista, dibujando desde cero cada vez, por lo que los resultados fluctúan), el flujo común de 4 pasos que funciona en cualquier herramienta (elige una herramienta, escribe un prompt, genera y elige, refina y termina: la iteración es la premisa), la anatomía clave de 6 partes del prompt (sujeto, escena/entorno, estilo, luz/color, composición/encuadre, técnico) más los prompts negativos y la relación de aspecto, aunque GPT Image e Imagen prefieren frases sencillas mientras que las herramientas de la familia Stable Diffusion gustan de listas de palabras y negativos, 7 consejos para dominarlo (lanzar la tanda, añadir poco a poco, imágenes de referencia, inpainting, fijar el seed, upscaling, guardar buenos prompts), lo que le cuesta a la IA (manos, texto, consistencia, precisión fina) y sus soluciones, y lo esencial sobre derechos, uso comercial y ética para el trabajo (la salida puramente de IA está débilmente protegida según la Oficina de Derechos de Autor de EE. UU. y el fallo Thaler de 2025, con diferencias por país; el uso comercial depende de los términos de cada herramienta; los deepfakes y la imitación de estilo no autorizada están prohibidos; se extiende la procedencia, como los metadatos C2PA de DALL-E). Qué herramienta elegir y los tutoriales específicos enlazan a la comparativa, a Midjourney y a Stable Diffusion. Conoce la anatomía, lanza la tanda y añade palabras poco a poco: cualquiera puede acercarse a la toma que quiere.

Ingeniería de prompts: el compendio práctico — 6 partes y técnicas para obtener de la IA las respuestas que quieres

Ingeniería de prompts: el compendio práctico — 6 partes y técnicas para obtener de la IA las respuestas que quieres

Le preguntas lo mismo a la misma IA y, sin embargo, una persona la llama inútil mientras otra se asombra de lo capaz que es; y la verdadera causa de esa diferencia no suele ser la potencia de la IA, sino cómo está escrito el prompt. Este es un compendio práctico de esa habilidad, la ingeniería de prompts, organizado para que un principiante pueda aprovecharla de inmediato. Abarca qué es la ingeniería de prompts (la habilidad de diseñar y mejorar tu instrucción a la IA: no código, sino el arte de cómo dices las cosas), los tres principios que cambian tus resultados (sé específico, da contexto, especifica la salida, y "haz X" en vez de "no hagas Y"), las 6 partes clave de un buen prompt (rol, contexto, instrucción, ejemplos, formato, restricciones, los elementos que marcos como COSTAR y RCOF enumeran en común; no necesitas las seis cada vez), 7 técnicas prácticas (dar un rol, mostrar un modelo/few-shot, razonar paso a paso, fijar el formato, estructurar con delimitadores, no pedir demasiado de golpe e iterar, siendo la más potente la iteración), un ejemplo antes/después, técnicas avanzadas (cadena de pensamiento, autoconsistencia, encadenamiento, ReAct, aunque los modelos de razonamiento como la serie o y el pensamiento extendido de Claude hacen CoT por dentro, así que enunciar el objetivo funciona mejor), 7 errores comunes y consejos por modelo más seguridad de la entrada. Con enlaces internos a consejos de prompts para crear apps y a precauciones de entrada. Convierte lo vago en específico y el soltar en diálogo: cualquiera puede mejorar desde hoy.

¿Qué es la singularidad tecnológica? Guía para principiantes — mecanismo, predicciones y en qué se diferencia de la AGI

¿Qué es la singularidad tecnológica? Guía para principiantes — mecanismo, predicciones y en qué se diferencia de la AGI

En junio de 2025, Sam Altman de OpenAI escribió en su blog: "Hemos pasado el horizonte de sucesos; el despegue ha comenzado" ("The Gentle Singularity"). Sin embargo, otros investigadores descartan rotundamente la idea como algo que nunca llegará. Esta guía para principiantes explica que la singularidad (singularidad tecnológica) es "el punto de inflexión en el que la IA supera la inteligencia humana y empieza a mejorarse a sí misma, de modo que el progreso se vuelve explosivamente rápido y ya no puede predecirse ni controlarse" (una hipótesis, no realizada a fecha de 2026). Cubre su corazón —la explosión de inteligencia = automejora recursiva, donde una IA inteligente construye una IA aún más inteligente y quien mejora cambia de humano a IA—; en qué se diferencia de la AGI y la ASI (AGI/ASI son "estados" de inteligencia, la singularidad es el "evento" de volverse imprevisible; AGI → automejora → el salto repentino a la ASI = la singularidad); la historia del término (la "explosión de inteligencia" de I. J. Good en 1965 → Vinge popularizando el nombre en 1993 → Kurzweil llevándola a la corriente principal con "2045"); la amplia dispersión de las predicciones (Kurzweil 2045, Altman "ya ha comenzado," Vinge, y escépticos como Gary Marcus y el "freno de la complejidad" del fallecido Paul Allen); el despegue duro repentino vs. el despegue blando gradual; las esperanzas (avances en enfermedades y ciencia) y los riesgos (pérdida de control, el problema de la alineación); el profundo escepticismo (freno de la complejidad, límites físicos, algo completamente distinto); y errores comunes como "los robots dominando," "inmediata en cuanto llega la AGI" y "fijada para 2045." Ni temerla en exceso ni soñar demasiado: aprovecha al máximo la IA de hoy mientras observas con calma lo que pueda venir después.

El impacto de la IA en abogados, contadores y asesores fiscales: qué cambia y qué permanece

El impacto de la IA en abogados, contadores y asesores fiscales: qué cambia y qué permanece

En 2023, un abogado fue sancionado después de que un escrito redactado con ChatGPT citara casos que eran todos invenciones de la IA, y ese episodio extendió por el mundo el recelo hacia el derecho y la IA. Sin embargo, en pocos años la adopción se disparó, y se dice que más del 90% de los abogados usan alguna IA en su trabajo diario. Como siguiente entrega de nuestra serie de impacto de la IA por sector tras la #068 (comercializadoras), la #094 (marketing) y la #097 (consultoría), este artículo recorre las profesiones. La situación actual en cifras (el 62% de los abogados reporta ahorros de tiempo semanales del 6–20%; Harvey y CoCounsel de Thomson Reuters procesaron más de 10M de documentos legales en el Q1 de 2026; el uso de IA generativa en despachos de fiscalidad/contabilidad/auditoría saltó del 8% en 2024 al 21% en 2025; un estudio de Stanford muestra empleos de inicio de carrera en campos como la contabilidad un 13% por debajo de 2022, contadores +5% y tenedores de libros -5%), el trabajo que la IA cambia por profesión (abogados = investigación de casos, revisión de contratos, extracción de obligaciones; contadores = contabilidad, comprobación de soportes, muestreo, identificación de riesgos; asesores fiscales = entrada de datos, borradores de declaraciones, búsqueda de legislación; la IA hace el trabajo de base, los humanos toman la decisión final), el mayor riesgo de la alucinación (inventar casos/leyes inexistentes, que lleva a sanciones y pérdida de confianza; Harvey presume de un 99.7% de exactitud en citas verificadas y marca el resto, CoCounsel ancla las citas en una base de datos de jurisprudencia para citar solo casos reales), el valor esencial que no cambia (juicio final, escepticismo profesional, ética, juicios fiscales en zonas grises y, de forma decisiva, la firma y la responsabilidad legal que no se puede delegar en la IA), la crisis de los junior (automatización de la rutina de aprendizaje) y los nuevos roles (responsables de cumplimiento de IA, ingenieros de prompts fiscales), y consejos por rol para profesionales, aspirantes y clientes (verifica las citas y las cifras contra las fuentes primarias; confirma el tratamiento de la confidencialidad). La regulación y la responsabilidad difieren según el país; en Japón, las funciones de IA en el software de contabilidad también están muy extendidas. La pregunta que plantea la IA: ¿lo que vendes es el trabajo, o el juicio y la responsabilidad?

Cómo crear subtítulos y transcripciones de vídeo/audio con IA

Cómo crear subtítulos y transcripciones de vídeo/audio con IA

Subtitular a mano un vídeo de una hora solía devorar un día entero: escuchar, pausar, teclear, cuadrar el código de tiempo. En 2026 ese infierno se termina con solo "soltar el vídeo y esperar unos minutos." Centrada en subtitular y transcribir contenido de vídeo y audio (las actas de reuniones van al #086 y el OCR de imágenes al #091), esta guía cubre las cuatro etapas que automatiza la IA (extracción del audio → transcripción con diarización → códigos de tiempo en SRT/VTT → traducción y estilizado), la diferencia entre subtítulos (SRT/VTT) y transcripciones y cuándo usar cada uno, una comparativa de herramientas (Whisper gratuito y privado, Descript para editarlo todo, Sonix y Happy Scribe de alta precisión y multilingües, Notta fácil para particulares, CapCut móvil, los subtítulos automáticos de YouTube como lo más fácil, muchas con reconocimiento de la familia Whisper por debajo), el flujo de 4 pasos más reproducible (preparar → transcribir → corregir → exportar/adjuntar SRT/VTT), recomendaciones por caso de uso (YouTube, pódcast, conferencias, entrevistas, confidencial, multilingüe), seis consejos de precisión con la calidad del audio como el 80 % del resultado (calidad, ajuste de idioma, lista de nombres propios, buscar y reemplazar, diarización, longitud de línea), el flujo multilingüe del camino real (perfeccionar el idioma original → traducir con IA → revisión nativa) y las trampas: exceso de confianza, debilidad ante ruido y jerga, derechos de autor, subidas confidenciales y desfase del código de tiempo. Con audio limpio la precisión es del 90-96 % (publicada, dependiente de las condiciones) y el trabajo baja entre un 80 y un 90 %. El trabajo para la IA; el acabado —revisar nombres propios y verlo entero— para ti.