Se estima que GPT-4, lanzado en 2023, fue entrenado ejecutando unas 25.000 GPU en Microsoft Azure durante meses. El cómputo invertido en ese único entrenamiento fue de aproximadamente 2×10²⁵ operaciones de coma flotante (FLOPs). Incluso el entrenamiento del antiguo GPT-3 por sí solo consumió unos 1,287 MWh de electricidad, más de un siglo de energía para un hogar promedio, gastado para construir un solo modelo. Detrás del casual "oye, resume esto" que escribimos se esconde un mundo de física y montañas de dinero.

Este artículo profundiza en "cómo funciona realmente un LLM (modelo de lenguaje grande)", desde tres direcciones: mecanismo, energía y dinero. En concreto: (1) por qué un LLM puede producir lenguaje a partir de un conjunto de perillas llamadas "pesos (parámetros)", (2) cuánta electricidad consume una pregunta o un entrenamiento, y (3) ¿es cierto que "el desarrollo de LLM de frontera es una guerra de dinero"? La respuesta corta a la tercera: "Para la frontera absoluta, es esencialmente cierto, pero en 2026 se ha fortalecido una contracorriente donde 'el dinero solo no gana'." Esa es la imagen precisa.

Mi postura de entrada: la "inteligencia" de un LLM no es ni magia ni conciencia, es el resultado de moldear a golpes una gigantesca máquina de predicción de probabilidades con electricidad. Entender el mecanismo disuelve tanto la exageración excesiva como el miedo excesivo. Este artículo entra en un nivel de profundidad intermedio. Si partes de "qué es siquiera un LLM", lee primero qué es un LLM (introducción); para la longitud de contexto consulta la ventana de contexto; para los precios consulta la API de IA para principiantes.

CÓMO FUNCIONAN LOS LLM · PESOS × ENERGÍA × DINERO

Diseccionando un LLM desde tres direcciones

— De qué está hecha la inteligencia, la energía que consume, el dinero que cuesta

Mecanismo
Los pesos predicen la siguiente palabra
De cientos de miles de millones a más de 1 billón de perillas que solo calculan probabilidades
Energía
Una consulta ≈ 0,4–33 Wh
Un entrenamiento = más de 100 años-hogar de energía
Dinero
$200–500M en la frontera
Para 2027 se proyectan entrenamientos de $1–3B

La astucia de un LLM no es magia. Es el resultado de moldear a golpes una gigantesca máquina de probabilidades con energía y dinero.
Conoce el mecanismo y tanto la exageración como el miedo se disuelven.

1. Un LLM solo sigue adivinando "la siguiente palabra"

Puede sonar sorprendente, pero ChatGPT, Claude y Gemini hacen en esencia una sola cosa. "Dado el texto hasta ahora, calcular la probabilidad de la siguiente palabra más probable (más exactamente, 'token') como continuación, elegir una y alinearlas." Eso es todo. Dale "el gato está sobre la ___" y asigna probabilidades a candidatos como "alfombra", "silla" o "mesa" y emite la más alta (o una muestreada por probabilidad). Repite esto un token a la vez hasta que el texto termina.

Aquí está la pregunta que confunde a muchos. "¿Cómo puede un mero juego de adivinar palabras resumir artículos o escribir código?" La respuesta: "Para adivinar realmente la siguiente palabra con precisión, no tiene más remedio que 'entender' hasta cierto punto la estructura del mundo." Adivinar "la capital de Japón es ___" requiere geografía; "3 + 5 = ___" requiere aritmética; "la causa de este error es ___" requiere conocimiento de programación albergado internamente. Como subproducto de entrenar la "adivinación de la siguiente palabra" hasta el extremo sobre enormes cantidades de texto, emergen el conocimiento y el razonamiento. Esa es la naturaleza extraña y esencial de los LLM.

Entonces, ¿qué es lo que calcula esa "probabilidad de la siguiente palabra"? Como se adelantó, el protagonista es una pila asombrosa de números llamados "pesos (parámetros)". El siguiente capítulo revela qué son.

2. ¿Qué son los "pesos"? — Un billón de perillas crean la inteligencia

Para resumir el interior de un LLM en una analogía: "un gigantesco dispositivo de cómputo con desde cientos de miles de millones hasta más de un billón de 'perillas'." Cada perilla es un "peso (parámetro)", y cuando la señal de una palabra de entrada pasa a la siguiente capa, decide "qué señales reforzar o debilitar, y en qué medida". GPT-3 tenía unos 175.000 millones; se dice que los modelos de frontera más recientes superan el billón. La configuración de estas vastas perillas es exactamente lo que constituye el "conocimiento" aprendido del modelo.

PESOS

Cómo los "pesos" se convierten en lenguaje

① Tokenizar
Dividir el texto en fragmentos de palabra (tokens) y convertirlos en vectores numéricos
② Pasar por los pesos
Decenas de capas Transformer transforman las señales multiplicando por los pesos
③ Attention
Los pesos juzgan en qué palabras de la frase enfocarse
④ Emitir probabilidades
Calcular la distribución de probabilidad del siguiente token y elegir uno

El "aprendizaje" es el trabajo de girar poco a poco ese billón de perillas hacia la respuesta correcta.
La configuración final de las perillas (pesos) = el "conocimiento" mismo del modelo.

El Transformer, que apareció en 2017, es la base de los LLM modernos. Su corazón es el mecanismo de "Attention", que juzga dinámicamente mediante pesos "qué palabra de la frase importa a la palabra actual". Que "banco" en "vi el río frente al banco" signifique una institución financiera o la orilla de un río se decide ponderando su relación con las demás palabras del contexto, y esta "ponderación dependiente del contexto" es exactamente por lo que un LLM puede devolver respuestas coherentes incluso a lo largo de pasajes extensos. Cuando la gente dice "algo sobre ponderación", se refiere precisamente a este Attention y a los billones de multiplicaciones que hay detrás.

El punto crucial: estos pesos no se fijaron a mano. Al principio son una masa de números aleatorios, sin significado. El significado se inculca mediante el "aprendizaje". Entonces, ¿cómo ocurre ese aprendizaje?

3. Dos etapas de aprendizaje — Preentrenamiento y postentrenamiento (RLHF)

El aprendizaje de un LLM se divide a grandes rasgos en dos etapas, el proceso por el cual las "perillas aleatorias" del capítulo anterior se convierten en "perillas inteligentes".

Etapa 1: Preentrenamiento. Aliméntalo con texto a escala de internet (libros, la web, código) y haz que "adivine la siguiente palabra" sin descanso. Cada vez que se equivoca, todos los parámetros se ajustan una cantidad mínima en la dirección que reduce el error (este algoritmo de ajuste es el famoso "retropropagación + descenso de gradiente"). Repite esto a lo largo de billones de tokens y los cimientos de la gramática, el conocimiento y el razonamiento quedan grabados en las perillas. El preentrenamiento consume la mayor parte del cómputo, la mayor parte de la energía y la mayor parte del dinero. Los astronómicos ~2×10²⁵ FLOPs de un modelo de clase GPT-4 se queman aquí.

Etapa 2: Postentrenamiento. Un modelo solo preentrenado es "conocedor pero maleducado". Por eso, el RLHF (aprendizaje por refuerzo a partir de retroalimentación humana) y técnicas similares le enseñan "maneras útiles y seguras de responder". Además, a partir de 2025, el peso del postentrenamiento que ejercita el razonamiento largo (pensar con cuidado), el uso de herramientas y el comportamiento agéntico se ha disparado, hasta el punto de que para las familias Claude, GPT y Gemini, el postentrenamiento ocupa ahora aproximadamente entre el 15 y el 25% del cómputo total. La razón por la que los modelos recientes "piensan antes de responder" tanto es la evolución de este postentrenamiento. El comportamiento multiagente también se inculca aquí.

4. Inferencia — El momento en que tu pregunta se convierte en electricidad

Si el entrenamiento es "la obra de construcción que fija las perillas", entonces la inferencia es "la operación de producir respuestas usando realmente las perillas terminadas". Cada vez que escribes una pregunta en ChatGPT, billones de multiplicaciones recorren cerca de un billón de perillas y se generan tokens uno a uno. Hemos visto lo pesado que es el entrenamiento, pero a escala de toda la sociedad, es la inferencia, no el entrenamiento, lo que consume la energía.

La razón es simple: el entrenamiento se ejecuta básicamente una vez por modelo, pero la inferencia se ejecuta cientos de millones de veces al día en todo el mundo. Según algunas estimaciones, la inferencia representa entre el 80 y el 90% de todo el cómputo de IA, y para 2030 se proyecta que el 75% de la demanda de energía de la IA sea inferencia. "Una pregunta es apenas electricidad", cierto, una sola es minúscula. Pero "minúsculo × cientos de millones × cada día" se acumula hasta convertirse en un problema energético a escala nacional. Veamos números concretos a continuación.

5. Energía — ¿Cuánta electricidad consume un LLM?

Se dice a menudo que "la IA consume energía", pero ¿cuánta exactamente? Aquí están las cifras representativas publicadas a fecha de 2026.

ELECTRICIDAD

El consumo energético de un LLM en cifras

Una consulta (corta)
0.43Wh
clase GPT-4o
una pregunta corta
Un razonamiento pesado
33Wh+
modelo de pensamiento largo
~70 veces la versión ligera
Entrenar GPT-3
1,287MWh
550t+ de CO2
(una generación antigua)
Energía global de DC
415→945
TWh
previsión 2024→2030

Incluso una consulta corta (0.43Wh), a escala de 700M/día, equivale a la energía de ~35.000 hogares estadounidenses.
Un rack de centro de datos consume hasta 10 veces la norma antigua; un DC dedicado a IA consume 20MW–1GW.

Lo que destaca es que "la eficiencia energética difiere en órdenes de magnitud entre modelos". Una pregunta corta a un modelo ligero consume menos de 0,5 Wh, pero lanzar una pregunta pesada a un modelo de razonamiento de pensamiento largo (del tipo que medita antes de responder) consume 33 Wh+, unas 70 veces la versión ligera. Como se mencionó en la trampa de medir el consumo de tokens como carga de trabajo, "hacerlo todo en el modelo superior" es un lujo tanto en energía como en coste. Enviar encargos ligeros a un modelo ligero es amable tanto con el planeta como con tu bolsillo. La energía global de los centros de datos alcanzó 415 TWh en 2024 (alrededor del 1,5% del total mundial) y se proyecta que se duplique hasta 945 TWh para 2030, con la IA como principal motor de ese crecimiento.

6. ¿Es cierto que "el desarrollo es una guerra de dinero"?

Aquí está la pregunta que más te intrigaba. "¿Es el desarrollo de LLM de frontera una guerra de dinero?" La conclusión verificada primero: "Limitado al preentrenamiento de la frontera, es esencialmente cierto." Los números lo respaldan.

GUERRA DE DINERO

Trayectoria del coste de entrenamiento de frontera

GPT-3 (2020)
~ 3×10²³ FLOPs. Desorbitado para su época
GPT-4 (2023)
~ 2×10²⁵ FLOPs. ~25.000 GPU
frontera 2026
10²⁶–10²⁷ FLOPs / $200–500M
previsión 2027
un solo entrenamiento alcanzando $1–3B

El cómputo de entrenamiento de frontera creció durante mucho tiempo a 4–10 veces por año.
Un entrenamiento de clase GPT-5 / Gemini Ultra = $200–500M, una guerra de dinero, en efecto.

En concreto, entrenar una vez un modelo de clase GPT-5 / Gemini Ultra se estima en $200–500 millones, y algunas previsiones sitúan la frontera de finales de 2027 en $1–3 mil millones por entrenamiento. Y esto es "un entrenamiento exitoso": detrás se sitúan el ensayo y error fallido, la preparación de datos, los salarios y la infraestructura de inferencia. Además, cada GPU cuesta miles de dólares; ejecutar decenas de miles de ellas durante meses dispara la factura eléctrica. Un muro de dinero que "una idea brillante" o "un algoritmo ingenioso" por sí solos nunca podrán franquear se alza en la entrada de la frontera. En este sentido, "guerra de dinero" no es una exageración, es un hecho. Por eso solo un puñado de quienes aseguraron un capital enorme (OpenAI, Google, Anthropic, Meta, xAI) pueden luchar en la primerísima línea.

7. Pero el dinero solo no gana — La contracorriente de la eficiencia

El capítulo anterior decía "la guerra de dinero es real". Pero terminar la historia ahí malinterpreta la realidad de 2026. No es en absoluto cierto que "con suficiente dinero ganas"; si acaso, se ha fortalecido una contracorriente. Como respuesta honesta, déjame escribir también esta otra cara.

El caso simbólico es la serie de movimientos donde la china DeepSeek lanzó modelos que se acercaban a la frontera con un presupuesto relativamente pequeño, y de la que se dijo que había "reiniciado el suelo de costes". Técnicas para lograr el mismo rendimiento órdenes de magnitud más barato (arquitecturas eficientes, Mixture of Experts (MoE), destilación (transferir el conocimiento de un modelo grande a uno pequeño) y un cuidadoso trabajo de calidad de datos) se han demostrado una tras otra, clavando una cuña en la fórmula "capital enorme = victoria". De hecho, se proyecta que el crecimiento del cómputo de frontera se desacelere de 10 veces por año a aproximadamente 3–4 veces a partir de 2026, y la atención de la industria se desplaza de "simplemente hacerlo más grande" hacia "cómo ofrecer el mismo rendimiento más barato y con menos energía".

Así que la imagen precisa es esta: "La carrera por actualizar el 'rendimiento máximo' de la frontera es una guerra de dinero. Pero la carrera por ofrecer un 'rendimiento suficientemente bueno' de forma barata es un concurso de ingenio y eficiencia." La mayoría de los modelos que usamos a diario se benefician de lo segundo, volviéndose más baratos, más rápidos y más eficientes energéticamente año tras año. Como se escribe en hasta dónde puedes llegar con el plan gratuito, para 2026 incluso los planes gratuitos alcanzaron un nivel práctico, fruto entregado a los usuarios por la contracorriente de la eficiencia.

8. Lo que viene — El muro de "energía y física" después del dinero

Entonces, ¿se puede escalar para siempre con solo apilar dinero? No, y ese es el nuevo muro que comenzó a aparecer en 2026. Por encima de aproximadamente 10²⁷ FLOPs, el cuello de botella deja de ser "el presupuesto para comprar GPU". En cambio, lo que bloquea el camino es:

  • Energía: ¿puedes suministrar de forma continua electricidad a escala de gigavatios en un solo lugar? Ahora un problema de centrales eléctricas y redes
  • Interconexión: el ancho de banda para sincronizar decenas o cientos de miles de GPU sin latencia. Hay un techo físico para lo que un solo entrenamiento gigante puede manejar
  • Datos: el texto de entrenamiento de alta calidad se está agotando por sí mismo (hay un límite a cuánta buena escritura ha producido la humanidad)

Lo que viene después de "la guerra de dinero" es "una guerra de energía, física e ingenio". Por eso las empresas se están desplazando ahora hacia invertir en energía nuclear, desarrollar sus propios chips dedicados, aprovechar datos sintéticos e investigar arquitecturas eficientes. La era en la que podías ganar tirando dinero se está convirtiendo, irónicamente, en una era en la que no puedes ganar solo con dinero.

Resumen

La verdadera naturaleza de un LLM es "un gigantesco dispositivo de predicción donde desde cientos de miles de millones hasta más de un billón de 'pesos' siguen calculando la probabilidad de la siguiente palabra". El Attention del Transformer maneja la "ponderación dependiente del contexto", y el preentrenamiento (que consume la mayor parte del cómputo, la energía y el dinero) más el postentrenamiento (RLHF, entrenamiento de razonamiento) hacen inteligentes a las perillas. La astucia no es magia, es un subproducto de ejercitar la "adivinación de la siguiente palabra" hasta el extremo sobre enormes cantidades de texto.

Sobre la energía: una consulta corta ≈ 0,43 Wh, un razonamiento pesado 33 Wh+ (unas 70 veces la versión ligera), y el entrenamiento de GPT-3 por sí solo 1,287 MWh. A escala de la sociedad, la inferencia representa entre el 80 y el 90% de la energía, y se proyecta que la energía global de los centros de datos se duplique hasta 945 TWh para 2030. "Hacerlo todo en el modelo superior" es un lujo tanto en energía como en coste; lo inteligente es elegir el modelo según el peso de la tarea.

Y la pregunta central: "¿es el desarrollo de LLM una guerra de dinero? La respuesta es 'esencialmente cierto, limitado al preentrenamiento de la frontera'" ($200–500M por entrenamiento de clase GPT-5; $1–3B proyectado para 2027). Pero la contracorriente de "el dinero solo no gana" también es fuerte (el reinicio del suelo de DeepSeek, la eficiencia, la destilación). Actualizar el rendimiento máximo es una guerra de dinero; ofrecer un rendimiento práctico de forma barata es una guerra de ingenio: esta estructura de dos capas es la realidad de 2026. Y a continuación llega el muro físico de la energía, la interconexión y la escasez de datos. Entender un LLM no como una "caja mágica" sino como una "máquina de probabilidades alimentada por electricidad" te evita ser arrastrado por la exageración o el miedo. Para saber más, consulta qué es un LLM (introducción), la ventana de contexto y la comparación de planes gratuitos.

Preguntas frecuentes

P. ¿Más parámetros (pesos) significan siempre más inteligencia?
R. "Más grande era más inteligente" se cumplía casi universalmente en su momento, pero en 2026 no es tan simple. Incluso con el mismo número de parámetros, el rendimiento varía mucho según la calidad de los datos, el postentrenamiento y el ingenio arquitectónico. Los modelos pequeños pero inteligentes (productos de la destilación y el diseño eficiente) se han multiplicado, y "número de parámetros = inteligencia" ya no se sostiene. Hemos entrado en una era de "cómo se entrena" por encima de "cuántos".

P. ¿Un LLM realmente "entiende", o es memorización mecánica?
R. Incluso los expertos no se ponen de acuerdo, es una pregunta difícil. Lo cierto es que "muestra una generalización que la memorización mecánica no puede explicar" (resuelve problemas que no estaban en su entrenamiento). Si eso es "la misma comprensión de significado que los humanos" es una cuestión aparte sin respuesta clara. En la práctica, trátalo como "un dispositivo de predicción extremadamente avanzado que se comporta como si entendiera". Por eso precisamente se equivoca con tanta seguridad (alucinación).

P. ¿Puedo construir mi propio LLM?
R. "De clase frontera" es imposible para un individuo (requiere cientos de millones de dólares y decenas de miles de GPU). Pero entrenar un modelo pequeño, o ajustar finamente (fine-tuning) un modelo abierto existente, es factible incluso para individuos. Además, la mayoría de las necesidades prácticas se satisfacen usando modelos existentes a través de la API. Casi no hay necesidad de "construirlo todo uno mismo".

P. ¿Es el consumo energético de la IA un problema serio para el planeta?
R. Es un hecho que la escala se está volviendo no despreciable (la energía de los centros de datos es alrededor del 1,5% de la mundial, con proyección de duplicarse para 2030). Pero la eficiencia también avanza furiosamente en paralelo; "la energía por token" baja año tras año. El problema es menos "la eficiencia de una consulta" que "el crecimiento explosivo del volumen total × frecuencia". Cuánto puedan compensar eso las renovables, la energía nuclear y los chips dedicados es el foco del futuro.

P. Al final, ¿qué vale la pena saber como usuario?
R. Tres cosas. (1) El modelo es un "predictor de probabilidades", así que se equivoca incluso en un tono seguro (verifica la información importante). (2) Las preguntas pesadas cuestan en energía y dinero, así que elige el modelo según el peso de la tarea (encargos ligeros a modelos ligeros). (3) El "rendimiento máximo" es una guerra de dinero, pero el "rendimiento práctico" se vuelve más barato y eficiente energéticamente cada año (esperar a que evolucionen los modelos gratuitos/baratos también es inteligente). Cuanto más conozcas el mecanismo, más barata e inteligentemente podrás usar la IA.