Как работают LLM: веса, энергия и стоимость простыми словами

Q: Могу ли я построить собственную LLM?

Класса передового края — невозможно для частного лица (нужны сотни миллионов долларов и десятки тысяч GPU). Но обучить маленькую модель или дообучить существующую открытую модель посильно даже частным лицам. Более того, большинство практических потребностей покрывается использованием существующих моделей через API. Почти нет необходимости строить всё самому.

Q: Является ли энергопотребление ИИ серьёзной проблемой для планеты?

Факт, что масштаб становится таким, что им нельзя пренебречь (потребление ЦОД — около 1.5% мирового, прогнозируется удвоение к 2030 году; IEA). Но параллельно бешено развивается и эффективность; энергия на токен падает год от года. Проблема не столько в эффективности одного запроса, сколько в взрывном росте общего объёма × частоты. Насколько возобновляемая энергетика, атом и специализированные чипы смогут это компенсировать — фокус будущего.

Q: В конечном счёте, что стоит знать пользователю?

Три вещи. (1) Модель — это предсказатель вероятностей, поэтому она ошибается даже уверенным тоном (проверяйте важную информацию). (2) Тяжёлые вопросы дороги по энергии и деньгам, поэтому выбирайте модель по весу задачи (лёгкие поручения — лёгким моделям). (3) Пиковая производительность — это битва кошельков, но практическая производительность дешевеет и становится энергоэффективнее каждый год (подождать, пока эволюционируют бесплатные/дешёвые модели, — тоже умно). Чем больше вы знаете механизм, тем дешевле и умнее вы можете пользоваться ИИ.

Как на самом деле работают LLM — веса, предсказывающие слова, энергопотребление и почему разработка это битва кошельков

Содержание

1. LLM просто без конца угадывает следующее слово
2. Что такое веса? Триллион ручек рождает интеллект
3. Два этапа обучения — предобучение и постобучение (RLHF)
4. Инференс — момент, когда ваш вопрос превращается в электричество
5. Энергия — сколько электричества съедает LLM?
6. Правда ли, что разработка — это битва кошельков?
7. Но одними деньгами не выиграть — обратная волна эффективности
8. Что дальше — стена энергии и физики после денег
Итоги
FAQ

GPT-4, выпущенный в 2023 году, по оценкам, обучался запуском около 25 000 GPU на Microsoft Azure в течение нескольких месяцев. Вычислительная мощность, влитая в этот единственный прогон обучения, составила примерно 2×10²⁵ операций с плавающей точкой (FLOPs). Даже обучение более старой GPT-3 в одиночку сожгло около 1,287 MWh электроэнергии — больше, чем потребляет среднее домохозяйство за столетие, и всё это ради постройки одной-единственной модели. За небрежным я набираем эй, сократи-ка это скрывается мир физики и горы наличных.

Эта статья глубоко разбирает как на самом деле работает LLM (большая языковая модель) с трёх сторон: механизм, энергия и деньги. Конкретно — (1) почему LLM способна порождать язык из набора ручек, которые называют веса (параметры), (2) сколько электричества потребляет один вопрос или один прогон обучения, и (3) правда ли утверждение, что разработка передовых LLM — это битва кошельков? Краткий ответ на третий вопрос: для самого передового края это по сути правда, но в 2026 году усилилось встречное течение, где одними деньгами не выиграть. Вот точная картина.

Сразу обозначу свою позицию: интеллект LLM — это не магия и не сознание, это результат того, что гигантскую машину вероятностного предсказания отковали в нужную форму при помощи электричества. Понимание механизма растворяет и излишний ажиотаж, и излишний страх. Эта статья идёт на уровень средней сложности. Если вы начинаете с а что вообще такое LLM, сначала прочитайте что такое LLM (вводный курс); о длине контекста смотрите контекстное окно; о ценах — AI API для начинающих.

КАК РАБОТАЮТ LLM · ВЕСА × ЭНЕРГИЯ × ДЕНЬГИ

Разбираем LLM с трёх сторон

— Из чего сделан интеллект, сколько энергии он жжёт, во что обходится

Механизм

Веса предсказывают следующее слово

От сотен миллиардов до 1T+ ручек, просто считающих вероятности

Энергия

Один запрос ≈ 0.4–33 Wh

Один прогон обучения = 100+ домохозяйство-лет энергии

Деньги

$200–500M на передовом крае

К 2027 прогнозируются прогоны обучения по $1–3B

Сообразительность LLM — не магия. Это результат того, что гигантскую вероятностную машину отковали в форму при помощи энергии и денег.
Узнайте механизм — и ажиотаж, и страх растворятся.

1. LLM просто без конца угадывает следующее слово

Это может прозвучать неожиданно, но ChatGPT, Claude и Gemini по сути делают одно и то же. По имеющемуся тексту вычислить вероятность наиболее вероятного следующего слова (точнее, токена) как продолжения, выбрать одно и выстроить их в ряд. Вот и всё. Подайте кот сидит на ___, и модель присвоит вероятности кандидатам вроде коврик, диван, пол и выдаст самый вероятный (или выбранный по вероятности). Она повторяет это по одному токену за раз, пока текст не закончится.

Вот вопрос, на котором спотыкаются многие. Как простая игра в угадывание слов может реферировать статьи или писать код? Ответ: чтобы по-настоящему точно угадать следующее слово, у модели нет иного выбора, кроме как до некоторой степени понимать устройство мира. Угадать столица Японии — это ___ требует географии; 3 + 5 = ___ требует арифметики; причина этого бага — это ___ требует знаний программирования, хранящихся внутри. Как побочный продукт доведённого до предела обучения угадыванию следующего слова на огромных объёмах текста возникают знания и рассуждение. В этом странная и сущностная природа LLM.

Так что же вычисляет эту вероятность следующего слова? Как и было намёком сказано, главный герой — ошеломляющая гора чисел под названием веса (параметры). Следующая глава раскроет, что это такое.

2. Что такое веса? Триллион ручек рождает интеллект

Если описать внутренности LLM одной аналогией: гигантское вычислительное устройство с сотнями миллиардов и более чем триллионом ручек. Каждая ручка — это вес (параметр), и когда сигнал входного слова передаётся на следующий слой, она решает, какие сигналы усилить или ослабить и насколько. У GPT-3 их было около 175 миллиардов; новейшие передовые модели, как говорят, превышают триллион. Настройка этих громадных ручек — это ровно то, что и есть выученные знания модели.

ВЕСА

Как веса превращаются в язык

① Токенизация

Разбить текст на фрагменты слов (токены) и превратить в числовые векторы

② Проход через веса

Десятки слоёв Transformer преобразуют сигналы умножением на веса

③ Attention

Веса определяют, на каких словах в предложении сосредоточиться

④ Вывод вероятностей

Вычислить распределение вероятностей следующего токена и выбрать один

Обучение — это работа по чуть-чуть поворачивать эти триллион ручек в сторону правильного ответа.
Готовая настройка ручек (веса) = и есть сами знания модели.

Transformer, появившийся в 2017 году, — это фундамент современных LLM. Его сердце — механизм Attention (внимание), который динамически решает с помощью весов, какое слово в предложении важно для текущего слова. Означает ли bank в увидел реку перед банком финансовое учреждение или берег реки — решается взвешиванием его связи с другими словами контекста, и это контекстно-зависимое взвешивание — ровно то, почему LLM способна давать связные ответы даже на длинных отрывках. Когда говорят что-то там про взвешивание, имеют в виду именно этот Attention и триллионы умножений за ним.

Ключевой момент: эти веса не задавались вручную. Поначалу это бесформенная масса случайных чисел, лишённая смысла. Смысл вкладывается через обучение. Так как же происходит это обучение?

3. Два этапа обучения — предобучение и постобучение (RLHF)

Обучение LLM в широком смысле делится на два этапа — процесс, в котором случайные ручки из предыдущей главы становятся умными ручками.

Этап 1: предобучение. Подаём модели текст интернет-масштаба (книги, веб, код) и заставляем её неустанно угадывать следующее слово. Каждый раз, когда она ошибается, все параметры корректируются на крошечную величину в направлении, уменьшающем ошибку (этот алгоритм корректировки — знаменитые обратное распространение ошибки и градиентный спуск). Повторите это на триллионах токенов — и основы грамматики, знаний и рассуждения вырезаются в ручках. Предобучение съедает большую часть вычислений, большую часть энергии и большую часть денег. Астрономические ~2×10²⁵ FLOPs модели класса GPT-4 сгорают именно здесь.

Этап 2: постобучение. Модель, прошедшая только предобучение, — это знающий, но невоспитанный субъект. Поэтому RLHF (обучение с подкреплением на основе обратной связи от человека) и подобные методы учат её помогающим и безопасным способам отвечать. Более того, с 2025 года резко выросла доля постобучения, отрабатывающего долгое рассуждение (тщательное обдумывание), использование инструментов и агентное поведение, вплоть до того, что для семейств Claude, GPT и Gemini постобучение теперь занимает примерно 15–25% всех вычислений. Причина, по которой недавние модели так много думают перед ответом, — эволюция этого постобучения. Поведение мультиагентов также вкладывается здесь.

4. Инференс — момент, когда ваш вопрос превращается в электричество

Если обучение — это строительные работы по настройке ручек, то инференс — это эксплуатация, фактическое производство ответов с помощью готовых ручек. Каждый раз, когда вы вводите вопрос в ChatGPT, триллионы умножений прогоняются через почти триллион ручек, и токены генерируются по одному за раз. Мы видели, насколько тяжело обучение, но в масштабах всего общества энергию съедает именно инференс, а не обучение.

Причина проста: обучение по сути запускается один раз на модель, а инференс выполняется сотни миллионов раз в день по всему миру. На протяжении всего жизненного цикла модели спрос на энергию и вычисления накапливается куда сильнее на стороне инференса, чем на стороне обучения. Один вопрос — это почти ничего электричества, и правда, один крошечный. Но крошечное × сотни миллионов × каждый день складывается в энергетическую проблему государственного масштаба. Дальше посмотрим на конкретные цифры.

5. Энергия — сколько электричества съедает LLM?

Часто говорят ИИ жрёт энергию, но сколько именно? Вот репрезентативные цифры, опубликованные по состоянию на 2026 год.

ЭЛЕКТРИЧЕСТВО

Энергопотребление LLM в цифрах

Один запрос (короткий)

0.43Wh

класс GPT-4o
один короткий вопрос

Одно тяжёлое рассуждение

33Wh+

модель с долгим мышлением
~70x от лёгкой версии

Обучение GPT-3

1,287MWh

550t+ CO2
(старое поколение)

Мировое потребление ЦОД

415→945

TWh
прогноз 2024→2030

Даже один короткий запрос (0.43Wh), масштабированный до 700M/день, равен энергии ~35 000 домохозяйств США.
Одна стойка ЦОД потребляет до 10x прежней нормы; специализированный ЦОД для ИИ съедает 20MW–1GW.

Что бросается в глаза, так это то, что энергоэффективность различается на порядки между моделями. Короткий вопрос к лёгкой модели — менее 0.5 Wh, но если бросить тяжёлый вопрос рассуждающей модели с долгим мышлением (той, что обдумывает перед ответом), потребляется 33 Wh+ — примерно в 70 раз больше лёгкой версии. Как затронуто в материале ловушка потребления токенов как меры работы, делать всё подряд на топовой модели — роскошь и по энергии, и по затратам. Отправлять лёгкие поручения лёгкой модели — это добро и для планеты, и для вашего кошелька. По оценке Международного энергетического агентства (IEA), мировое потребление ЦОД достигло около 415 TWh в 2024 году (около 1.5% мирового итога) и, по прогнозам, удвоится до около 945 TWh к 2030 году — причём ИИ выступает главным драйвером этого роста.

6. Правда ли, что разработка — это битва кошельков?

Вот вопрос, который интересовал вас больше всего. Является ли разработка передовых LLM битвой кошельков? Сначала проверенный вывод: если ограничиться предобучением передового края, это по сути правда. Цифры это подтверждают.

БИТВА КОШЕЛЬКОВ

Траектория стоимости обучения передовых моделей

GPT-3 (2020)

~ 3×10²³ FLOPs. Запредельно для своего времени

GPT-4 (2023)

~ 2×10²⁵ FLOPs. ~25 000 GPU

Передовой край 2026

10²⁶–10²⁷ FLOPs / $200–500M

Прогноз 2027

один прогон достигает $1–3B

Передовые вычисления для обучения долго росли на 4–10x в год.
Один прогон обучения класса GPT-5 / Gemini Ultra = $200–500M — действительно битва кошельков.

Конкретно, разовое обучение одной модели класса GPT-5 / Gemini Ultra оценивается в $200–500 миллионов, а некоторые прогнозы оценивают передовой край в конце 2027 года в $1–3 миллиарда за прогон. И это один успешный прогон — за ним стоят провальные пробы и ошибки, подготовка данных, зарплаты и инфраструктура инференса. Вдобавок каждый GPU стоит тысячи долларов; запуск десятков тысяч из них на месяцы накручивает счёт за электричество. Стена денег, которую одна лишь блестящая идея или умный алгоритм никогда не преодолеть, стоит на входе на передовой край. В этом смысле битва кошельков — не преувеличение, это факт. Вот почему сражаться на самом переднем крае могут лишь горстка игроков, обеспечивших себе огромный капитал — OpenAI, Google, Anthropic, Meta, xAI.

7. Но одними деньгами не выиграть — обратная волна эффективности

Предыдущая глава сказала, что битва кошельков реальна. Но если закончить рассказ на этом, мы исказим реальность 2026 года. Вовсе не верно, что с достаточным количеством денег ты побеждаешь — если уж на то пошло, встречное течение усилилось. В качестве честного ответа позвольте мне написать и эту другую сторону.

Символическим случаем стала серия ходов, в которых китайская DeepSeek выпустила модели, приближающиеся к передовому краю, на относительно небольшой бюджет, и о которой говорили, что она обнулила нижнюю планку стоимости. Методы построить ту же производительность на порядки дешевле — эффективные архитектуры, Mixture of Experts (MoE), дистилляция (перенос знаний большой модели в маленькую) и тщательная работа над качеством данных — демонстрировались один за другим, вбивая клин в формулу огромный капитал = победа. Более того, прогнозируется, что рост передовых вычислений замедлится с 10x в год до примерно 3–4x начиная с 2026 года, и внимание индустрии смещается с просто стать больше на как обеспечить ту же производительность дешевле и с меньшим расходом энергии.

Так что точная картина такова: гонка за обновлением пиковой производительности передового края — это битва кошельков. Но гонка за дешёвой доставкой достаточно хорошей производительности — это состязание смекалки и эффективности. Большинство моделей, которыми мы пользуемся изо дня в день, выигрывают от второго, дешевея, ускоряясь и становясь энергоэффективнее год от года. Как написано в материале как далеко можно зайти на бесплатном тарифе, к 2026 году даже бесплатные тарифы достигли практического уровня — плод, переданный пользователям обратной волной эффективности.

8. Что дальше — стена энергии и физики после денег

Так можно ли масштабироваться вечно, просто наваливая деньги? Нет — и это новая стена, которая начала проявляться в 2026 году. Выше примерно 10²⁷ FLOPs узким местом перестаёт быть бюджет на покупку GPU. Вместо этого путь преграждает —

Энергия: можете ли вы непрерывно подавать электричество гигаваттного масштаба в одном месте? Теперь это проблема электростанций и сетей
Межсоединение: пропускная способность для синхронизации десятков и сотен тысяч GPU без задержек. Существует физический потолок того, что может потянуть одна гигантская задача обучения
Данные: высококачественный обучающий текст сам по себе иссякает (есть предел того, сколько хорошего написало человечество)

То, что наступает после битвы кошельков, — это битва энергии, физики и смекалки. Вот почему компании сейчас смещаются к инвестициям в атомную энергетику, разработке собственных специализированных чипов, использованию синтетических данных и исследованию эффективных архитектур. Эпоха, в которой можно было победить, бросая деньги, по иронии превращается в эпоху, в которой одними деньгами не выиграть.

Итоги

Истинная природа LLM — это гигантское устройство предсказания, где от сотен миллиардов до более чем триллиона весов без конца вычисляют вероятность следующего слова. Attention в Transformer выполняет контекстно-зависимое взвешивание, а предобучение (которое съедает большую часть вычислений, энергии и денег) плюс постобучение (RLHF, тренировка рассуждения) делают ручки умными. Сообразительность — не магия, это побочный продукт доведённого до предела угадывания следующего слова на огромных объёмах текста.

Об энергии: один короткий запрос ≈ 0.43 Wh, тяжёлое рассуждение 33 Wh+ (примерно в 70 раз больше лёгкой версии), а одно обучение GPT-3 — 1,287 MWh. В масштабах общества потребление на стороне инференса накапливается куда сильнее, а мировое потребление ЦОД, по прогнозам IEA, удвоится до 945 TWh к 2030 году. Делать всё на топовой модели — роскошь и по энергии, и по затратам; умный ход — выбирать модель по весу задачи.

И ключевой вопрос — является ли разработка LLM битвой кошельков? Ответ: по сути правда, если ограничиться предобучением передового края ($200–500M за прогон класса GPT-5; прогноз $1–3B на 2027 год). Но обратная волна одними деньгами не выиграть тоже сильна (обнуление планки от DeepSeek, эффективность, дистилляция). Обновление пиковой производительности — битва кошельков; дешёвая доставка практической производительности — битва смекалки; эта двухслойная структура и есть реальность 2026 года. А дальше наступает физическая стена энергии, межсоединения и нехватки данных. Понимание LLM не как волшебной коробки, а как вероятностной машины на электрической тяге уберегает вас от того, чтобы вас унесло либо ажиотажем, либо страхом. Чтобы узнать больше, смотрите что такое LLM (вводный курс), контекстное окно и сравнение бесплатных тарифов.

FAQ

В. Чем больше параметров (весов), тем всегда умнее?
О. Раньше больше значит умнее держалось почти повсеместно, но в 2026 году всё не так просто. Даже при одинаковом числе параметров производительность сильно меняется в зависимости от качества данных, постобучения и архитектурной изобретательности. Маленькие, но умные модели (плоды дистилляции и эффективного проектирования) расплодились, и число параметров = интеллект больше не работает. Мы вступили в эпоху как обучено важнее, чем сколько штук.

В. LLM действительно понимает или это зубрёжка наизусть?
О. Даже эксперты расходятся во мнениях — это сложный вопрос. Что наверняка, так это то, что модель демонстрирует обобщение, которое зубрёжкой не объяснить (она решает задачи, отсутствующие в обучении). Является ли это тем же пониманием смысла, что у людей, — отдельный вопрос без ясного ответа. На практике относитесь к ней как к чрезвычайно продвинутому устройству предсказания, которое ведёт себя так, будто понимает. Именно поэтому она так уверенно ошибается (галлюцинации).

В. Могу ли я построить собственную LLM?
О. Класса передового края — невозможно для частного лица (нужны сотни миллионов долларов и десятки тысяч GPU). Но обучить маленькую модель или дообучить существующую открытую модель посильно даже частным лицам. Более того, большинство практических потребностей покрывается использованием существующих моделей через API. Почти нет необходимости строить всё самому.

В. Является ли энергопотребление ИИ серьёзной проблемой для планеты?
О. Факт, что масштаб становится таким, что им нельзя пренебречь (потребление ЦОД — около 1.5% мирового, прогнозируется удвоение к 2030 году; IEA). Но параллельно бешено развивается и эффективность; энергия на токен падает год от года. Проблема не столько в эффективности одного запроса, сколько в взрывном росте общего объёма × частоты. Насколько возобновляемая энергетика, атом и специализированные чипы смогут это компенсировать — фокус будущего.

В. В конечном счёте, что стоит знать пользователю?
О. Три вещи. (1) Модель — это предсказатель вероятностей, поэтому она ошибается даже уверенным тоном (проверяйте важную информацию). (2) Тяжёлые вопросы дороги по энергии и деньгам, поэтому выбирайте модель по весу задачи (лёгкие поручения — лёгким моделям). (3) Пиковая производительность — это битва кошельков, но практическая производительность дешевеет и становится энергоэффективнее каждый год (подождать, пока эволюционируют бесплатные/дешёвые модели, — тоже умно). Чем больше вы знаете механизм, тем дешевле и умнее вы можете пользоваться ИИ.

Как на самом деле работают LLM — веса, предсказывающие слова, энергопотребление и почему разработка это битва кошельков

Разбираем LLM с трёх сторон

1. LLM просто без конца угадывает следующее слово

2. Что такое веса? Триллион ручек рождает интеллект

Как веса превращаются в язык

3. Два этапа обучения — предобучение и постобучение (RLHF)

4. Инференс — момент, когда ваш вопрос превращается в электричество

5. Энергия — сколько электричества съедает LLM?

Энергопотребление LLM в цифрах

6. Правда ли, что разработка — это битва кошельков?

Траектория стоимости обучения передовых моделей

7. Но одними деньгами не выиграть — обратная волна эффективности

8. Что дальше — стена энергии и физики после денег

Итоги

FAQ

Похожие статьи

Даты отсечки знаний генеративного ИИ: сравнение ChatGPT, Claude, Gemini и других

Что такое генеративный ИИ? Чем он отличается от традиционного ИИ

Сильные и слабые стороны генеративного ИИ — что он может и чего не может, с примерами

Что такое LLM? Как работают большие языковые модели, топ моделей и кейсы

Комментарии

Оставить комментарий