Максимально выгодно используем видеокарты с помощью школьной формулы из физики / Хабр

Оптимальный Power Limit может отличаться для разных задач

Современные видеокарты — это прожорливые печки. Но если вы держите ферму или просто считаете что-то 24/7, счёт за электричество начинает кусаться. Даже одна видеокарта, работающая круглосуточно, может накрутить тысячи рублей в месяц. А если их десять?

Я покажу, как с помощью простой формулы Энергия = Время × Мощность найти золотую середину между производительностью и расходом на электроэнергию. Без волшебства — только физика 7-го класса и немного здравого смысла.

⚠️ Напоминание об охлаждении

Прежде чем лезть в настройки мощности, добейтесь достойного охлаждения. Новые термопрокладки, хорошая термопаста — это залог успеха.

У меня был случай: долго и безуспешно бился с картой AMD под Linux. Она временами зависала. Я перепробовал десятки настроек, но ничего не помогало. После замены термопрокладок на мосфетах она стала работать как часы.

Перегрев — это не только троттлинг и уменьшение ресурса, но и адская нестабильность. Так что сначала охлаждение, потом тюнинг.

Важнейший плюс оптимального Power Limit

Как правило, оптимальный PL меньше максимально возможного и это продлевает жизнь вашим дорогим картам, блокам питания, конденсаторам, термопрокладкам и вентиляторам. Уменьшает число поломок и увеличивает срок эксплуатации и интервалы сервисного обслуживания. В конечном счёте именно эта выгода, которую гораздо сложнее измерить в деньгах, чем счёт за электричество, может оказаться решающей.

Детали о том, как снижение PL продлевает жизнь картам

Видеокарта выходит из строя по разным, часто независимым друг от друга причинам, и снижение Power Limit влияет на них по-разному:

Отвал BGA-пайки (GPU или VRAM): Это причина смерти №1 для тяжело нагруженных карт. Она возникает не от самой высокой температуры, а от перепадов температур (термоциклирования). Текстолит и кремний имеют разный коэффициент теплового расширения. Постоянный нагрев до 85°C под нагрузкой и охлаждение до 35°C в простое ломает шарики припоя. Снижение PL на 20% может снизить пиковую температуру на ~10-15°C, радикально уменьшая разницу температур и экспоненциально увеличивая ресурс пайки.
Выгорание VRM (цепей питания): При 100% PL через мосфеты идут пиковые токи. Деградация силовых элементов напрямую зависит от силы тока и температуры. Снижение PL с 350W до 280W разгружает мосфеты, уводя их из экстремального режима работы в номинальный.
Электромиграция внутри самого чипа: Физическое разрушение дорожек внутри кремния под воздействием тока. Описывается уравнением Блэка, где срок службы проводника обратно пропорционален квадрату плотности тока и экспоненциально зависит от температуры. Здесь физика дает четкий ответ: снижение напряжения и тока дает логарифмический прирост к сроку жизни кремния.
Механика (вентиляторы): Снижение потребления на 15% обычно позволяет снизить обороты кулеров на 20-30%, что продлевает жизнь подшипников.

Цитата из статьи «NVIDIA GPU Power Limit vs Performance» (Puget Systems — крупный системный интегратор), перевод на русский:

Снижение лимита мощности видеокарт в multi-GPU системах, находящихся под тяжелой вычислительной нагрузкой, способно:
снизить нагрузку на общую подсистему питания компьютера;
уменьшить фактическое потребление электроэнергии «из розетки»;
снизить тепловую нагрузку на систему и требования к отводу тепла;
уменьшить уровень шума системы (за счет снижения потребности в охлаждении);
увеличить срок службы компонентов системы благодаря снижению энергетического и теплового стресса.

Ищем оптимальный Power Limit с точки зрения максимума полезной работы на ватт.

Наша цель — найти такой режим работы видеокарты, при котором каждый вложенный рубль даёт максимум результата. Для этого составим таблицу производительности в зависимости от лимита мощности (Power Limit).

Power Limit — это сколько ватт видеокарта может брать от блока питания. Мы проведём расчёты для двух вариантов мощности:

Только Power Limit карты (данные мониторинга из nvidia-smi или amd-smi).
Общее потребление системного блока по ваттметру (с учётом процессора, дисков, вентиляторов). Мониторы отключаем — они не нужны.

Максимальный Power Limit мы можем узнать, если запустим утилиты без параметров:

У меня задача разбита на одинаковые куски (батчи), и я вижу время обработки каждого батча. Если у вас, например, FPS или хэши/секунду — тоже подойдёт, но формула будет чуть другой. Об этом ниже.

План измерений

Прогреваем карту 20 минут при максимальном Power Limit (обычно это значение по умолчанию). Зачем прогрев? При нагреве сопротивление резисторов растёт, а характеристики транзисторов меняются. Если мы будем мерять «на холодную», то получим завышенные, недостоверные значения.
Понижаем Power Limit с шагом 25 Вт от максимума до минимума, разрешённого картой. Важно: идём сверху вниз. Если пойти снизу вверх, при каждом увеличении лимита придётся ждать повторного прогрева — теряем время.
Для каждого шага записываем: время выполнения в секундах одного батча или кванта вычислений (или скорость вычислений, если время неясно), Power Limit (Вт), частоту ядра (МГц).
Считаем энергию в джоулях на одну задачу:

$E = T_{\text{сек}} \times P_{\text{Вт}}$

Если у вас не время, а скорость (например, FPS), то энергия на один кадр будет пропорциональна

$E \sim \frac{P_{\text{Вт}}}{\text{FPS}}$

— чем меньше это число, тем эффективнее.

Команда для установки лимита мощности в 225 ватт:

ndidia-smi -pl 225

И постепенно уменьшаем лимит. Ниже минимального утилита не даст понизить.

Также для управления лимитом мощности (Power Limit) и частотами видеокарт в среде Windows существует несколько GUI-инструментов:

MSI Afterburner. Это индустриальный стандарт и самая популярная программа. Несмотря на название, она работает с видеокартами абсолютно любых производителей (NVIDIA и AMD).
EVGA Precision X1, ASUS GPU Tweak III. Это альтернативы от вендоров.
AMD Software: Adrenalin Edition. Для владельцев карт AMD (Radeon) это ультимативный и встроенный в систему инструмент. Вкладка «Производительность» (Performance) -> «Настройка» (Tuning).
NVIDIA App / GeForce Experience. В новых версиях NVIDIA App появился оверлей производительности (вызывается по Alt+Z), где есть базовая настройка ползунков максимальной мощности и целевой температуры.

Разбор на живом примере

Возьмём типичную карту на чипе GA102 (CMP 90HX / RTX 3080). Измеряем время выполнения батча при разных Power Limit. Записываем Power Limit, общее потребление по ваттметру, а для работы считаем энергию (Дж = с × Вт). Я всё сделал в табличке в LibreOffice, формулы считались автоматически.

Power Limit (Вт)	Общая мощность (Вт)	Время выполнения батча (с)	Частота, MHz	Работа по Power Limit (Дж)/батч	Работа по общему потреблению (Дж)/батч
250	528	7.20	1725	1800.00	3801.60
225	500	7.53	1665	1694.25	3765.00
200	470	7.97	1530	1594.00	3745.90
175	440	8.63	1460	1510.25	3797.20
150	411	10.675	1250	1601.25	4387.425
125	385	16.725	750	2090.625	6439.125
100	360	42.43	240	4243.00	15274.80

Если мерять только по Power Limit, то самый выгодный режим — 175 ватт — при нём порция работы мне обходится в 1510.25 Джоулей, а если с учётом общего энергопотребления, то — 200 ватт — порция работы обходится в 3745.9 Джоулей.

У меня не типичный комп, он очень много потребляет в простое (мощный проц, куча дисков и других железяк подключены).

Вывод по таблице

Самая высокая энергоэффективность — при 200 Вт и 1530 МГц.
Почему не 100 Вт? Потому что при сильном занижении частоты падает так сильно, что карта считает слишком долго и в сумме съедает больше джоулей.

Почему не 250 Вт? Потому что лишние мегагерцы даются слишком дорогой ценой — закон квадрата напряжения.

Парадокс экономии: слишком сильно зажатая карта по лимиту мощности работает медленно и тратит больше энергии на ту же работу, чем карта в «золотой середине».

Простая эвристика, если у вас нет ваттметра

Просто прибавьте 15-25 ватт к оптимальному значению Power Limit, это и будет ваш оптимальный лимит мощности для самых выгодных вычислений.

Физика процесса — почему так происходит?

Резисторы: чем горячее, тем выше сопротивление

Для обычных проводников (а внутри карты полно металлических дорожек и резисторов) сопротивление растёт с температурой:

$R(T) = R_0 \cdot [1 + \alpha \cdot (T - T_0)], \quad \alpha > 0$

Из-за тепловых колебаний решётки проводников электроны чаще рассеиваются. Чтобы через них шёл такой же ток нужно поднимать напряжение. Можно сравнить это с задачей пробежать через разреженную толпу стоящих людей и двигающихся людей. В последнем случае будет явно сложнее. Но это совсем не главная причина, влияющая на снижение энергоэффективности.

Транзисторы: с нагревом напряжение переключения падает, но токи утечки растут

У кремниевых транзисторов пороговое напряжение $V_{th}$ имеет отрицательный температурный коэффициент. Нагретый транзистор открывается при меньшем напряжении. Казалось бы — плюс? Но проблема в другом:

Экспоненциальный рост токов утечки. Закрытый транзистор начинает больше подтекать.
Тепловой разгон. Утечки греют ещё сильнее → ещё больше утечек.

Поэтому оптимальный режим — не самый холодный и не самый горячий, а тот, где баланс между частотой, напряжением и стабильностью максимален.

Формула энергопотребления CMOS-чипа

$P \approx C \cdot f \cdot V^2 + P_{\text{leakage}}$

— частота, — напряжение.
Напряжение в квадрате — ключевая нелинейность. Поднимая частоту на 10%, мы часто вынуждены поднимать напряжение на 5-10%, а потребление растёт на .

В итоге:

Нижний край (100–125 Вт): частота падает катастрофически, фиксированные затраты $P_{\text{leakage}}$ и питание контроллеров «размазываются» на долгое время → много джоулей.
Верхний край (225–250 Вт): каждый лишний мегагерц требует экспоненциально больше ватт → эффективность падает.
Середина (175–200 Вт): оптимальная точка, где напряжение ещё не взлетело, а частота уже достаточна.

Фиксируем частоту ядра

Если выставить только Power Limit (например, 200 Вт), алгоритм GPU Boost начинает прыгать: он видит свободный бюджет и пытается поднять частоту. Потребление резко скачет, драйвер врезает лимит, частота падает — и так по кругу. В результате:

Частота постоянно плавает (пила).
Напряжение скачет, теряя энергию на переключениях.
Реальная производительность нестабильна.

Решение — зафиксировать частоту командой nvidia-smi -lgc 1530,1530 (для NVIDIA).
AMD — аналогично через amd-smi.

Проверяем, что частоты не скачут и потребляемую мощность через команду:

nvidia-smi --query-gpu=clocks.current.graphics,power.limit,power.draw --format=csv -l 1

При залоченной частоте:

Карта сама подбирает минимальное стабильное напряжение по кривой V/F.
Потребление становится ровным, без пиков.
Эффективность оказывается даже выше расчётной.

💡 Любопытный инсайд про «простой» vs «нагрузку»

Оказывается, разница между просто включённой картой и картой под нагрузкой (при оптимальном PL) может быть гораздо меньше, чем сам Power Limit.

В моём случае:

Карта в простое: 80 Вт по ваттметру, или 90W по nvidia-smi.
Карта под нагрузкой при PL=200 Вт: реально берёт 200 Вт (из блока питания).
Но если замерить по ваттметру прирост при запуске задачи — он оказался всего +120 Вт.

Почему? Потому что даже в простое карта потребляет существенно (токи утечки гигантского чипа, питание шины, память, контроллеры и цепи питания). Когда мы даём нагрузку, прирост потребления иногда оказывается несущественный.

Вывод: если ваша карта всё равно торчит в компе и не выключается, то использование её для фоновых вычислений (например, сдача в аренду через vast.ai, clore.ai, salad) может быть гораздо выгоднее, чем кажется на первый взгляд. Разница между «просто висит» и «считает» — всего 100-150 Вт. Посчитайте расценки на сдачу карт, стоимость ЭЭ и оцените.

Undervolting

Как легко догадаться — снижение напряжения — наш хороший друг. Но при этом падает стабильность, да и сделать это труднее. Под Linux, например, нет удобного способа это сделать. К счастью, nvidia-smi делает это за нас, когда мы зажимаем Power Limit. Так что оставим андервольтинг для самых откровенных гиков, у которых есть время тестировать стабильность видеокарт под каждым напряжением и частотой. Впрочем, если у кого-то есть хорошие результаты по андервольтингу — добро пожаловать в комментарии.

Итоговая инструкция (для Linux, но на Windows аналогично)

Прогрейте карту под нагрузкой 20 минут.
Снимите зависимость время/PL от максимума до минимума (шаг 25 Вт) командой nvidia-smi -pl лимит_мощности.
Рассчитайте энергию (Дж = с × Вт) для каждого шага.
Найдите точку минимума Джоулей — это ваш оптимальный Power Limit.
Посмотрите минимальную частоту в мониторинге при оптимальном PL. Команда nvidia-smi --query-gpu=clocks.current.graphics,power.limit,power.draw --format=csv -l 1.
Зафиксируйте частоту на том значении, которое было в оптимальной точке (частоты и мощность — ваши):
```
sudo nvidia-smi -pl 200
sudo nvidia-smi -lgc 1530,1530
```
Внесите установку значений в стартап-скрипт или вашу GUI-программу контроля мощности (Windows).
Проверьте стабильность (прогоните ту же задачу несколько часов).
Посчитайте окупаемость — иногда выгоднее сдавать карту в аренду, чем держать без дела.

Сброс параметров на дефолтные:

   sudo nvidia-smi -pl 250 # У вашей карты может быть другой
   sudo nvidia-smi -rgc  # Сброс частоты

Заключение

Школьная формула $( E = P \times t )$ оказалась удивительно полезной. Это реальный инструмент, который помогает экономить тысячи рублей в месяц, если вы эксплуатируете видеокарты 24/7.

Главные уроки:

Не зажимайте Power Limit слишком низко — рискуете потерять производительность и в итоге потратить больше энергии.
Не гонитесь за максимальными частотами — закон квадрата напряжения не обманешь.
Фиксируйте частоту ядра — это даёт дополнительный прирост эффективности.
Увеличение потребления под нагрузкой может быть незначительным — при оптимальном PL разница между «включено, но не работает» и «работает эффективно» может быть всего ~100 Вт.

И помните: самая выгодная трата электроэнергии — та, за которую вы получили максимум полезной работы.

Удачной оптимизации и низких счетов! ⚡

Максимально выгодно используем видеокарты с помощью школьной формулы из физики