kmoseenk9 дек 2025 в 11:07

Почему Erlang до сих пор король отказоустойчивых систем

Средний

12 мин

11K

Блог компании OTUSErlang/OTP * Высоконагруженные системы * Анализ и проектирование систем *

Обзор

Перевод

+24

Комментарии 24

osigida 9 дек 2025 в 12:58

источник не прошел проверку отказостойчивости
Internal Server Error

Kadi 15 дек 2025 в 05:51

возможно, источник не был готов к хабрэффекту

Source 24 фев в 11:09

Во-первых, в статье неправильная ссылка на источник. Правильная: https://volodymyrpotiichuk.com/blog/articles/the-architecture-behind-99%25-uptime
А в статье указана https://volodymyrpotiichuk.com/blog/articles/the-architecture-behind-99%2525-uptime
А, во-вторых, крайне сомнительно, что кто-то личный блог запускает на Erlang. Такой тип сайтов традиционно разруливает нагрузку через кеширование статических страниц.

napolskih 10 дек 2025 в 04:21

Эрланг и Эликсир это самое прекрасное что я видел в области разработки по.

aakarmanov 10 дек 2025 в 05:19

Строго говоря, автор не ответил на вопрос, который сам поставил: почему Erlang до сих пор король отказоустойчивых систем. Видимо, потому, что изначально ставилась задача - обеспечить постоянно работающие системы (тогда было с прицелом на телекоммуникацию) и потому, что задача была хорошо продумана теоретически. Можно посмотреть диссертацию Джо Армстронга, где всё по полочкам: почему изолированные процессы и обмен сообщениями, почему нужна виртуальная машина, почему "Let it crash", почему язык функциональный...

LeoKudrik 11 дек 2025 в 06:50

Так же потому, что то, что должно упасть/подняться (основной концепт OTP), должно сделать это максимально быстро, с восстановлением стейта и коммуникаций.

aakarmanov 20 дек 2025 в 04:15

А разве в Erlang/OTP есть какой-то универсальный механизм сохранения стейта? Возьмём gen_statem. Чтобы полностью восстановить работу процесса, надо сохранить не только специальный терм (который колбеки состояний получают в последнем аргументе), но ещё и собственно состояние машины состояний, а также состояние таймаутов. Ещё надо учесть, что могут быть отложенные (postpone) события. Как это всё сохранить, если мы состояние таймаута даже узнать не можем?

LeoKudrik 20 дек 2025 в 10:30

Всё верно - его нет. А нет его потому-что в большинстве случаев это кастомный функционал, необходимый на месте и реализовывать его универсальным просто не нужно. А в OTP же это сделать максимально просто с помощью ETS, cb terminate, cb init и конечно try/catch. OTP даёт тебе все инструменты для этого и каркас (supervisor/gen_server/...). Остальное сам)

sdramare 1 янв в 23:13

ну т.е. ровно то, что делают с помощью микросервисной архитектуры и оркестратора. Только при этом можно пользоваться языком с нормальной статической типизации без всякого позора типа is_integer/1 и который не будет в 6-10 раз проигрывать по производительности CPU-bound и требовать х3 памяти.

LeoKudrik 2 янв в 22:23

Если вы только из-за того, что бы реализовать let it crash, будете притягивать микросервисную архитектуру, оркестратор и тд, то это очевидно попахивает архитектурной астронавтикой. Есть инструмент - он хорош для своих задач. Сравнивать готовый инструмент с какой-то там архитектурой, подходящей только для проектов с дикими нагрузками - я бы точно не стал.

sdramare 3 янв в 01:30

По факту OTP готовый инструмент только для исчезающе малого класса задач типа телекома, буквально шаг в сторону и оказывается что для асинхроного мессаджинга нужны гарантии доставки, так что мейлбокс "процесса" из коробки не подходит, для базы нужна транзационность без глобального лока, так что ETS/DETS/Mnesia заменяются на полноценные базы типа redis/postgres/cockroach/cassandra, RPC требует схемы и версионированости, а оркестрация кластера разных стратегий деплоймента, сайдкаров и стореджей. В результате OTP теряет всю свою привлекательность как готового инструмента. А сам по себе эрланг ничего интересного не может предложить кроме иммутабильности, в жертву которой он приносит производительность настолько, что реальный проекты на нем забиты NIF'ами, которые в любой момент могут уронить весь BEAM целиком по сегфолту(это к слову о надежности). Да, 25 лет назад, когда ничего из перечисленных продуктов не было, OTP выглядел хорошо, по-этому на нем написали тот же ejabberd(из-за чего WhatsApp и сидит до сих с эрлангом), но сейчас erlang/elixir/OTP это не более чем анахронизм.

LeoKudrik 3 янв в 07:43

Вас послушать, так можно подумать, что все живут в SAAS-ах, вебе и других продуктах, "варящихся" в своих инфраструктурах. Не забывайте про "коробку" или embedded например - туда вы не втащите всё это барахло, а программирование - далеко не всегда полная свобода действий. В чем-то я с вами соглашусь - та же гарантия доставки должна быть реализована отдельно, если нужно, да и то в случае кластерных многонодовых решений. В остальном - это инструмент для своих задач и называть его анахронизмом я бы не стал.

sdramare 3 янв в 07:57

Для эмбеддет можно взять если не раст, то тот же го, где тоже будет gc, зелёные потоки с каналами и preemptive concurrency, но со статической типизацией и без виртуальной машины, что даёт в разы большую производительность.

inkelyad 10 дек 2025 в 10:32

В такой ситуации, например, дойдя до числа 5000, мы сохраняем текущий стек вызовов и позицию, на которой остановились, а также промежуточные данные в куче процесса — и переключаемся на следующий процесс!

И, таким образом, делаем то же самое, что делает реальный процессор со своими потоками и процессами, когда переключается с одного на другой.

Тут встает вопрос, почему механизм, встроенный в язык, получается эффективнее, чем тот, что встроен в OS.

LeoKudrik 11 дек 2025 в 07:02

Потому что BEAM использует потоки ОС и работает над ними, используя асинхронный подход в каждом потоке и довольно сложный шедулер, реализуя аналог корутин + недавно, вроде как, стал более стабилен JIT BEAM

Kpy3 11 дек 2025 в 19:48

BEAM реализует вытесняющую многозадачность для кода на Эрланге (и кооперативную внутри функций на Си). Общение между процессами Эрланга (не путать с процессами ОС) асинхронное.

Переключение контекста внутри происходит быстрее, нагрузка, благодаря вытесняющей многозадачности и алгоритмам шедулеров (их три типа), распределяется равномернее.

BEAM умеет перераспределять нагрузку с более загруженных шедулеров на менее загруженные и т.д. и т. п.

rikert 10 дек 2025 в 14:16

В Erlang настройки вроде того, сколько вызовов функций процесс может выполнить до того, как планировщик переключится на другую задачу, а также прочая конфигурация, хранятся в том самом блоке управления процессом (Process Control Block), о котором я говорил выше.

Как заранее просчитать это количество вызовов?