Обновить
512K+

DevOps *

Методология разработки программного обеспечения

305,14
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Что внутри «Штурвала 2.13». Декларативная установка, containerd 2.x, профили кластеров и прочее

Время на прочтение8 мин
Охват и читатели6K

Хабр, привет! 

На связи команда разработки контейнерной платформы «Штурвал». Недавно мы выпустили новую версию 2.13.

Теперь пользователям доступны установка через YAML и флаги командной строки, профили кластеров по шаблонам, containerd 2.x с шифрованием образов, сводные отчеты по безопасности. Под катом делимся самым интересным.

Читать далее

Свое или чужое: почему и как мы делаем нашу хаос-платформу

Время на прочтение10 мин
Охват и читатели4.3K

Надежность инфраструктуры обычно существует где-то между красивыми SLO на слайдах и суровой реальностью продакшена. В Райффайзен Банке решили перестать верить в планы на бумаге и начали регулярно «ломать» собственные системы — осознанно и по науке. В этой статье руководитель команды разработки Райффайзен Банка расскажет, как они пришли к хаос-инжинирингу, почему не смогли использовать готовые инструменты и как за несколько месяцев собрали собственную платформу для проверки отказоустойчивости и уверенности в том, что сервисы действительно выдержат сбои.

Читать далее

Как компании строят MLOps: три архитектурных подхода

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.7K

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей». Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной промышленной компании и на практике вижу, насколько непросто выстраивать такие процессы в реальной организации. 

Это первая статья из цикла о том, как компании реализуют MLOps. Она будет полезна тем, кто строит или развивает ML-процессы в компании и хочет разобраться, почему под словом MLOps часто скрываются довольно разные практики и решения. 

В этой части не будем уходить в детали конкретных платформ, а сначала соберём общую картину: какие архитектурные модели скрываются за словом MLOps, чем они отличаются и почему компании с похожими задачами приходят к разным способам организации ML-инфраструктуры. В следующих статьях пойдём глубже и посмотрим на конкретные реализации.

Читать далее

Как там с OpenClaw: что происходит и что уже можно использовать?

Время на прочтение8 мин
Охват и читатели6.3K

OpenClaw прошел путь от хобби-проекта до самого быстрорастущего open-source проекта в истории GitHub — и запустил настоящую гонку вооружений среди крупнейших ИТ-компаний. Пользователи скупают Mac mini, команды разработки деплоят десятки агентов через Kubernetes, а ИТ-гиганты выпускают решения на базе хайпового продукта. На русском языке материалов об OpenClaw в бизнесе и разработке практически не выходило. Закрываем пробел, коротко разбираем архитектуру мультиагентных систем, реальные сценарии оркестрации, а также ситуацию на рынке B2B-решений.

Читать далее

Как мы превратили PingZen в MCP-сервер с 126 инструментами (и вы можете управлять мониторингом из Claude Code)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели5.1K

Мониторинг часто воспринимают как «ещё одну панель», на которую нужно иногда поглядывать. Открыть браузер, зайти в дашборд, проверить зелёные кружочки, закрыть. Но что, если сделать его частью вашего повседневного инструментария - как git, как curl, как любимая IDE? Именно для этого мы добавили в PingZen поддержку MCP.

Сегодня я расскажу, как мы превратили наш сервис в MCP-сервер с 126 инструментами, почему выбрали MCP SDK и как вы уже сейчас можете управлять мониторингом из Claude Code, Cursor и других AI-агентов. Без переключения контекста, без лишних движений - только нужные действия там, где вы работаете.

Читать далее

От Agile до SRE: полный цикл современной разработки на 1С в МТС

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели3.1K

Привет, Хабр! Меня зовут Марат Мустафин, я ведущий системный архитектор в «Стрим 1С» группы МТС. Мы поддерживаем и развиваем внутреннюю 1С-экосистему для дочерних компаний, обслуживаем около 1000 пользователей и выпускаем релизы раз в неделю. В этом материале расскажу, как мы выработали подход, сочетающий современные практики DevOps (Development & Operations — разработка и эксплуатация/поддержка) со спецификой платформы, а также поделюсь процессами разработки и нашими ключевыми принципами.

«Стрим 1С» появился в группе МТС в 2021 году как продуктовая команда, которая закрывает автоматизацию ключевых внутренних бизнес-процессов дочерних компаний. У нас работают около 50 специалистов: разработчики, аналитики, архитекторы, QA-инженеры, а также Product Owners и CTO. Функции DevOps в основном закрываем силами архитекторов, но иногда привлекаем профильные команды под конкретные задачи. Формально наш «Стрим 1С» состоит из нескольких команд, отвечающих за свои продукты, но об этом расскажу чуть подробнее дальше.

За время существования «Стрим 1С» мы собрали экосистему, которая обеспечивает:

еженедельные релизы с высоким уровнем качества, автоматизированный путь от разработки до публикации и надежной инфраструктурой с георезервированием;

разделение ответственности между продуктовыми командами, отлаженные Agile-процессы с регулярными ретроспективами, а также культуру код-ревью (code review — проверка кода другим разработчиком) и коллективной ответственностью за качество;

современный стек мониторинга и наблюдаемости, комплексное автоматизированное тестирование и инфраструктура как код через Jenkins и Gitlab CI.

В этом нам помогли несколько принципов:

Автоматизация рутины. Мы отслеживали повторяющиеся действия от сборки релизов до развертывания тестовых контуров и старались уменьшить число ручных операций. За счет этого команда тратит больше времени на бизнес-задачи.

Культура качества. Многоуровневый контроль через код-ревью, автотесты и повторное тестирование помогает держать прод стабильным при высокой скорости изменений.

Наблюдаемость системы. Комплексный мониторинг позволяет заранее замечать проблемы и разбирать их по данным.

Распределенная экспертиза. Разделение ответственности с инфраструктурными командами дает возможность каждому уровню делать свою работу профессионально, без распыления и в итоге повышает общую эффективность.

В этом материале я покажу, как мы реализуем эти принципы, как встроены в корпоративные процессы и как развили разработку 1С до полноценного направления.

Читать далее

40 минут в день на костыли: когда система управления разработкой мешает разрабатывать

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7.7K

Внедрили таск-трекер для ускорения — а команда стала тратить 40 минут в день на костыли. Рассказываю, как за полтора года у нас накопилось 11 обходных путей, почему онбординг новичков растянулся до трёх недель и что мы с этим сделали. Внутри — чек-лист «тормозит ли вас ваш инструмент» и пошаговый план действий.

Читать далее

GitLab CI кажется сложным, если не знать этих трюков: как убрать дублирование и ускорить пайплайны в 3 раза

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели9.1K

У вас в GitLab несколько проектов с одинаковым CI? Или просто надоела копипаста в пайплайнах? Каждое изменение нужно отразить в 10 местах? Рассказываем, как сократить код на 56 %, убрать дублирование и сделать один CI для всей группы проектов. Шаблоны, матрицы и практика.

Избавиться от копипасты

Организация удаленного доступа в защищенный контур на базе Openvpn + Keycloak

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8K

Привет, Хабр!

У одного из наших заказчиков вся инфраструктура расположена в Yandex Cloud и для доступа во внутреннюю сеть ко внутренним ресурсам компании а-ля Grafana, Prometheus, Elasticsearch и т.д. использовался VPN-сервис на базе Self-Hosted OpenVPN. При этом аутентификация пользователей VPN осуществлялась просто по локальным учетным записям на сервере через конфигурацию сервера вида

Читать далее

DevOps после хайпа: что реально работает, почему автоматизация делает вас слабее и как ИИ вписывается в инженерку

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.5K

Меня зовут Дмитрий Синявский, я SRE в Ви.Tech, IT дочке «ВсеИнструменты.ру». В какой то момент я поймал себя на мысли, что вокруг DevOps снова спорят как в начале десятых: одни уверяют, что он умер, другие переименовывают все в platform engineering, третьи ждут, что ИИ наконец сделает всю грязную работу за инженеров. Мы с Владимиром Утратенко, который прошел путь от техподдержки до техдиректора и сейчас развивает платформу «Штурвал», спокойно разложили это по полочкам.

В этой статье я собрал самое полезное из нашего разговора: что стало с DevOps после хайпа, как автоматизация одновременно помогает и ослабляет, и какое место ИИ реально занимает в инженерке.

Читать далее

Что происходит в российском DevOps-ландшафте прямо сейчас: 13 инструментов с продуктовой аллеи

Время на прочтение9 мин
Охват и читатели6.6K

На любой DevOps-конференции рано или поздно возникает один и тот же момент. Слушаешь про архитектуру, пайплайны, масштабирование, observability — всё звучит разумно и красиво. А потом в голове появляется простой вопрос: «Окей, а чем вы это всё делаете?». То есть буквально: какие инструменты стоят под капотом, как они внедрялись, где с ними было больно и где они действительно экономят время команде.

Именно для таких бесед на DevOpsConf 2026 будет отдельное пространство — продуктовая аллея!

Читать далее

Как Redis Auto Failover повышает отказоустойчивость наших БД

Время на прочтение7 мин
Охват и читатели4.8K

Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на нашей поддержке, растёт, поэтому обеспечение их стабильной и надёжной работы — один из приоритетов нашего подразделения. В этой статье мы разберем, как устроен механизм отказоустойчивости в Redis Cluster и почему он может давать сбои в multi-AZ-инфраструктуре. Также покажем один из практических подходов к решению этой проблемы.

Читать далее

AI-агент получил права сеньора. И первым делом снёс прод

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели8.6K

По данным Financial Times, AI-агент Amazon получил operator-level доступ к продакшену - и выбрал «удалить окружение» как оптимальный способ починить баг. 13 часов аутейджа. Собрал хронологию трёх инцидентов марта 2026 и разбираюсь, что именно пошло не так на уровне permissions, review gates и CI/CD.

Читать далее

Ближайшие события

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.6K

ИИ‑фреймворки давно въехали в прод, но к ним часто относятся как к «научной приблуде», а не к ещё одному входу в ваши данные и инфраструктуру. Spring AI и ONNX крутятся где‑то между ML‑командами, продуктами вендоров и внутренними ассистентами, и на определённом этапе за ними перестают успевать архитектура и безопасность.

В марте в обзорах уязвимостей рядом всплыли несколько критичных багов именно в этих штуках. Там есть и SQL‑инъекции, и JSONPath‑инъекции, и обход проверки доверия при загрузке моделей. В статье разбираю, что это значит для тех, кто уже тащит ИИ в прод, и даю чек‑лист, который можно прямо отнести своей команде.

Читать далее

Пайплайны, bounce-back и cron для ИИ-агентов на одной подписке Google AI

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели7.8K

Важный момент: agent-pool - это MCP-сервер, который работает и в IDE, и внутри самого Gemini CLI. Воркер может сам делегировать задачи дальше - создавать подгруппы и запускать своих воркеров. На этом строится вся фрактальная оркестрация.

Читать далее

Spring Boot Actuator: полный гайд по мониторингу в 2026

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.9K

Выкатили приложение, а через час — таймауты? Redis отключился, а вы узнали об этом от клиентов?

В этой статье на реальном примере покажу, как Spring Boot Actuator превращает ваше приложение из «чёрного ящика» в прозрачную систему. Разберём:

➡ Что такое Actuator и зачем он нужен.
➡ Как настроить эндпоинты, чтобы не открыть дыру в безопасности.
➡ Какие метрики реально помогают найти узкие места (история, как мы ускорили приложение на 40%).
➡ Кастомные метрики для бизнес-показателей.
➡ Лучшие практики продакшена: liveness/readiness probes, изоляция портов, кастомные HealthIndicator.

Читать далее

Горячие клавиши Claude Code: полный разбор

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.7K

Разбираем все горячие клавиши Claude Code — что делает каждая, когда нажимать и где подвох. Этот AI-ассистент работает прямо в командной строке и напичкан сочетаниями, о которых большинство пользователей даже не подозревает. Двойной Escape откатывает изменения в коде, Ctrl+B отправляет задачу в фон, а Shift+Tab переключает режим работы на лету. Мы разобрали каждую клавишу до винтика: в каком сценарии пригодится, где конфликтует с tmux или браузером и как переназначить под себя.

Читать далее

Как в Авито построили систему мониторинга BGP

Уровень сложностиСложный
Время на прочтение20 мин
Охват и читатели11K

Всем привет! Меня зовут Антон Ильичев, я сетевой инженер в Авито. В этой статье расскажу, зачем мы централизованно собираем и анализируем маршрутную информацию с сетевых устройств, причём тут протокол BMP и как устроена наша система мониторинга. В конце вас будет ждать лаба на docker-compose, которую вы можете запустить у себя и посмотреть на систему в действии.

Статья будет полезна в первую очередь сетевым инженерам, командам SRE и мониторинга, которые отвечают за доступность и качество сервиса.

Читать далее

Хаос в объектах: испытания Garage и SeaweedFS

Уровень сложностиСредний
Время на прочтение34 мин
Охват и читатели6.3K

С конца 2025 года известная многим, кто работает с object storage, система Minio начала издавать тревожные сигналы: разработчики полностью перестали принимать новые правки, прекратили обновлять Docker образ, убрали веб-интерфейс из опенсорсной версии, а с 13 февраля проект на GitHub полностью заморожен и стал архивом. Можно провести связь с покупкой Broadcom компании VMware, которой и принадлежит Minio, и последующим выжиманием денег из клиентов.

Но мы не будем строить теории, есть вопрос интереснее: кто убережёт наши объекты, если не Minio? Давайте попробуем узнать на примере Garage и SeaweedFS. Мы будем бросать эти системы об стену, и смотреть, что получится на выходе. Так работает chaos testing. Наверное.

Читать далее

24 контейнера на VPS за $30/мес: как я заменил облака одним сервером

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.4K

24 контейнера на одном VPS за $30/мес: Elasticsearch, Redis, MySQL, nginx, headless Chrome, llama.cpp и еще 18 сервисов. Реальные docker-compose файлы, конфиги nginx, потребление RAM каждого контейнера и честный список того, что не работает. Сравнение стоимости с managed-сервисами в облаке.

Читать далее