Все потоки

Базы данных *

Все об администрировании БД

262,38

Рейтинг

СтатьиПостыНовостиАвторыКомпании

MalblshProgrammist 3 часа назад

Парсинг тарифов интернета и ТВ. Selenium + BeautifulSoup: трудности динамического контента и защиты от ботов

Средний

3 мин

3.5K

Python * Базы данных * PostgreSQL *

Обзор

На этапе тестирования я отобрал 6 городов (Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Казань, Красноярск) и двух крупнейших провайдеров России - Ростелеком и Дом.ру. В планах масштабирование на большее количество городов и операторов.

Для парсинга тарифов у провайдеров применял связку Python + Selenium + BeautifulSoup, через хранимую процедуру складывал полученные данные в базу PostgreSQL.

Читать далее

0

alexgmu51 5 часов назад

От Google таблиц к DataLens + PostgreSQL: как мы делали BI-систему для WB и Ozon

Простой

11 мин

4K

Базы данных * Визуализация данных * Анализ и проектирование систем * Бизнес-модели * Управление продажами *

Кейс

Из песочницы

Всем привет! Меня зовут Александр. Я работаю в компании которая ведет управление личными кабинетами на маркетплейсах. И вопрос аналитики стал для нас проблемным. Испробовав много сервисов аналитики мы так и не смогли найти подходящий. Тут одно хорошо, там другое. А в кучу все собрать сложно. Мы начали тратить на это слишком много времени.

Оценив собственные силы и скилы, мы поняли: хочешь сделать хорошо, сделай это сам. И получилось. Даже лучше и больше чем планировалось изначально.

В этой статье я хочу рассказать как мы от потребности в нормальной аналитике WB и OZON прошли путь до создания своего SaaS - продукта на Datalens + PostgreSQL с оптимизацией JOIN’ов, историей себестоимости, автоматизацией процессов и классными решениями.

Читать далее

0

koloskovv вчера в 09:34

Записки оптимизатора 1С (ч.16). Риски падения Postgres: потребление и высвобождение памяти процессами postgres

9 мин

5.9K

Блог компании SOFTPOINT1С * PostgreSQL * Высоконагруженные системы * Базы данных *

Статья родилась в ходе наблюдения за одной из систем на Postgres, что у нас на поддержке. Результаты наблюдения несколько удивили, поэтому делюсь, ибо причинно-следственные связи далеко не очевидны.

Триггером к изучению, можно сказать, даже к расследованию, послужило событие, когда однажды утром сервер PG завалился, потому что процессы postgres заняли всю память.

Читать далее

+13

OlegIct вчера в 05:18

Если ваш админ — самурай или «обнять и плакать»

Простой

9 мин

8.3K

PostgreSQL * Базы данных *

Репортаж

В статье дан обзор одного из докладов конференции PgConf 2026, которая прошла в Москве 23-24 марта 2026 года, Андрея Билле, главного инженера компании Postgres Professional. Название доклада: «Если ваш админ самурай или история о восстановлении очень нужных данных».

Читать далее

+4

Lomakn 29 мар в 20:56

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

Средний

5 мин

13K

Машинное обучение * АстрономияНаучно-популярноеБазы данных * Накопители

Аналитика

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет. В комментариях Senior Data Scientist'ы справедливо разнесли нас за то, что наша нейросеть ничего не знала об уравнении состояния вещества (не хватало inductive bias).

Мы признали критику, ушли переписывать архитектуру и внедрили полноценный Physics-Informed ML. Но когда мы запустили гибридную модель v2.0, мы обнаружили нечто пугающее. Оказалось, что главный астрономический Индекс Подобия Земле (ESI) систематически лжет.

Рассказываем, как мы открыли «Парадокс ESI», ввели собственный индекс физической реализуемости (PRI) и математически доказали, что 71% так называемых «вторых Земель» — это просто куски раскаленного чугуна. И о том, как пара строк кода на Python сократила каталог из 9600 планет до 37 реальных миров, утерев нос популярным спискам обсерваторий.

Читать далее

+15

Leg1onary 28 мар в 13:15

Health Score для PostgreSQL: один показатель вместо 150 метрик

Средний

8 мин

9.8K

PostgreSQL * DevOps * Базы данных * Системное администрирование *

Кейс

Из песочницы

Мониторинг PostgreSQL сломан: 150 метрик в pg_stat_*, и ни одна не отвечает на вопрос «база здорова?». В статье — как устроен Health Score: единое число от 0 до 100, которое агрегирует состояние базы и заменяет 30 дашбордов Grafana.

Читать далее

+13

slonik_pg 27 мар в 14:41

Книга «PostgreSQL 16. Оптимизация запросов»: учимся читать мысли планировщика

Простой

4 мин

9K

Блог компании Postgres ProfessionalПрофессиональная литература * PostgreSQL * Базы данных * Читальный зал

Обзор

Медленный запрос — это не приговор, это задача со своим решением. Но найти его невозможно, пока планировщик PostgreSQL остаётся для вас чёрным ящиком. Книга Павла Толмачёва «PostgreSQL 16. Оптимизация запросов» даёт то, чего не хватает большинству разработчиков и администраторов: системное понимание того, как планировщик принимает решения, — и практические инструменты, чтобы направить его в нужную сторону.

Читать далее

+24

shahvaly 27 мар в 13:15

CPU 80%. Как найти проблемный запрос в ClickHouse?

Простой

7 мин

5.8K

Big Data * SQL * Базы данных *

Туториал

Из песочницы

Clickhouse. CPU под нагрузкой, память на пределе, диск нагружен. Запросы тормозят. Расчёты не завершаются. Сервер на грани. Что же делать?

Читать далее

+7

MKonova 26 мар в 15:19

RAG вместо GPT: как мы сделали внутреннего ассистента для корпоративных данных

Средний

13 мин

11K

Блог компании КРОКБазы данных * Искусственный интеллектМашинное обучение * IT-компании

Кейс

В больших компаниях поиск почти всегда «работает». Но это не значит, что сотрудники быстро находят нужное: нередко они тратят часы на попытку вспомнить формулировку, место и контекст.

Мы построили внутренний RAG-ассистент в закрытом контуре: изоляция данных, контроль доступа, бенчмарки качества и долгая работа с вендором. В статье — архитектура, переговоры с вендором, ошибки, компромиссы и выводы для тех, кто думает о корпоративном ИИ всерьёз.

Конечно, до внедрения RAG компания нормально работала — это не история про «без ИИ ничего не функционирует». Это история про оптимизацию: сократить время на рутинный поиск и навигацию в массивах информации.

Читать далее

+35

badcasedaily1 26 мар в 14:05

Temporal Tables в MS SQL Server: история изменений

Простой

6 мин

5.3K

Блог компании OTUSБазы данных * Microsoft SQL Server *

Обзор

Привет, Хабр!

Temporal tables позволяют следить за историями изменений уровне движка. SQL Server сам хранит полную историю изменений каждой строки — без триггеров, без дополнительного кода и без самописного аудита. Фича появилась в SQL Server 2016 и к сегодняшнему дню обросла возможностями. Разберём, как все устроено и как использовать.

Читать далее

+7

Awilum 26 мар в 10:31

Практический тренажёр по SQL

Простой

1 мин

7.8K

SQL * MySQL * Базы данных * Занимательные задачки

Я сделал бесплатный практический тренажёр по SQL для тех, кто хочет освоить работу с базами данных через практику. В нём нет теории и тестов, только реальные задачи и интерактивная работа с SQL.

Читать далее

+3

ph_piter 26 мар в 08:41

Книга: «Грокаем проектирование реляционных баз данных»

3 мин

8K

Блог компании Издательский дом «Питер»Профессиональная литература * Информационная безопасность * Базы данных * SQL *

Привет, Хаброжители! Реляционные базы данных используются практически в каждой компании. И разбираться в том, как они работают, приходится и разработчикам, и аналитикам, создающим дашборды и отчеты, и специалистам, которым просто нужна актуальная информация. Это увлекательное руководство по миру баз данных и SQL написано в доступной и юмористической манере. Авторы, опытные преподаватели из Университета Торонто, превращают сложные концепции в простые и понятные объяснения с помощью ярких примеров, забавных иллюстраций и практических заданий.

Книга охватывает основы SQL, проектирование сущностей и связей, нормализацию, безопасность, оптимизацию и даже роль генеративного ИИ в дизайне БД. Идеальный выбор для тех, кто хочет освоить реляционные базы данных без скучных лекций, а с удовольствием и практическим применением.

Читать далее

+9

movit 26 мар в 07:01

Миллиард записей и 8 Марта: как YDB спас праздник

15 мин

12K

Блог компании ЯндексБлог компании YDBВысоконагруженные системы * Распределённые системы * Базы данных *

✏️ Технотекст 8

Чем покупка букета на 8 Марта через Яндекс Еду отличается от покупки, собственно, еды? С точки зрения пользователя — ничем. Выбрал, оплатил, доставили. А вот с точки зрения разработчика бэкенда заказ уникальных букетов превращается в нетривиальную инженерную задачу синхронизации складских запасов. Задержка синхронизации хотя бы в 10 минут трансформируется в звонок и сборщиков заказов, сообщающих о том, что именно такого букета на складе больше нет.

Меня зовут Виталий Московкин, я занимаюсь ритейлом в Яндекс Еде. В статье я расскажу, как мы синхронизировали состояние складов с 18 миллионами уникальных товаров: сначала с помощью PostgreSQL, а затем с помощью YDB. Такое количество товаров превращается на бэкенде в 4 миллиарда записей о ценах и стоках, которые нельзя просто так кешировать. Но и замена монолитной СУБД на распределённую тоже задача не на десять минут. Подробности — под катом.

Читать далее

+74

minitower 26 мар в 06:10

Реализация MCP в Open WebUI. Часть 2 — Агентское поведение

Средний

19 мин

4.6K

Python * Базы данных * Машинное обучение *

Кейс

Это вторая часть нашей реализации MCP на Open WebUI, которая строится для целей портфельной аналитики. В прошлой части мы разобрали интеграционную часть нашего решения: как мы пришли к Open WebUI, как использовали статусы в запросах пользователя, как отображаем результаты (чтобы не словить ошибки о слишком больших чанках), как строим графики в интерфейсе и как работаем с запросами пользователей.

Данная часть будет посвящена реализации самого агента: его общению с инструментами, вызову этих самых инструментов и планированию шагов по их вызовам. В этой статье будет рассмотрен наш путь по реализации данного агента: от наивного агента, которому просто дали пул инструментов и отправили в релиз до разделения агента на планировщик и исполнителя (спойлер: вторая версия стала куда лучше справляться с различными задачами). Отдельно будет затронута возможность различных моделей использовать chain-of-thoughts.

Читать далее

+3

Ivan_IO 25 мар в 09:54

Как Redis Auto Failover повышает отказоустойчивость наших БД

7 мин

4.8K

Блог компании Wildberries & RussNoSQL * DevOps * IT-инфраструктура * Базы данных *

Кейс

Привет! Меня зовут Иван Откидач, я DevOps-инженер в команде DBA. Моя основная специализация — NoSQL-базы данных, в частности Redis и MongoDB. С каждым месяцем количество Redis, находящихся на нашей поддержке, растёт, поэтому обеспечение их стабильной и надёжной работы — один из приоритетов нашего подразделения. В этой статье мы разберем, как устроен механизм отказоустойчивости в Redis Cluster и почему он может давать сбои в multi-AZ-инфраструктуре. Также покажем один из практических подходов к решению этой проблемы.

Читать далее

+3

asteb 25 мар в 08:00

StarRocks в облаке Selectel. Проверяем, как аналитическая СУБД ведет себя под нагрузкой

15 мин

8K

Блог компании SelectelБазы данных * IT-инфраструктура * Хранение данных * Облачные сервисы *

Идея развернуть аналитическую базу данных в облаке часто выглядит привлекательно — до того момента, пока администратор не начинает прикидывать реальную нагрузку в продакшене, а бизнес — итоговую стоимость. Именно здесь у многих появляются сомнения, и выбор все чаще смещается в сторону более осязаемых решений — например, выделенной инфраструктуры, где проще заранее оценить пределы производительности и стоимости.

Я Антон Стеблянко, архитектор больших данных. В статье расскажу, как совместно с командой из компании «СР-ТЕХ» протестировали в облаке Selectel российский форк СУБД StarRocks Pro и проверили, насколько система подходит в качестве основы для построения аналитического хранилища данных.

Читать далее

+39

sproshchaev 24 мар в 13:45

BRIN, GIN, B‑Tree: полный гайд по индексам PostgreSQL для highload

Средний

8 мин

11K

Блог компании OTUSБазы данных * PostgreSQL * Поисковая оптимизация * Серверное администрирование *

Туториал

Индексы есть, а запросы всё равно тормозят? Или наоборот — индексов слишком много, и они только увеличивают нагрузку на запись?

Многие разработчики и администраторы баз данных попадают в ловушку: ставят B-Tree на всё подряд и надеются на лучшее. Но в highload-системах это может привести к катастрофе.

В этой статье я делюсь реальным опытом работы с PostgreSQL.

Статья будет полезна разработчикам, архитекторам и администраторам, которые хотят не просто «поставить индекс», а понять, как работает PostgreSQL под капотом и как проектировать базы данных, выдерживающие миллионы запросов в секунду.

Читать далее

+25

skullodrom 24 мар в 12:52

TCO или Полная Стоимость Владение современных подходов в ETL для DB MPP

Средний

3 мин

5.6K

Базы данных *

Мнение

О чем эта статья: В данной статье я хочу сравнить TCO старых добрых ETL как например Informatica, ODI, MarkitEDM и подобных им vs DBT + AirFlow и подобных им

Очень легко проанализировать стоимость лицензий или вычислений и хранения в случае облачной БД, но очень сложно — TCO. Стоимость разработки одной фичи, стоимость поддержки, стоимость сопровождения, стоимость изменений. Очень заманчиво учитывать только расходы на лицензии и вычисления и предполагать, что все остальные расходы одинаковы, хотя это не так.

По умолчанию облачные MPP-базы обычно дешевле по хранению и вычислениям и не имеют лицензионной платы, и возникает соблазн использовать такой же безлицензионный подход в ETL, но есть недостатки:

Читать далее

+1

brskv_dm 24 мар в 09:00

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Средний

13 мин

5.3K

Блог компании Postgres ProfessionalБазы данных * PostgreSQL * Высоконагруженные системы * Open source *

Туториал

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деградирует из-за SeqScan в функции проверки существования. Один патч — и TPS вырос в 15 раз. Рассказываем, как до этого докопались.

Читать далее

+11

ozero17 24 мар в 08:09

Неочевидные оптимизации Iceberg таблиц

Средний

6 мин

4.2K

Big Data * Data Engineering * Базы данных * Программирование *

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд. Однако на практике большинство команд при внедрении ограничиваются базовыми возможностями, вроде создания таблиц, настройки партиционирования, настройки сompaction-процедур

При этом значительная часть производительности и стоимости эксплуатации Iceberg таблиц определяется менее очевидными деталями: устройством метаданных, стратегиями записи файлов и тем, как движки выполнения используют статистики файлов. Эти аспекты редко оказываются в центре внимания, но именно они часто становятся причиной деградации производительности по мере роста таблиц. На деле же пространство оптимизаций гораздо шире.

В этой статье я разберу несколько неочевидных оптимизаций Iceberg таблиц.

Читать далее

+1

1

2 3 ...