Big Data *

Большие данные и всё о них

83,04

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Editor_cloud_ru

26 мар в 13:24875

Блог компании Cloud.ruIT-инфраструктура * Big Data * Облачные сервисы *

Как METRO перенесла 1 000 сервисов и 50 ТБ данных в российское облако за 3 месяца

🏪 Что за компания

METRO — одна из крупнейших сетей мелкооптовой торговли в мире. В России компания управляет 90+ торговыми центрами в 51 регионе и работает одновременно с B2C- и B2B-сегментами: физлицами, HoReCa, магазинами у дома и офисами.

⚡ Задача

С 2019 года METRO активно переходила на облачную инфраструктуру и разрабатывала cloud-native продукты на мощностях зарубежного провайдера. В конце 2023 года под санкционным давлением встала задача локализации: найти отечественное облако, архитектурно близкое к Google Cloud, и перенести туда весь централизованный ИТ-ландшафт. Это около 20 продуктов и 200 микросервисов — все с минимальными доработками.

В январе 2024 ситуация усложнилась: зарубежный вендор объявил об экстренном отключении корпоративной BI-системы. Сроки сжались до трех месяцев.

☁️ Что сделали

METRO выбрала платформу Cloud.ru Advanced как наиболее близкую по архитектуре к Google Cloud. Команды провайдера и ритейлера параллельно решали две задачи:

в экстренном режиме переносили BI-систему с Teradata/MicroStrategy на Advanced Data Warehouse Service с Apache Airflow и DBT — 50 ТБ данных, 10 000 таблиц и 2 000 скриптов преобразования без остановки процессов;
выполняли плановую локализацию ИТ-ландшафта: перенесли еще около 1 000 сервисов, провайдер дополнительно добавил специализированные сервисы под требования METRO.

🦾 Что получили в итоге

Вся корпоративная отчетность сохранила бесперебойную работу. METRO реализовала первый полноценный проект по SaaS-модели и локализовала ИТ-ландшафт с минимальными доработками благодаря архитектурной близости платформ.

Дополнительно компания одной из первых в России запустила в бою сервис Evolution Managed RAG и GPU-инфраструктуру для внедрения LLM под задачи оптимизации бизнес-процессов.

Все детали кейса — на сайте Cloud.ru .

SnezhSh

24 мар в 09:511.2K

Блог компании GlowByteBig Data * Машинное обучение * КонференцииИскусственный интеллект

Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»

Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

Участники на реальных примерах разберут пошагово, как реализуются проекты по машинному обучению (ML) сегодня, и увидят, как современные инструменты помогают решать важные бизнес-задачи. Мероприятие станет площадкой для нетворкинга и свободного диалога на тему ИИ в бизнесе.

В программе доклады:

«Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»Алексей Рундасов, коммерческий директор, Data Sapience;
Александр Тугов, директор ИИ-вертикали, Selectel;
«ИИ в продакшене: как инференс превращает модели в деньги»
Владислав Кирпинский, директор по облачной интеграции, Selectel;
«Большой языковой барьер: ИИ-платформы 2026»
Михаил Зайцев, директор продукта Kolmogorov AI, Data Sapience;
«GenAI на практике: кейс “Таврос”»
Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.

Также в рамках бизнес-ужина пройдет круглый стол о границах возможностей ИИ «Хайп vs Реальность». Эксперты обсудят практические примеры, когда внедрение ИИ действительно оправдано, и ситуации, где компании могут столкнуться с ограничениями. Участники разберут технические барьеры, требования к данным и инфраструктуре, а также бизнес-факторы, влияющие на эффективность и окупаемость ИИ-проектов.

Зарегистрироваться на бизнес-ужин

elizaveta_roschina

24 мар в 08:27782

Блог компании Data SapienceBig Data * Машинное обучение * Искусственный интеллект

Приглашаем на бизнес-ужин «Как построить ИИ-платформу: преимущества мультивендорских решений»

Очная закрытая встреча от Selectel, Data Sapience и GlowByte для предпринимателей, руководителей и специалистов по машинному обучению (ML) состоится 9 апреля в 18:00. Будет интересно всем, кто планирует автоматизировать бизнес-процессы с помощью ИИ, и хочет разобраться, с чего начать.

В программе доклады:

«Как внедрить ИИ: от инфраструктуры до выхода в прод. Решение Selectel, Data Sapience и GlowByte»
Алексей Рундасов, коммерческий директор, Data Sapience;
Александр Тугов, директор ИИ-вертикали, Selectel;
«ИИ в продакшене: как инференс превращает модели в деньги»
Владислав Кирпинский, директор по облачной интеграции, Selectel;
«Большой языковой барьер: ИИ-платформы 2026»
Михаил Зайцев, директор платформы Kolmogorov AI, Data Sapience;
«GenAI на практике: кейс “Таврос”»
Артем Самойлов, директор по информационным технологиям (IT) и цифровой трансформации, группа компаний «Таврос»;
Александр Ефимов, директор практики искусственного интеллекта и машинного обучения, GlowByte.

Зарегистрироваться на бизнес-ужин

Editor_cloud_ru

19 мар в 11:331.1K

Блог компании Cloud.ruБазы данных * Big Data * Хранение данных * Data Engineering *

Что будет на конференции GoCloud 2026: трек «Данные и аналитика»

GoCloud — ежегодная конференция Cloud.ru про ИИ и облака. В этом году она пройдет в кинотеатре «КАРО 11 Октябрь» на Новом Арбате в Москве. Формат смешанный — можно прийти офлайн или подключиться удаленно. Выступят больше 40 экспертов. Вас ждут 15 демозон, практические сессии, тематические круглые столы и, конечно, вечеринка после.

Один из треков будет посвящен данным и аналитике — разберем, какие инструменты позволяют сделать управление данными эффективным и не переплачивать, также расскажем, куда движутся тренды в 2026 году. Вот что запланировано:

Evolution Data Platform: эволюция платформы данных — куда движется дата-платформа Cloud.ru и что изменилось за год.
Как обрабатывать потоковые данные с помощью Evolution Managed Flink — архитектура, компоненты, сценарии использования.
Evolution Managed ArenadataDB в облаке: что изменилось с момента запуска — обновления, анонсы новых функций и клиентский кейс.
Управляемые базы данных и почему это тоже про машинное обучение — почему все начинается не с моделей, а с инфраструктуры для работы с данными.
Управление Evolution Managed Spark с AI: инновации и эффективность — как ИИ помогает оптимизировать Spark-задачи.

Завершит трек круглый стол «Тренды развития дата-сервисов в 2026 году» — про дата-стратегию, суверенные облака, управление данными и как дата-инженерия становится основой для ИИ в реальных проектах.

Встречаемся уже 9 апреля, успейте зарегистрироваться на сайте.

SnezhSh

17 мар в 16:001.3K

Блог компании GlowByteBig Data * Визуализация данных *

Успейте подать свою работу на конкурс BI-дашбордов Data Challenge

Партнер GlowByte компания FanRuan продолжает принимать заявки на первый открытый конкурс BI-дашбордов и визуальной аналитики FineGallery Insight Challenge. Срок подачи - до 31 марта.

Подробнее рассказывали о конкурсе в новости.

FineGallery Insight Challenge – это конкурс для аналитиков, BI-разработчиков и команд, которые работают с данными и создают дашборды.

Цель конкурса – показать, насколько мощной и красивой может быть визуальная аналитика, и дать пользователям пространство для обмена идеями, диагностиками, методами анализа и вдохновляющими примерами решений визуализации.

Как участвовать

1. Создайте аналитическую работу в FineBI или FineReport.

2. Заполните форму подачи, включив:

дашборд,
описание работы по структуре (описана на сайте конкурса),
информацию об авторе.

3. Дождитесь подтверждения участия и ждите результатов.

Призовой фонд

Лучшая бизнес-аналитика – 100 000 руб.
Лучший UX (пользовательский опыт) и визуальный дизайн – 70 000 руб.
Приз зрительских симпатий – 30000 руб.

Все подробности, включая сроки и требования к конкурсным работам – на сайте конкурса.

Editor_cloud_ru

17 мар в 15:301.2K

Блог компании Cloud.ruIT-инфраструктура * Базы данных * Big Data * Облачные сервисы *

Как Купер перенес 40 ТБ аналитических данных в облако без остановки процессов

🛒 Что за компания

Купер — сервис доставки из магазинов и ресторанов, работающий в 360 городах России. Аналитическая инфраструктура компании обрабатывает данные для управленческой отчетности и ситуативной аналитики — как внутренней, так и для внешних партнеров.

⚡ Задача

С ростом объемов данных старое решение перестало справляться. Нужно было:

найти управляемую СУБД в облаке аналогичную Greenplum по функциям, с поддержкой подключения к внешним источникам;
провести нагрузочное тестирование на реальных OLAP-запросах до миграции;
перенести 40 ТБ бизнес-критичных данных вместе с контуром разработки, не останавливая аналитические процессы.

☁️ Что сделали

Провайдер предложил Evolution Managed ArenadataDB — управляемую СУБД на базе Greenplum с открытым исходным кодом. Команда во время пилота:

развернула отказоустойчивый кластер и настроила процесс миграции;
подключила PXF-коннекторы к внешним источникам данных;
установила нестандартные JDBC-драйверы и оптимизировала использование памяти для крупных запросов;
настроила автоочистку и автоанализ — механизмы автоматического обслуживания СУБД для устойчивой работы под нагрузкой.

🦾 Что получили в итоге

40 ТБ данных и тестовый контур перенесены без остановки процессов. Инфраструктура работает оперативно: данные за вчера доступны уже на следующий день. Выросла скорость выполнения запросов, появилась гибкость масштабирования и прозрачность мониторинга.

В планах — оптимизация резервного копирования, архивация данных и бесшовная интеграция инструментов ИИ и машинного обучения.

Все детали кейса — на сайте Cloud.ru

Alex_StarRocks

13 мар в 12:4688

Анализ и проектирование систем * SQL * Базы данных * Big Data *

ai_query() в StarRocks 4.1: вызываем LLM прямо из SQL. Разбор результатов тестов.

Зачем это нужно аналитику и как вписывается в архитектуру, я описал в своем Telegram-канале Selena (powered by StarRocks). Здесь — технические детали и результаты тестирования.

Архитектура StarRocks 4.x: два направления интеграции с языковыми моделями

На схеме два потока данных между языковой моделью и базой данных:

Синий (вверху) — LLM → База через MCP (4.0). Пользователь задаёт вопрос на обычном языке. Агент сам формулирует SQL-запрос, отправляет его в StarRocks через MCP-протокол и возвращает ответ. Об этом я также подробно писал в нашем сообществе.

Зелёный (внизу) — База → LLM через ai_query() (4.1). Аналитик пишет SELECT с вызовом ai_query(). StarRocks на каждом сервере кластера отправляет запрос к языковой модели и возвращает её ответ как обычную текстовую колонку.

В версии 4.0 появилось первое направление, в 4.1 — второе. Полный цикл.

Что такое ai_query()

Функция принимает два аргумента: текстовый промпт и JSON с параметрами модели. Возвращает текстовую колонку — результат можно фильтровать, группировать и соединять с другими таблицами.

Обязательные параметры: model (название модели) и api_key (ключ доступа). Дополнительно можно указать адрес сервера модели, температуру, максимальную длину ответа и таймаут.

Функция работает с любым сервисом, совместимым с протоколом OpenAI: это и сам OpenAI, и локальные модели через Ollama, и DeepSeek, и vLLM.

Как тестировали:

Функция планируется к релизу в версии 4.1. Когда пришло время её проверить, привычный способ — развернуть готовый образ в Docker — не сработал. В образе обнаружился небольшой баг: функция была скомпилирована и лежала внутри сервера, но сервер о ней не знал. Исправление заняло одну строку в исходном коде. Но чтобы её применить, пришлось собирать BE из исходников.

Среда тестирования: виртуальная машина (8 CPU, 32 ГБ RAM), StarRocks 4.1.0-rc01 (собранный из исходников), языковая модель Ollama gemma3:1b (работает локально на процессоре). Тестовые данные — шесть отзывов о товарах.

Тест 1. Анализ тональности

Задача: определить, позитивный отзыв или негативный.

(SQL код по каждому тестированию я напишу в комментариях)

Вывод: четыре из шести точных.

Модель на один миллиард параметров делает бинарную классификацию — не различает нейтральные отзывы. Я, кстати, попробовал и с большими параметрами и с меньшим квантованием, насколько смог выдержать мой сервер, результат локальных моделей в этой задаче не очень.

Время: ~три секунды на шесть строк.

Не тот объем данных, чтобы экстраполировать на большие продакшн системы, но я тестировал не производительность, а работоспособность.

Тест 2. Суммаризация

Задача: сжать отзыв в одно предложение.
Вывод: адекватные резюме на русском языке. Длину ответа стоит контролировать параметром max_tokens.
Время: ~одна секунда на строку.

Тест 3. Извлечение характеристик

Задача: вытащить из текста ключевые свойства товара.
Вывод: характеристики извлекаются
Время: ~1 секунда на строку.

Тест 4. Классификация

Задача: определить категорию товара по тексту отзыва.
Вывод: категории определены верно. MacBook, монитор, наушники — «Электроника», мышь — «Периферия».
Время: ~0.5 секунды на строку.

Тест 5. Перевод

Задача: перевести отзыв с русского на английский.
Вывод: качественный перевод даже на модели в один миллиард параметров.
Время: ~1 секунда на строку.

Ограничения:

Нельзя задать роль модели (нет системного промпта) — только сообщение от пользователя
Нет повторных попыток при ошибке — если сервис модели вернул ошибку, это сразу ошибка SQL-запроса
Кеш хранится на каждом сервере отдельно и теряется при перезапуске

Итого:

ai_query() — простая обёртка над протоколом языковых моделей с кешем и дедупликацией. Не революция, но именно такие простые интеграции оказываются самыми полезными.

Функция появится в StarRocks 4.1.

Alex_StarRocks

12 мар в 12:05458

Анализ и проектирование систем * SQL * Базы данных * Big Data *

Что нас ждёт в StarRocks 4.1

В документации StarRocks появились release notes для 4.1 с пометкой RC (release candidate) — это предварительная версия перед финальным релизом. Посмотреть, куда движется проект, самое время. Я изучил release notes, связанные issues и PR, и выбрал четыре самых значимых изменения.

Ссылка на описание релиза: https://docs.starrocks.io/releasenotes/release-4.1/

Актуальные версии на сегодня: Stable — 3.5.14, Latest — 4.0.6.

1. Автоматическое управление распределением данных

Раньше при создании таблицы в shared-data кластере нужно было вручную выбирать ключ распределения и рассчитывать количество бакетов. Если ошибся — часть узлов перегружена, а часть простаивает, и исправление требует пересоздания таблицы.

В 4.1 для shared-data кластеров появляется range-based распределение: таблеты содержат метаданные диапазонов ключей, и система сама следит за их размером — автоматически разделяет слишком большие или объединяет недоиспользуемые. Без изменения схемы и без перезагрузки данных.

На практике: меньше ручной настройки при создании таблиц, меньше проблем с неравномерной нагрузкой. Issue #64986 (https://github.com/StarRocks/starrocks/issues/64986)

2. DELETE для Iceberg-таблиц

До 4.1 StarRocks мог только читать данные из Iceberg и добавлять новые (INSERT). Удалять было нельзя. А это серьёзное ограничение: удаление персональных данных по требованиям регуляторов, исправление ошибочных записей, очистка устаревших данных — всё приходилось делать через Spark или Trino.

Теперь DELETE FROM (механизм Iceberg position delete) работает напрямую из StarRocks. При этом delete-файлы совместимы с другими движками — Spark, Trino и Flink корректно их прочитают. StarRocks становится ещё более полноценным SQL-движком для Iceberg: SELECT + INSERT + DELETE. Issue #66944 (https://github.com/StarRocks/starrocks/issues/66944)

3. Рекурсивные CTE (WITH RECURSIVE)

Одна из самых запрашиваемых фич — сообщество просило с 2023 года. Рекурсивные CTE позволяют писать запросы, которые ссылаются сами на себя — это нужно для обхода иерархий (оргструктуры, категории товаров, вложенные комментарии), заполнения пропусков во временных рядах и графовых задач. Если вы мигрируете с PostgreSQL, MySQL или Trino — больше не нужно переписывать рекурсивные запросы. PR #65932 (https://github.com/StarRocks/starrocks/pull/65932)

4. Инкрементальное обновление Materialized Views на Iceberg

До 4.1 materialized views на Iceberg-таблицах обновлялись полным пересчётом — даже если в источнике добавилось несколько строк. Теперь StarRocks умеет обновлять MV инкрементально — обрабатывается только новая порция данных. Особенно заметно на append-heavy сценариях: логи, события, IoT-данные. Ограничение первой версии — работает только с таблицами, в которые данные добавляются, но не обновляются. Issue #61789 (https://github.com/StarRocks/starrocks/issues/61789)

Что ещё интересного:

Полнотекстовый поиск в shared-data кластерах (inverted index, beta)
Таблеты до 100 ГБ
Меньше мелких файлов, проще эксплуатация
Поддержка Iceberg V3 и тип VARIANT для полуструктурированных данных
ai_query()
вызов LLM-моделей прямо из SQL-запроса
sum_map() — нативная агрегация MAP по ключам
Мониторинг потоков FE через SQL без внешних инструментов

Больше постов про StarRocks и Lakehouse — в Telegram-канале @starrocks_selena

Step_devops

6 мар в 11:39860

Блог компании ОТП БанкБазы данных * Big Data *

Инсайты с конференции «Качество данных – 2026»

Привет, Хабр! У нас в ОТП Банке есть целое профессиональное сообщество про Data Governance. Мы генерим в нем много полезной информации, поэтому решили, что нашим читателям тоже можем быть интересно. Наш первый пост – про конференцию «Качество данных».

CDO – это не про технологии. Это про культуру.

Сегодня Chief Data Officer – это не просто руководитель данных. Это архитектор культурных изменений. Задача CDO: менять парадигму мышления организации: от работы «по ощущениям» к системной ответственности за данные и их качество.

Реальный срок построения Data Governance: 1–3 года.

Если на входе понятная структура данных: 1–2 года.

Если хаос, миграции и несистемность: 2–3 года.

Это подтверждает: построение экосистемы данных – не быстрый проект, а трансформация. И именно она позволяет перейти к проактивному качеству данных и Data-Driven управлению. Хайп вокруг AI показал главное - без качества данных ничего не работает. Многие компании попробовали внедрять AI и Data-Driven подходы, но столкнулись с реальностью: без управляемых, понятных и качественных данных результат не достигается.

Тренд 2026 года: фокус на качестве данных как фундаменте всех инициатив.

Методология + технология + коллаборация. Только вместе.

Один из ключевых выводов: ни стандарты без инструментов, ни инструменты без вовлечённых людей не работают. Качество данных «by design» возможно только тогда, когда: есть понятная методология, есть поддерживающая технология, и есть встроенная коллаборация через процессы Data Governance. Именно экосистема делает качество устойчивым.

Институт Data Owner и Data Steward – критический фактор успеха.

Важно не просто внедрить инструмент, а:

🪐назначить владельцев,

🪐выстроить прозрачную ответственность,

🪐дать удобный процесс работы с инцидентами качества,

🪐встроить мониторинг в операционные процессы команд.

Успех приходит тогда, когда Data Governance не выглядит как «дополнительная нагрузка сверху», а становится частью ежедневной работы с понятной пользой и измеримым результатом. Формальное назначение владельцев – это только начало.

Многие компании сталкиваются с трудностями в прозрачности и реальной вовлечённости владельцев данных. Но даже базовое, формальное закрепление ответственности создаёт фундамент, на котором можно строить зрелую систему качества. Именно этот фундамент позволяет переходить от описаний в глоссарии к реальной ответственности за качество и его исправление.

Главный вывод конференции:

Качество данных - это не функция IT. Это организационная зрелость. И 2026 год - год, когда выигрывают те, кто построил экосистему, а не просто внедрил инструмент.

andrey_krsv

1 мар в 19:491.6K

Big Data * Data Engineering *

Новая страшилка от Citrini Research: Кризис Интеллекта

В этом посте я не буду пересказывать данную статью. Считаю, что важно обратить внимание на последствия ИИ автоматизации, о которой в последнее время так много говорят и проследить за мнением людей.

Мнения людей после прочтения статьи разделились на оптимистичные и пессимистичные:

Оптимисты апеллируют к закону Сэя, который в сущности своей говорит следующее: спрос может подстроиться под любое количество предложения. В таком случае сэкономленные бизнесом деньги перетекут в другие и/или новые сектора экономики.
Пессимисты утверждают, что в случае с ИИ базовый механизм закона Сэя ломается. Роботы и алгоритмы производят товары и услуги, но не формируют потребительский спрос. Разрывается цикл "произвёл → получил деньги → потратил", потому что из него исключается человек. И кризис, описанный в статье, очень близок.

Оба лагеря имеют право на существование, но, если верить оптимистам, с нами не случится ничего плохого, поэтому детальнее рассмотрим противоположный вариант развития событий.

Самое "важное", что пытаются нам сказать авторы статьи и другие медийные личности индустрии: произойдёт переоценка человеческого интеллекта и его влияния на формирование цены продукта или услуги. И далее эта мысль подкрепляется предсказаниями об увольнении офисных клерков, джунов и других начальных и средних позиций.

Однако именно такие люди формируют основу ипотечных займов (да-да, снова кризис вокруг ипотеки). Банки спокойно выдавали кредиты, т.к. стабильный доход и условия жизни гарантируют очень вероятное успешное погашение этого самого кредита.

ИИ меняет ситуацию. Резкие сокращения могут повлечь за собой снежный ком, на конце которого будут частные фонды и банки. Скорее всего они смогут отыграться, а в дураках останутся обычные люди (опять).

Остаётся ответить только на 1 вопрос: Куда человечество в целом хочет прийти
через N лет?

В теории, таким должна заниматься ОНН, но что-то в эффективности данной организации на фоне последних событий начинает сомневаться всё больше людей.

Случайно можно наткнуться на мысль, что никто никуда идти и не хочет. Только заработать побольше денег и надуть пузыри до предела. Грустная мысль и, можно сказать, "глупая".

Спасибо, что почитали. Надеюсь, смог натолкнуть вас на интересные мысли. Буду рад вашим вопросам / дополнениям / комментариям.

webcounters

23 фев в 02:235.6K

Big Data *

Какой номер на футболке у человека?

Задал я сегодня этот вопрос нейронкам и вот что получил.
ChatGpt, Qwen3.5-Plus, Алиса: 68
Gemini PRO: В текущем положении (вверх ногами) мы видим число 68. Однако, если перевернуть изображение так, чтобы человек стоял на ногах, настоящий номер на футболке будет читаться как 89.
Grok решил что изображение неприличное (видимо сказались скандалы с раздевающими функциями).
DeepSeek не нашёл текста на картинке, но видимо искал задачу с текстом.

Интересно было бы позадавать этот вопрос детям, но пока такой возможности нет.

P/s Где был режим размышления, там включал.

selesnow

20 фев в 15:434.8K

Data Mining * Big Data * R * Data Engineering *

Недавно вышла новая версия dplyr 1.2.0, и она принесла несколько важных обновлений, которые делают работу с данными в R ещё проще и удобнее. Опубликовал видео обзор в котором я рассказываю про самые интересные новинки: новые функции фильтрации filter_out(), when_any() и when_all(), обновлённую систему перекодировки с recode_values(), replace_values() и replace_when(), а также о важных оптимизациях старых функций.

Если вы активно используете dplyr в своих проектах, этот обзор поможет вам быстро понять, как ускорить работу с данными и писать более читаемый код. В видео я показываю реальные примеры и сценарии использования новых функций, чтобы вы могли сразу применять их в своих проектах.

Видео снято по статье "dplyr 1.2.0".

andrew_brdk

18 фев в 06:094.3K

Big Data * Машинное обучение * Веб-аналитика * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты: связь с p-значениями

-Блокнот: https://github.com/andrewbrdk/Bayesian-AB-Testing/blob/main/appendices/Связь_с_p-значениями.ipynb
-Все видео: https://www.youtube.com/playlist?list=PLqgtGAeapsOPpV0FqeXEpWosHBW8ZebYl
-Stepik: https://stepik.org/course/249642/promo

SnezhSh

13 фев в 09:165.4K

Блог компании GlowByte3D-графика * Big Data * Визуализация данных * IT-компании

Цифровые двойники и 3D-визуализация: опыт GlowByte и FanRuan

GlowByte и FanRuan провели бизнес-завтрак с промышленными компаниями. Мероприятие было посвящено новым возможностям бизнес-аналитики, которые открывают инструменты FineVis и FineReport.

Эксперты продемонстрировали, как компании переходят от статичных дашбордов к интерактивным цифровым двойникам, которые обновляются в реальном времени и помогают принимать решения быстрее: от таблиц и графиков – к живым цифровым моделям.

Чжан Цзэфэн, Product & R&D Lead FineVis, FanRuan, рассказал:

как развивалась визуализация данных – от первых таблиц до VR/AR и 3D-моделирования,
что такое цифровой двойник и какие уровни зрелости существуют – от L0 до автономных систем L5,
почему 3D-визуализация имеет критичное значение для аналитики,
как применяют компании 3D-моделирование в логистике, производстве, энергетике, умных городах, медицине,
как FineVis и FineReport объединяют визуализацию и аналитику, интегрируя данные из ERP-, MES- и IoT-систем.

Смотреть видео выступления Чжана.

Алексей Коломенцов, старший консультант практики Business Intelligence, GlowByte, провел демо, в котором пошагово показал, как с помощью FineVis создать полноценного цифрового двойника – от пустой сцены до живой 3D-модели с данными.

В демо вы увидите:

Интерфейс системы и ключевые инструменты для работы.
Как строить сценарии взаимодействия с моделью.
Создание с нуля примера 3D-анимации.
Подключение реальных данных к объектам и их отображение в режиме реального времени.
Как сделать визуализацию интерактивной и полезной для аналитики.

Смотреть видео выступления Алексея.

Viktoria_Rein

10 фев в 22:342.3K

Высоконагруженные системы * Apache * Big Data * Исследования и прогнозы в IT * Data Engineering *

Друзья, 12 февраля проведём открытый вебинар по следам нашего ESB-исследования в «Кругах Громова».

Если коротко — за последний год мы оценили 18 российских интеграционных платформ по единой методологии: 12 категорий, 1 000 баллов. Такого раньше на рынке не было. Результаты местами предсказуемые, местами — неожиданные.

На вебинаре поговорим:

— Почему компании до сих пор путают Kafka, ESB и data pipeline — и платят за это дважды
— 5 классов интеграционных решений: когда какой работает, а когда — категорически нет
— Как мы строили матрицу зрелости и кто в итоге получил номинацию
— Что планируем исследовать дальше — и как повлиять на приоритеты

Будет живой эфир с интерактивом, не просто «говорящая голова».

Кто работает с интеграциями, выбирает платформу или просто в теме — приходите, будет интересно.

📅 12 февраля 2026, 11:00 МСК
📍 Онлайн, бесплатно

👉 Нужна регистрация: тут

SnezhSh

30 янв в 15:245.9K

Блог компании GlowByteBig Data * Визуализация данных * Управление проектами * Data Engineering *

GlowByte разработала методику выбора BI на основе сценарного анализа

Практика Business Intelligence GlowByte разработала подробное руководство по сценарному выбору BI с готовой Excel-матрицей для сравнения платформ.

GlowByte выделяет 4 ключевых сценария с разными потребностями и акцентами:

отчеты для руководителя,
self-service,
регламентная отчетность,
исследование данных.

Сценарии в матрице сопровождаются своим набором релевантных критериев, каждый из которых имеет оценку критичности, что позволяет адаптировать расчет под конкретный проект: при изменении критичности пересчитываются все баллы, и BI-платформа получает новую оценку.

ℹ️ Методика учитывает изменения в BI-ландшафте, запрос на адаптивность и гибкость, а также необходимость подстраивать инструмент под задачу, а не наоборот. Исследование содержит детальные чек-листы по каждому сценарию, критерии оценки и примеры расчетов.

Впервые GlowByte выпустила сравнительную таблицу инструментов для анализа данных в 2022 году (рассказывали о подходе в статье “Как выбрать BI-платформу”). Подробнее о том, как GlowByte пересмотрела методику и почему старый подход не работает, - в новой статье "От универсальных критериев к сценарному подходу".

SnezhSh

27 янв в 15:066.2K

Блог компании GlowByteВысоконагруженные системы * Big Data * Data Engineering *

Open Table Formats — Iceberg vs Paimon — практика использования

В блоге партнеров GlowByte вышла новая статья.

Автор рассказывает об опыте работы с новым открытым табличным форматом (OTF) Paimon от разработчиков Apache Flink, представляет практические выводы, которые были сделаны на промышленных средах; а также проводит репрезентативное тестирование, где иллюстрирует ключевые практические сценарии.

Появление open table formats исполнило вековую мечту data-инженеров: совместило эффективность хранения и чтения Apache Parquet с возможностью обновления данных без полной их перезаписи. Достигается это за счет парадигмы Merge-On-Read и «отложенного удаления», когда информация об удалении старых версий записи пишется в deletion-файлы. Для фреймворков потоковой обработки, например Flink, это открывает возможности по обновлению данных прямо в Data Lake в режиме, близком к реальному времени, а для движков пакетной обработки — Spark, Impala, Trino, StarRocks — сокращает расход ресурсов на MERGE новых порций данных в витрины.

Читать статью полностью по ссылке.

go_shan

26 янв в 13:165.5K

Блог компании AvitoTechВысоконагруженные системы * Big Data *

Всё зелёное — значит, всё ок?

В новом выпуске подкаста «В SREду на кухне» обсуждаем суть мониторинга и причины его хронических сбоев. В фокусе — метрики и алерты: как не утонуть в потоке предупреждений, отсеять ложные сигналы и выстроить эффективную систему. Говорим о том, как SRE анализируют графики, какие показатели бизнес считает ключевыми, и развенчиваем миф о том, что «зелёный» статус всегда означает успех.

Ведущие:

Михаил Савин, SRE Community Lead в Авито;
Андрей Волхонский, руководитель юнита System в Центре разработки инфраструктуры Авито;
Евгений Харченко, руководитель отдела по развитию практик в разработке и эксплуатации в Райффайзен Банк.

Смотреть VK
Смотреть YouTube

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

+25

SnezhSh

22 янв в 14:487.7K

Блог компании GlowByteВысоконагруженные системы * Базы данных * Big Data * Data Engineering *

Процедурное SQL-расширение в Lakehouse-платформе — новые возможности для работы с данными

В блоге технологического партнера GlowByte вышла новая статья. Команда Data Sapience рассказала о реализации процедурного расширения для работы с MPP-движками Lakehouse-платформы данных Data Ocean Nova, которое стало доступным для пользователей.

Ребята рассказывают о возможностях, применимости и сценариях использования процедурного языка в аналитической платформе данных и делятся планами по развитию Data Ocean Nova.

Viktoria_Rein

19 янв в 10:545.6K

Big Data * Управление проектами * Управление продуктом * Data Engineering * Визуальное программирование *

Привет!

В рамках «Кругов Громова» сейчас запускаем новое исследование — по российским платформам роботизации бизнес‑процессов (RPA). Хотим собрать честный опыт внедрения: что реально автоматизировали, где программные роботы помогают, а где мешают жить.

Если вы участвовали во внедрении RPA, запускаете и поддерживаете программных роботов (RPA‑ботов) в проде или, наоборот, уже обожглись и отказались от платформы — очень нужны ваши ответы. Опрос занимает 5–10 минут, он про практику, а не про маркетинг.

👉 Опрос RPA-круга Громова: https://forms.yandex.ru/cloud/6937ddf7068ff0b2dab7e0ee/

Результаты войдут в открытое исследование по российским RPA‑платформам на russianbi.ru — в духе прошлых исследовательских кругов: с разбором сильных и слабых сторон и типичных граблей.

Если есть история «как у нас роботы пошли не по плану» или, наоборот, показательный успешный кейс — кратко накидайте в комментарии к этому посту, это тоже поможет исследованию.

PhoenixLi

13 янв в 11:185.5K

Open source * Big Data * Data Engineering *

Call for Pioneers: Launching the StarRocks Russian Community

Hello, Russian Developers!

We are the team behind StarRocks, a next-generation, high-performance analytical database (OLAP) widely adopted by leading tech companies globally for its blazing-fast query speeds and unified architecture.

We have always admired the Russian tech community. From ClickHouse to Nginx, Russia has a legendary reputation for engineering excellence and database innovation. We believe StarRocks has a lot to offer to this vibrant ecosystem, but we face a challenge: Language.

To bridge this gap, we are launching the StarRocks Russia Localization Program. We are looking for 3-5 technical experts to become the founding contributors of our Russian community.

The Mission

We don't just need translators; we need technical evangelists. Your goal is to help us localize high-quality technical content (Architecture deep dives, Benchmarks, User Cases) from English/Chinese into native, professional Russian, ensuring the local community can access the best resources.

Who We Are Looking For

- Native Russian Speaker: You have a high command of technical writing.

- Tech Savvy: You have mastered SQL, OLAP, and Data Warehousing, and your current job involves working with OLAP databases.(Experience with ClickHouse or PostgreSQL is a huge plus).

- Language Skills: You have a good understanding of English (or Chinese).

- Passion: You are active on Habr, Reddit or Telegram tech groups, or GitHub.

What You Will Get

- Competitive Bounties: We pay for every high-quality article translated or proofread.

- Official Recognition: We will be launching an official website in Russia, where you will be certified and listed as a Community Evangelist (subject to your consent for public disclosure).

- Inner Circle Access: Direct communication with our core R&D team and early access to new features.

- Exclusive Swag: Limited edition StarRocks geek gear.

sergei_ai

6 янв в 06:045.3K

Python * Big Data * Машинное обучение * Natural Language Processing *

5 случаев, когда Fine-tuning лучше RAG

Все говорят "RAG для всего". Но есть кейсы, где fine-tuning выигрывает — и это не только про статичные данные.

1. Жёсткий формат вывода

Бот для CRM должен всегда возвращать:

{"name": "...", "phone": "...", "intent": "..."}

RAG не гарантирует формат. Fine-tuning — да. Модель "запоминает" структуру на уровне весов.

2. Доменный жаргон

Врач пишет: "в/в капельно NaCl 0.9% 400мл". Юрист: "п.1 ч.2 ст.158 УК".

RAG найдёт документ, но не научит модель "говорить на языке". Fine-tuning встраивает терминологию в модель.

3. Логика без документов

Расчёт стоимости доставки: вес, габариты, зоны, сезонность, тип клиента — 20 переменных.

Это не в документе, это в голове логиста. Fine-tuning переносит экспертизу в модель.

4. Стиль эскалации

Банковский бот не должен говорить "не знаю". Только: "Уточню у специалиста, ожидайте".

RAG учит контенту, fine-tuning — поведению и тону.

5. Скорость

RAG: эмбеддинг → поиск → генерация = 3 вызова, ~2 сек.

Fine-tuned модель: 1 вызов, ~0.5 сек.

Для голосового бота или real-time чата — критично.

Когда всё же RAG: данные часто меняются, нужны ссылки на источник, конфиденциальность.

Гибрид работает: fine-tuning для формата и стиля + RAG для актуальных данных.

А вы где использовали fine-tuning?

prishol

26 дек 2025 в 07:004.6K

Блог компании Ozon TechBig Data * Научно-популярноеБиотехнологии

Рассматриваем генетический код через призму машинного в новом выпуске ПВЗ

ПВЗ — подкаст команды Ozon Tech, в котором мы говорим о технологиях. На этот раз — о генной инженерии.

У микрофона ведущие Марина Самойлова, руководитель направления платформы данных, и Виктор Корейша, руководитель направления Managed Services. Гость выпуска: учёный-нейробиолог Владимир Алипов.

Разобрали, действительно ли у человека и бактерии один и тот же генетический код, возможности и этичность его редактирования. Узнали, с какой биг датой работают учёные и смогут ли они сделать человека умнее.

🎞️ Смотрите выпуск на YouTube или в VK Видео
🎧 Слушайте в аудиоформате

SnezhSh

25 дек 2025 в 13:585.3K

Блог компании GlowByteBig Data * Визуализация данных *

GlowByte на Хабре: подводим итоги 2025 года

Пробежимся по основным статьям, которые наши авторы написали в этом году.

Год начался с "ПИКантной миграции" – активный участник сообщества FineBI GlowByte от первого лица рассказал о том, как компания ПИК мигрировала c Tableau на FineBI.

Команда Financial Intelligence GlowByte разобрала ситуации для импортозамещения CPM, а бизнес-архитектор практики Retail Solution GlowByte Алексей Чванов рассказал, как ритейл в России слезает с промозависимости. Команда IIOT описала цифровую трансформацию как основу непрерывного улучшения производства.

Мы также рассказали, почему книгу Брюса Сильвера «BPMN. Метод и стиль» называют фундаментальной. А эксперт GlowByte Юлий Гольдберг, основываясь на своем 20-летнем опыте работы с платформами данных, BI, аналитическими решениями, поделился: что нужно помнить, чтобы Self‑Service BI стал реальным драйвером развития корпоративной культуры работы с данными, а не остался благим пожеланием.

В дополнение темы о Self-Service аналитике – познакомили вас с новой BI-платформой Sigla Vision.

Команда Business Intelligence GlowByte рассказала о скрытой стоимости BI и вместе с партнером FanRuan посмотрела на китайскую ИИ-революцию и экосистему ИИ-продуктов FanRuan.

Ведущий аналитик GlowByte Артем Матяш описал свой личный опыт прохождения сертификации процессных аналитиков в Ассоциации профессионалов процессного управления.

Ведущий архитектор GlowByte Марк Лебедев поделился результатами нагрузочного тестирования, которое он с коллегами провел для сравнения Greenplum 6 с Greenplum 7 и Cloudberry, а спустя время дополнил картину, рассказав о тестировании YMatrix.

Следующий год планируем открыть статьей о выборе BI-системы на основе разработанной в GlowByte методики.

Всех с наступающим Новым годом!

elizaveta_roschina

22 дек 2025 в 14:055.4K

Блог компании Data SapienceВысоконагруженные системы * Open source * Big Data *

Нагрузочное тестирование YMatrix

В партнерском материале расширяются результаты нагрузочного тестирования из статьи «Нагрузочное тестирование GP6 vs GP7 vs Cloudberry» и презентуются результаты тестирования YMatrix. Это дополнение к предыдущей статье, призванное сформировать понимание сравнимости результатов различных форков GreenPlum.

SnezhSh

19 дек 2025 в 09:235K

Блог компании GlowByteВысоконагруженные системы * Базы данных * Big Data *

Оптимизации функционала Apache Iceberg в задачах real-time загрузки и обработки данных

В блоге Data Sapience, технологического партнера GlowByte, вышла новая статья.

Технические лидеры направления разработки Apache Spark в составе платформы Data Ocean рассказывают:

С какими проблемами можно столкнуться при реализации Upsert Streaming в Iceberg;
Что такое equality delete;
Почему они создают нагрузку при чтении таблиц в Apache Iceberg;
Как оптимизировали Apache Spark, чтобы снизить потребление памяти и ускорить чтение данных.

prishol

18 дек 2025 в 13:206.5K

Блог компании Ozon TechBig Data * Научно-популярноеАстрономия

Вселенная данных: Владимир Сурдин о том, когда цифровой мир встречается с космосом

В новом эпизоде подкаста «Почти всё знают» в гостях у Марины Самойловой и Виктора Корейши астроном Владимир Сурдин.

Поговорили с Владимиром Георгиевичем о том, как учёные собирают, хранят и анализируют космические данные. Спойлер: телескопы видят только часть неба, а Вселенная вовсе не такая, какой мы её представляем.

Какая она на самом деле — узнаете из этого выпуска. А ещё:
– какие компьютеры используют астрономы,
– что сегодня — самая большая проблема для астрономии,
– как учёные спасают Землю от астероидов и какой робот сможет отправиться на поиски жизни на других планетах.

Приятного просмотра!

🎧 Аудио
🎧 YouTube
🎧 VK

SnezhSh

15 дек 2025 в 14:567.7K

Блог компании GlowByteВысоконагруженные системы * Open source * PostgreSQL * Big Data *

Нагрузочное тестирование YMatrix

Привет, друзья! Мой коллега Марк, ведущий архитектор GlowByte, поделился в новой статье результатами тестирования YMatrix.

Сразу оговорюсь, что это дополнение к предыдущей статье, для того, чтобы сформировать понимание сравнимости результатов различных форков GreenPlum, поэтому акцентировать внимание будем только на YMatrix. Детали по методике тестирования и как были получены результаты для GP6, GP7 и Cloudberry 1.6, можно прочитать в предыдущей статье по ссылке выше.

Добро пожаловать в статью! Комментарии приветствуются.

N0A

14 дек 2025 в 09:376.6K

Информационная безопасность * Big Data * Открытые данные * Монетизация IT-систем *

Эта работа описывает методику отслеживания непреднамеренного наследования паттернов между последовательными версиями языковых моделей.

Проверяем гипотезу, что при обучении новых моделей на предыдущих версиях (распространённая практика ради эффективности) они наследуют не только явные знания, но и «способы мышления», которые ускользают от привычных фильтров и процедур оценки.

Основные элементы:

Двухконтурный анализ

• Внутренний: сравнение геометрии представлений по cosine similarity и Centered Kernel Alignment (CKA) в выровненных пространствах признаков.

• Внешний: оценка переноса фиксированной классификационной «головы» (логистическая регрессия), обученной на одной версии и применённой к другой без дообучения.

Обнаружение событий

• O-TRACE: многомасштабное EMA + ζ-ядро для фиксации согласованных колебаний метрик.

• Импульсы: пороговая детекция резких падений в Δcos и ΔCKA.

Эксперименты на реальных моделях

• Эволюция семейства GPT-2: distilgpt2 → gpt2 → gpt2-medium.

• Переход между архитектурами: GPT-2 → DeepSeek-Coder-1.3B.

• Датасет: SST-2 (анализ тональности).

Ключевые выводы

• Геометрические сдвиги (падения CKA) могут быть значительными, даже когда cosine similarity остаётся высокой.

• Перенос фиксированных «голов» часто сохраняется при смене архитектуры.

• Самые сильные импульсы наблюдаются на межархитектурных переходах.

• «Стиль» и «смысл» могут расходиться независимо в процессе эволюции.

Эволюция моделей включает не только плановые улучшения, но и неконтролируемый перенос паттернов. Это важно для безопасности ИИ: модели могут наследовать и усиливать нежелательные предвзятости и формы поведения, обходящие стандартные фильтры.

Структура (3 папки):

• docs/ — два PDF с полным текстом на русском и английском.

• code/ — code_real_GPT2family.txt: одна ячейка для Colab. Загружает SST-2, извлекает признаки (mean-pool last_hidden_state), выравнивает размерности методом Procrustes, считает cosine/CKA и перенос логистической «головы», сохраняет отчёты (CSV, JSON, TXT).

Код и полный файл с объяснением методологии (на русском) доступны по

ссылке: https://zenodo.org/records/17926666

Viktoria_Rein

11 дек 2025 в 14:335.1K

Big Data * Визуализация данных * Хранение данных * Визуальное программирование * Подготовка технической документации *

Премьера года: знакомьтесь с DataForge!

Вебинар — 16 декабря, 12:00

Друзья, делюсь новостью, которой горжусь: коллеги запускают премьерный вебинар и впервые подробно покажут DataForge — новую российскую self-service платформу для централизованного управления аналитическими данными.

Я внимательно следила за развитием этого продукта и на некоторых этапах принимала участие в обсуждениях — особенно за те функции, которые лично для меня, как аналитика, принципиально важны:
— быстрый сбор и систематизация витрин
— возможность видеть и настраивать бизнес-логику
— единый подход к расчётам для всех систем без бесконечного ручного труда в Excel

DataForge — это инструмент, который сам собирает и поддерживает Data Mart слой для любых связанных систем. Особенно актуален для тех, кто строит витрины на ClickHouse: автоматическая генерация витрин, согласованность расчётов для всех потребителей данных — и всё это без лишних доработок со стороны разработчиков.

О чём расскажут на вебинаре:

Какие задачи решает DataForge и как ускоряет работу всех подключённых систем, включая BI
Как устроена структура продукта: его место в архитектуре и ключевые компоненты
Подробно покажем семантический слой: реестры показателей, измерений, единая бизнес-логика
Как работает автоматическая генерация SQL и публикация витрин в базе
Как DataForge обеспечивает согласованность метрик и прозрачность данных в любых BI-инструментах
Как платформа автоматически транслирует изменения в бизнес-логике во все связанные системы

Спикеры:
Технический директор и владелец продукта DataForge

Формат:
Онлайн, 1 час живого диалога с экспертами, включая демонстрацию интерфейса и ключевых возможностей платформы

Участие бесплатное!

Регистрация по ссылке

Luxms

11 дек 2025 в 12:134.5K

Блог компании Luxms BIАнализ и проектирование систем * Big Data * Визуализация данных *

Демонстрационный атлас Luxms BI: лучшие практики в одном месте

Демонстрационный атлас – удобный набор готовых примеров, который позволяет увидеть и изучить возможности платформы на практике.

Атлас содержит более 40 демонстрационных дэшбордов, каждый из которых показывает конкретную функцию Luxms BI: от стилизации таблиц и условий форматирования до использования write-back, LPE-выражений, расширенного расчетного функционала и многого другого.

Каждый дэшборд – это компактный «мини-кейc». Справа – готовая визуализация, слева – объяснение, из чего она состоит и как настроена. Вы сразу понимаете механику, видите конечный результат и можете повторить его у себя в проекте.

Все примеры построены на локальных кубах, которые устанавливаются вместе с пакетом. Это значит, что можно изучить структуру данных и свободно экспериментировать с собственными сценариями.

Атлас объясняет, как решить большое количество прикладных задач: как покрасить строки в таблице, как настроить write-back, как выполнить расчет, как скрыть столбец, как настроить действие по клику, как внедрить интерактивные элементы и многое другое.

Готовые решения, собранные в одном месте, делают работу с платформой намного проще, атлас выполняет роль и некого справочника лучших практик, и источника быстрых находок для разработчиков, аналитиков, или тех, кто только начинает знакомство с Luxms BI.

Посмотреть видеообзор и узнать, как получить доступ к демоатласу, можно на нашем сайте.

Luxms

11 дек 2025 в 08:113.7K

Блог компании Luxms BIАнализ и проектирование систем * Big Data * Визуализация данных *

Делимся записью прошедшего вебинара "Самые необычные применения BI. Решения, которые уже работают".

BI уже давно не только про графики, на его основе создают приложения, интеграционные решения и рабочие инструменты для бизнеса.

Эксперты поделились практическими кейсами использования BI в нестандартных сценариях, а на круглом столе поговорили о тенденциях, качестве данных и о том, почему необычные BI-сценарии становятся новым трендом.

Получился насыщенный вебинар, который вдохновляет искать новые точки применения аналитики!

Смотрите вебинар на нашем сайте

andrew_brdk

9 дек 2025 в 08:505.3K

Big Data * Математика * Машинное обучение * Аналитика мобильных приложений * Статистика в IT

Байесовские А/Б-тесты - курс на Stepik.

Курс https://stepik.org/course/249642/promo .

Показана реализация А/Б-тестов. Рассмотрено использование байесовского моделирования для сравнения конверсий и средних. Дополнительно обсуждаются множественные сравнения и транзакционная выручка на пользователя.

Репозитории
- https://github.com/andrewbrdk/Bayesian-AB-Testing
- https://github.com/andrewbrdk/AB-Testing-Implementation
Видео на ЮТубе. По сравнению с ЮТубом в курсе есть задачи.

Это первая версия курса. Интересны комментарии. Попробуйте!

Zoran-1975

2 дек 2025 в 13:275.6K

Блог компании VK TechCRM-системы * Big Data *

Бизнесу все труднее систематизировать данные. Источников много, хранение — часто локальное, собрать все данные в одно место и подготовить актуальный датасет большая задача.

На вебинаре с экспертами Loginom и VK Cloud расскажем, как связать разрозненные источники в работающую аналитическую систему всего за один день. 15 декабря в 17:00 покажем, как быстро развернуть облачную СУБД и подключить к ней low-code платформу Loginom.

В программе:

🔹 Собираем пазл: архитектура решения на основе облачных баз данных VK Cloud и платформы Loginom.
🔹 Избавляемся от рутины: автоматизируем очистку и подготовку данных (ETL) с помощью low-code инструментов.
🔹 Практические кейсы: внедрение аналитических решений для ритейла, телекома и фарминдустрии.
🔹 Технический воркшоп.
🔹 Ответы на вопросы о внедрении и интеграции.

➜ Зарегистрируйтесь на вебинар

SnezhSh

1 дек 2025 в 15:486.9K

Блог компании GlowByteBig Data * Визуализация данных * КонференцииИскусственный интеллект

Официальный глобальный релиз FineBI 7.0 в прямом эфире!

GlowByte приглашает на вебинар FanRuan, на котором будет представлена новая версия платформы FineBI 7.0.

В новом релизе разработчики усилили три основных направления: управление данными, работу с инсайтами через ИИ и гибкость self-service аналитики. FineBI 7.0 помогает бизнес-подразделениям двигаться быстрее, а ИТ – сохранять прозрачность и контроль.

📈 FineBI 7.0 – это:

Быстрая сборка дашбордов – пользователи могут самостоятельно создавать и обновлять аналитические витрины без долгих циклов согласования.
AI-интерфейс на естественном языке – задавайте вопросы обычными словами и находите инсайты, которые раньше были скрыты за сложными выборками.
Единые правила данных и доступов – вся аналитическая среда остается согласованной: структуры данных, права, политики и процессы управления.

Подробнее о возможностях FineBI 7.0 – по ссылке.

Прямой эфир состоится 11 декабря 2025 в 10:00 (МСК).

Команда продукта покажет ключевые обновления, новые сценарии и проведет живую демонстрацию интерфейса.

Забронируйте место заранее!

andrew_brdk

27 ноя 2025 в 08:454.6K

Open source * Программирование * Big Data * Машинное обучение * Data Engineering *

Outliers - детектор аномалий временных рядов

Демо: https://outliers.up.railway.app/
Код: https://github.com/andrewbrdk/Outliers

Сервис детектирует аномалии временных метрик и отправляет уведомления о выбросах. Поддерживает:
- PostgreSQL
- Емэил и Слак уведомления.
- Методы детектирования: пороговое значение, отклонение от среднего, межквартильное расстояние.

Попробуйте!

andrew_brdk

20 ноя 2025 в 08:404.6K

Open source * Big Data * Хранение данных * Машинное обучение * Data Engineering *

Repeater - легкий оркестратор для аналитики

Repeater запускает задачи по расписанию. Задачи описываются в toml-файлах и отображаются в веб-интерфейсе.

title = "wiki"
cron = "55 * * * *"

[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"   

[[tasks]]
name = "trigger_outliers_update"
cmd = "python3 ./examples/trigger_outliers_update.py"

Возможен запуск при завершении другой задачи, уведомления о падениях, параллельные этапы. Repeater подойдёт для импорта данных и обновления витрин в хранилище.

Попробуйте!

Демо: https://repeater.up.railway.app/
Репозиторий: https://github.com/andrewbrdk/Repeater

SnezhSh

12 ноя 2025 в 11:255.4K

Блог компании GlowByteBig Data * Искусственный интеллект

Новая услуга GlowByte: внедряем GenBI-решения на ваших данных

Команда Business Intelligence GlowByte расширяет возможности для бизнеса в различных индустриях и объявляет о запуске новой опции – выборе, пилотировании и внедрении GenBI-решений.

Эксперты GlowByte помогут определить потенциал генеративной аналитики под конкретные задачи, разработают критерии оценки решений, выберут оптимальную платформу и LLM-модель. Это позволит бизнесу сократить время на тестирование и минимизировать риски внедрения.

Процесс может занять от одного до трех месяцев. Реализация происходит поэтапно:

анализируются бизнес-процессы и инфраструктура, изучается специфика отрасли, текущие BI-решения, источники данных, архитектура систем и требования безопасности;
адаптируется методология тестирования;
настраиваются критерии оценки под данные и бизнес-задачи, формируются релевантные сценарии использования;
формируется шорт-лист GenBI-решений;
подбираются платформы и LLM-модели;
проводится комплексное пилотирование;
тестируются решения на реальных данных, измеряются производительность и точность результатов;
предоставляются обоснованные рекомендации с детализацией данных по внедрению выбранного решения.

Узнать больше, как это работает, можно тут.

SnezhSh

7 ноя 2025 в 11:345.8K

Блог компании GlowByteВысоконагруженные системы * Базы данных * Big Data * Data Engineering *

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

В блоге Data Sapience, технологического партнера GlowByte, вышла крутая статья технического идеолога Lakehouse-платформы данных Data Ocean Nova Евгения Вилкова.

Недавно на Хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
В качестве отступления замечу, что данный эксперимент не имеет ничего общего с массивно-параллельными вычислениями и Lakehouse. Архитектура раздельных вычислений предполагает интенсивный сетевой обмен не только между storage и compute, но и между узлами compute-движка. Как заметили в комментариях к оригинальной статье, с тем же успехом можно было включить в тест и MySQL. Складывается впечатление, что методика тестирования была выбрана исключительно из-за заявленных компетенций в области оптимизатора движка, а запрос – исходя из наличия собственных доработок для обработки схожего случая. Главной же целью было на частном выводе убедить аудиторию в общем выводе. Отдадим должное коллегам – они не скрывают субъективность своего отношения к упражнению.

Заинтригованы? Добро пожаловать в статью Евгения! Комментарии приветствуются.

AlfaTeam

5 ноя 2025 в 13:234.5K

Блог компании Альфа-БанкBig Data * Natural Language Processing *

Всероссийский хакатон для умных и свободных: призовой фонд один миллион рублей

Альфа-Банк приглашает всех, кто умеет не просто писать код, а готов поучаствовать в решении амбициозных бизнес-кейсов: настроить систему RAG для интеллектуальных вопросов и ответов на базе знаний Альфа-Банка или разработать copilot-приложение для клиентов микробизнеса. Хакатон предоставляет молодым специалистам возможность получить практический опыт в современных IT- и аналитических технологиях, поучаствовать в командных соревнованиях, а также построить карьеру в крупной компании.

Что вас ждет?

Борьба за призовой фонд в 1 000 000 рублей и шанс получить фаст-трек в команду Альфа-Банка.
Нетворкингом, где вы сможете поработать с экспертами Альфа‑Банка и получить ценные советы.
Возможность участвовать из любой точки России, а потом приехать на финал в Москву.
Прокачка навыков, погружение в актуальные задачи бизнеса и усиление технических скиллов

Собирай команду и участвуй по одному из двух треков: настройка RAG для вопросов и ответов или разработка copilot-приложения для клиентов микробизнеса. Это уникальный молодёжный хакатон, созданный специально для тех, кто хочет попробовать себя в решении реальных задач бизнеса с помощью передовых технологий.

Записывайся на Альфа-Будущее Хакатон — прокачай свои технические навыки и поработай над созданием реального ИИ-решения для бизнеса. Регистрируйтесь до 6 ноября и стартуйте!

-3

2 3 ...

7 8