Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

108,81

Рейтинг

СтатьиПостыНовостиАвторыКомпании

lamonosik1 5 часов назад

Гонка вооружений. Почему античиты всегда проигрывают?

Простой

5 мин

4.2K

C++ * Assembler * Data Engineering * Data Mining *

Туториал

ДИСКЛЕЙМЕР:

Автор не призывает к игре с сторонним ПО. Вся информация, приведенная в статье - приведена лишь в образовательных и ознакомительных целях. Информация была взята из открытых источников и ни к чему не призывает.

СОДЕРЖАНИЕ:

olegbunin 15 часов назад

AiConf 2026: переход от теории к практике

6 мин

2.6K

Блог компании Конференции Олега Бунина (Онтико)Искусственный интеллектData Engineering * Big Data * Конференции

Обзор

Привет, Хабр! Есть такое ощущение, что сейчас ИИ везде. Он пишет код, водит грузовики, торгует на бирже, даже планирует военные операции. Искусственный интеллект изменил и продолжает трансформировать привычную для нас реальность. Новостей и теоретической информации о возможностях AI предостаточно. И кажется, будто мы уже пресытились лекциями, вебинарами и докладами на эту тему.

Поэтому в 2026 году AiConf пройдёт в формате «конференция развития». Это значит больше интерактивных форматов и нетворкинга, чтобы участники были не пассивными слушателями, а активными создателями решений, знаний, новых контактов и инсайтов.

andrey_krsv 29 мар в 09:16

Для создания AGI нам нужно сделать шаг назад

Средний

10 мин

11K

Data Engineering * Будущее здесьИскусственный интеллектНаучно-популярноеПрототипирование *

Мнение

Из песочницы

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следующего токена. В основе агентных систем — оптимизация внешней целевой функции. В обоих случаях цель задана извне. Система не имеет права её пересмотреть.

Вы в праве сказать, что содержание статьи — это одна большая глупость, но я хочу предложить альтернативу. «Сознание» возникает не из сложности и объёма вычислений, а из архитектуры, где «Я» — не метафора в промте, а функциональный компонент системы.

Нам необходимо построить субъектность с нуля.

TBEPK 28 мар в 10:23

Как я впервые услышал черную дыру: Python и LIGO

Средний

9 мин

6.1K

Python * Data Engineering * Алгоритмы * Открытые данные *

Туториал

Recovery Mode

Привет, Хабр!

Когда речь заходит об обсерватории LIGO, большинство из нас вспоминает классический сценарий: где-то за миллиарды световых лет слились две черные дыры, и через миллионы лет детекторы на Земле зафиксировали гравитационный всплеск, длившийся доли секунды. В классической Общей теории относительности (ОТО) считается, что изолированная или просто поглощающая газ черная дыра гравитационно «нема». Она ничего не излучает.

Но что, если это не так? Что, если гравитационные телескопы способны «слышать» не только редкие катастрофические слияния, но и постоянный, фоновый гул от обычных черных дыр, которые прямо сейчас пожирают материю в нашей галактике? И что, если этот гул может рассказать нам о физическом размере объектов, внутри которых, как нам говорят, находится «бесконечная сингулярность»?

В этой статье я покажу, как концепция механики сплошных сред позволяет предсказать точную частоту такого резонанса. А затем мы откроем Python, подключимся к серверам GWOSC (Gravitational Wave Open Science Center), выкачаем гигабайты сырых тензорных данных LIGO и методами цифровой обработки сигналов (DSP) вытащим этот акустический след из шума.

Спойлер: мы найдем этот гул для трех разных черных дыр. И он совпадет с расчетным до десятых долей процента. Такого анализа (поиск непрерывного гравитационного резонанса от аккреции) еще никто не делал. Это буквально новый метод определения параметров черных дыр.

Слушать черные дыры

oopatow 27 мар в 14:36

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Средний

4 мин

5.1K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

Magnit_OMNI 27 мар в 11:45

Как мы подружили DataLens и OpenMetadata: архитектура, код и подводные камни

Средний

4 мин

4.7K

Блог компании Magnit TechBig Data * Open source * Анализ и проектирование систем * Data Engineering *

Кейс

Всем привет! Меня зовут Саша, я тимлид в DWH MAGNIT OMNI — бизнес-группе ритейлера «Магнит», которая отвечает за развитие омниканального опыта для клиентов.

Недавно ребята из Datalens проводили вебинар в честь выпуска Public API, в котором я принял участие. Эта статья — развернутая версия моего доклада об интеграции Datalens с OpenMetadata.

oopatow 26 мар в 15:03

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Средний

4 мин

5.4K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

-1

katerinacaplina 26 мар в 08:04

Как компании строят MLOps: три архитектурных подхода

Средний

8 мин

5.6K

Блог компании Яндекс ПрактикумМашинное обучение * Data Engineering * DevOps * IT-инфраструктура *

Обзор

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей». Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной промышленной компании и на практике вижу, насколько непросто выстраивать такие процессы в реальной организации.

Это первая статья из цикла о том, как компании реализуют MLOps. Она будет полезна тем, кто строит или развивает ML-процессы в компании и хочет разобраться, почему под словом MLOps часто скрываются довольно разные практики и решения.

В этой части не будем уходить в детали конкретных платформ, а сначала соберём общую картину: какие архитектурные модели скрываются за словом MLOps, чем они отличаются и почему компании с похожими задачами приходят к разным способам организации ML-инфраструктуры. В следующих статьях пойдём глубже и посмотрим на конкретные реализации.

Andrey_Biryukov 25 мар в 16:10

CSV в Spark: Искусство правильной загрузки данных

Простой

9 мин

6.5K

Блог компании OTUSBig Data * Data Engineering *

Туториал

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самый важный шаг в знакомстве с API Spark и основа для любой последующей обработки.

oopatow 25 мар в 15:15

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Средний

4 мин

6.8K

Искусственный интеллектМашинное обучение * Data Engineering * Обработка изображений *

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Friflex_dev 25 мар в 14:30

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями

7 мин

5.9K

Блог компании FriflexData Engineering *

Кейс

Привет, Хабр! Меня зовут Вадим Кондаратцев, я руковожу ИИ-направлением в Friflex и небольшой ИИ-лабораторией в МГТУ им. Баумана. Последние 10 лет работаю на стыке ML, HPC и Edge Computing, преподаю машинное обучение и примерно раз в день запускаю что-нибудь на суперкомпьютере.

Это расширенная версия моего доклада на CrossConf 2025 про мой опыт применения синтетических данных в проектах, которые связаны с интеграцией систем машинного обучения в промышленности и науке. Если интересно посмотреть, какая бывает синтетика и что она позволяет покрыть, прошу под кат.

tagir_analyzes 25 мар в 10:24

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

Средний

22 мин

7.1K

Искусственный интеллектМашинное обучение * Natural Language Processing * Python * Data Engineering *

Кейс

Я участвовал в ARLC 2026 — юридическом AI-челлендже по построению RAG-пайплайна поверх корпуса судебных решений и законов. Соло, с Claude Code в качестве напарника. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791 на warmup — а потом вышел в финал и потерял 42% на 300 документах вместо 30. Внутри — архитектура, код, математика F-beta, три провала и честный разбор работы с AI-ассистентом.

+12

set610 25 мар в 09:18

Юридическое поле экспериментов для RAG

Средний

11 мин

5.5K

Искусственный интеллектХакатоныМашинное обучение * Data Engineering * Natural Language Processing *

Можно ли делать RAG на MacStudio M3 Ultra? CAG - убийца RAG? Самый лучший RAG от OpenAI и Grok?

Ответы на эти вопросы мы узнали во время участия в соревновании Agentic RAG Legal Challenge. Стоит отметить хорошую организацию соревнования и продуманные метрики. Более 300 команд со всего мира.

Ответы на вопросы - под катом

VitaminND 25 мар в 06:22

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

6 мин

4.9K

Data Engineering *

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был, сегодня его «прикрутили» из-за учений, завтра ты въехал в «белое пятно», а послезавтра твой VPN забанили вместе с протоколом.

И вот ты сидишь, смотришь на крутящийся спиннер в браузере и понимаешь: твоя хваленая облачная IDE превратилась в дорогой скринсейвер. Весь твой BI-стек остался где-то там, за горизонтом событий, куда пакеты не долетают. Схема замерла, ETL превратился в тыкву, а изменения, которые ты вырисовывал последние полчаса, отправились в цифровую вальгаллу.

В этой статье я покажу, как в системе asapBI реализована честная оффлайн работа на примере графического моделирование SQL запросов к Clickhouse. Раскажу о том, как под капотом подружились локальное хранилище и тяжелые графы, и почему фраза «интернета нет, но вы моделируйте» — это теперь не издевка, а реальный фича-реквест.

... но вы моделируйте (C)

ozero17 24 мар в 08:09

Неочевидные оптимизации Iceberg таблиц

Средний

6 мин

4.2K

Big Data * Data Engineering * Базы данных * Программирование *

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд. Однако на практике большинство команд при внедрении ограничиваются базовыми возможностями, вроде создания таблиц, настройки партиционирования, настройки сompaction-процедур

При этом значительная часть производительности и стоимости эксплуатации Iceberg таблиц определяется менее очевидными деталями: устройством метаданных, стратегиями записи файлов и тем, как движки выполнения используют статистики файлов. Эти аспекты редко оказываются в центре внимания, но именно они часто становятся причиной деградации производительности по мере роста таблиц. На деле же пространство оптимизаций гораздо шире.

В этой статье я разберу несколько неочевидных оптимизаций Iceberg таблиц.

VladSMR 24 мар в 05:57

Аппаратная платформа обработки сетевого трафика

Средний

4 мин

6.5K

FPGA * IT-инфраструктура * Информационная безопасность * Data Engineering * Сетевые технологии *

Добрый день, уважаемые коллеги!

Как я уже говорил, наша компания ведёт разработку аппаратных платформ для средств защиты информации (СЗИ). На основе этих платформ мы делаем свои аппаратно-программные комплексы (ПАК), решающие те или иные задачи, обеспечивающие безопасность. Стоит отметить, что такие платформы – только часть в ПАК, причём самая негибкая, и самая изюминка, как правило, содержится в программном обеспечении. Давайте припомним, что IBM PC тоже в основном состоял и состоит из аппаратной платформы, а всё многообразие применений даёт всякое разное ПО 😊

husky_it 23 мар в 09:00

Как применяют LLM с RAG в экосистеме ML-моделей поддержки Лемана Тех? Кейс

12 мин

5.9K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Лемана ТехPython * Искусственный интеллектData Engineering *

Кейс

С ростом числа обращений в Service Desk классические ML-решения перестали покрывать все сценарии. Что же с этим делать?

Привет, Хабр! Я — Дмитрий Терентьев, ведущий специалист по науке о данных в Центре компетенций сопровождения IT-продуктов. Работаю с данными больше восьми лет, последние четыре — в Лемана Тех. В этой статье по мотивам доклада с AiConf я расскажу об эволюции моделей машинного обучения в поддержке и как удалось дополнить экосистему поддержки LLM с RAG для человекообразных ответов по Wiki и интеллектуальной эскалации к живым специалистам.

Sbukreev 21 мар в 17:49

Доктор Java лечит моторы: от симптомов к диагнозу

Простой

10 мин

11K

Промышленное программирование * Java * ХакатоныИнтерфейсы * Data Engineering *

Кейс

Привет всем!

Ко мне часто обращаются молодые инженеры с вопросом: «А зачем вообще идти в аспирантуру?» Я обычно рассказываю, какие плюсы и минусы есть у такого шага — как учёба прокачивает навыки, помогает упорядочить знания и освоить грамотную постановку экспериментов. Но выбор каждому нужно делать самому, стоит ли прокачивать такие навыки или нет.

И вот во время одного такого разговора, погрузившись в воспоминания о собственных научных делах, я случайно наткнулся в интернете на хакатон. И угадайте, по какой теме? По диагностике асинхронных электродвигателей — прямо в точку! Своего рода - мой незакрытый гештальт во время собственного обучения.

Решили с товарищем поучаствовать. Правда, мы были вдвоём, а в команде могло быть до 9 человек. Спойлер: мы не взяли первое место и даже не попали в шорт‑лист из 9 команд — заняли 16‑е место из 35.

Да, это не история про успех, а про опыт — тот самый, который, как известно, «сын ошибок трудных». Главный урок прост: да, быть экспертом и действовать в одиночку — это неплохо. Но настоящая суперсила — в команде!

А теперь — обо всём по порядку…

linabesson 21 мар в 07:36

Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов

Средний

5 мин

11K

Big Data * Data Engineering * DIY или Сделай самNatural Language Processing *

Аналитика

Трансформерная архитектура достигла потолка. Не по нашему мнению, по данным HEC Paris, Nature, arXiv и самих создателей frontier-моделей.
Фундаментальные ограничения архитектуры (квадратичная сложность, неспособность к композициональному рассуждению, отсутствие рекурсии) не решаются увеличением параметров. В этой статье мы разбираем, почему трансформер - это локальный максимум, какие архитектурные альтернативы уже показывают результаты, и почему следующий прорыв в AI - смена вычислительной парадигмы.

+17

buzaev-fedor 20 мар в 09:30

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Средний

9 мин

4.8K

Блог компании ЗвукМашинное обучение * Data Mining * Data Engineering * Искусственный интеллект

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга

Работа принята на EACL 2026 Workshop NLP4MusA. Авторы: Фёдор Бузаев, Ринат Муллахметов, Роман Богачёв, Илья Седунов, Олег Павлович, Камиль Мазитов, Дарья Пугачёва, Иван Сухарев (Zvuk, AIRI, НИУ ВШЭ, Иннополис).

2 3 ...

87 88