Обновить
256K+

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

108,81
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Гонка вооружений. Почему античиты всегда проигрывают?

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.2K

ДИСКЛЕЙМЕР:

Автор не призывает к игре с сторонним ПО. Вся информация, приведенная в статье - приведена лишь в образовательных и ознакомительных целях. Информация была взята из открытых источников и ни к чему не призывает.

СОДЕРЖАНИЕ:

Читать далее

Новости

AiConf 2026: переход от теории к практике

Время на прочтение6 мин
Охват и читатели2.6K

Привет, Хабр! Есть такое ощущение, что сейчас ИИ везде. Он пишет код, водит грузовики, торгует на бирже, даже планирует военные операции. Искусственный интеллект изменил и продолжает трансформировать привычную для нас реальность. Новостей и теоретической информации о возможностях AI предостаточно. И кажется, будто мы уже пресытились лекциями, вебинарами и докладами на эту тему.

Поэтому в 2026 году AiConf пройдёт в формате «конференция развития». Это значит больше интерактивных форматов и нетворкинга, чтобы участники были не пассивными слушателями, а активными создателями решений, знаний, новых контактов и инсайтов.

Читать далее

Для создания AGI нам нужно сделать шаг назад

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели11K

Современные языковые модели демонстрируют отличные способности к рассуждению, но при этом остаются инструментами. У инструмента нет выбора. В основе LLM лежит предсказание следующего токена. В основе агентных систем — оптимизация внешней целевой функции. В обоих случаях цель задана извне. Система не имеет права её пересмотреть.

Вы в праве сказать, что содержание статьи — это одна большая глупость, но я хочу предложить альтернативу. «Сознание» возникает не из сложности и объёма вычислений, а из архитектуры, где «Я» — не метафора в промте, а функциональный компонент системы.

Нам необходимо построить субъектность с нуля.

Читать далее

Как я впервые услышал черную дыру: Python и LIGO

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.1K

Привет, Хабр!

Когда речь заходит об обсерватории LIGO, большинство из нас вспоминает классический сценарий: где-то за миллиарды световых лет слились две черные дыры, и через миллионы лет детекторы на Земле зафиксировали гравитационный всплеск, длившийся доли секунды. В классической Общей теории относительности (ОТО) считается, что изолированная или просто поглощающая газ черная дыра гравитационно «нема». Она ничего не излучает.

Но что, если это не так? Что, если гравитационные телескопы способны «слышать» не только редкие катастрофические слияния, но и постоянный, фоновый гул от обычных черных дыр, которые прямо сейчас пожирают материю в нашей галактике? И что, если этот гул может рассказать нам о физическом размере объектов, внутри которых, как нам говорят, находится «бесконечная сингулярность»?

В этой статье я покажу, как концепция механики сплошных сред позволяет предсказать точную частоту такого резонанса. А затем мы откроем Python, подключимся к серверам GWOSC (Gravitational Wave Open Science Center), выкачаем гигабайты сырых тензорных данных LIGO и методами цифровой обработки сигналов (DSP) вытащим этот акустический след из шума.

Спойлер: мы найдем этот гул для трех разных черных дыр. И он совпадет с расчетным до десятых долей процента. Такого анализа (поиск непрерывного гравитационного резонанса от аккреции) еще никто не делал. Это буквально новый метод определения параметров черных дыр.

Слушать черные дыры

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.1K

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.

В итоге мы можем в некотором роде классифицировать понятие “кожа”. Да, напрямую мы этого не делаем, но из обучения так выходит, потому что одежда – это натуральная граница внутри самого объекта “человек”, и эти сегменты мы находим, потому что полагаемся на самые контрастные патчи, чтобы собрать из них общее описание всего объекта...

Читать про кожу

Как мы подружили DataLens и OpenMetadata: архитектура, код и подводные камни

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели4.7K

Всем привет! Меня зовут Саша, я тимлид в DWH MAGNIT OMNI — бизнес-группе ритейлера «Магнит», которая отвечает за развитие омниканального опыта для клиентов.

Недавно ребята из Datalens проводили вебинар в честь выпуска Public API, в котором я принял участие. Эта статья — развернутая версия моего доклада об интеграции Datalens с OpenMetadata.

Читать далее

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели5.4K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.

Долой трансформеры

Как компании строят MLOps: три архитектурных подхода

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.6K

Всем привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей». Работаю на стыке ML, инфраструктуры и корпоративной архитектуры в крупной промышленной компании и на практике вижу, насколько непросто выстраивать такие процессы в реальной организации. 

Это первая статья из цикла о том, как компании реализуют MLOps. Она будет полезна тем, кто строит или развивает ML-процессы в компании и хочет разобраться, почему под словом MLOps часто скрываются довольно разные практики и решения. 

В этой части не будем уходить в детали конкретных платформ, а сначала соберём общую картину: какие архитектурные модели скрываются за словом MLOps, чем они отличаются и почему компании с похожими задачами приходят к разным способам организации ML-инфраструктуры. В следующих статьях пойдём глубже и посмотрим на конкретные реализации.

Читать далее

CSV в Spark: Искусство правильной загрузки данных

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.5K

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самый важный шаг в знакомстве с API Spark и основа для любой последующей обработки.

Читать далее

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.8K

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.

Скорее узреть

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями

Время на прочтение7 мин
Охват и читатели5.9K

Привет, Хабр! Меня зовут Вадим Кондаратцев, я руковожу ИИ-направлением в Friflex и небольшой ИИ-лабораторией в МГТУ им. Баумана. Последние 10 лет работаю на стыке ML, HPC и Edge Computing, преподаю машинное обучение и примерно раз в день запускаю что-нибудь на суперкомпьютере.

Это расширенная версия моего доклада на CrossConf 2025 про мой опыт применения синтетических данных в проектах, которые связаны с интеграцией систем машинного обучения в промышленности и науке. Если интересно посмотреть, какая бывает синтетика и что она позволяет покрыть, прошу под кат.

Читать далее

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели7.1K

Я участвовал в ARLC 2026 — юридическом AI-челлендже по построению RAG-пайплайна поверх корпуса судебных решений и законов. Соло, с Claude Code в качестве напарника. За 5 дней и 17 итераций прошёл путь от 0.034 до 0.791 на warmup — а потом вышел в финал и потерял 42% на 300 документах вместо 30. Внутри — архитектура, код, математика F-beta, три провала и честный разбор работы с AI-ассистентом.

Читать далее

Юридическое поле экспериментов для RAG

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели5.5K

Можно ли делать RAG на MacStudio M3 Ultra? CAG - убийца RAG? Самый лучший RAG от OpenAI и Grok?

Ответы на эти вопросы мы узнали во время участия в соревновании Agentic RAG Legal Challenge. Стоит отметить хорошую организацию соревнования и продуманные метрики. Более 300 команд со всего мира.

Ответы на вопросы - под катом

Ближайшие события

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

Время на прочтение6 мин
Охват и читатели4.9K

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был, сегодня его «прикрутили» из-за учений, завтра ты въехал в «белое пятно», а послезавтра твой VPN забанили вместе с протоколом.

И вот ты сидишь, смотришь на крутящийся спиннер в браузере и понимаешь: твоя хваленая облачная IDE превратилась в дорогой скринсейвер. Весь твой BI-стек остался где-то там, за горизонтом событий, куда пакеты не долетают. Схема замерла, ETL превратился в тыкву, а изменения, которые ты вырисовывал последние полчаса, отправились в цифровую вальгаллу.

В этой статье я покажу, как в системе asapBI реализована честная оффлайн работа на примере графического моделирование SQL запросов к Clickhouse. Раскажу о том, как под капотом подружились локальное хранилище и тяжелые графы, и почему фраза «интернета нет, но вы моделируйте» — это теперь не издевка, а реальный фича-реквест.

... но вы моделируйте (C)

Неочевидные оптимизации Iceberg таблиц

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4.2K

Iceberg становится де-факто отраслевым стандартом при построении lakehouse в России. Для сравнения, на последней конференции smart-data, Iceberg по частоте упоминания уступает только Spark. Это значит, что уверенное владение механикой работы Iceberg становится обязательным навыком для инженеров данных и платформенных команд. Однако на практике большинство команд при внедрении ограничиваются базовыми возможностями, вроде создания таблиц, настройки партиционирования, настройки сompaction-процедур

При этом значительная часть производительности и стоимости эксплуатации Iceberg таблиц определяется менее очевидными деталями: устройством метаданных, стратегиями записи файлов и тем, как движки выполнения используют статистики файлов. Эти аспекты редко оказываются в центре внимания, но именно они часто становятся причиной деградации производительности по мере роста таблиц. На деле же пространство оптимизаций гораздо шире.

В этой статье я разберу несколько неочевидных оптимизаций Iceberg таблиц.

Читать далее

Аппаратная платформа обработки сетевого трафика

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.5K

Добрый день, уважаемые коллеги!

Как я уже говорил, наша компания ведёт разработку аппаратных платформ для средств защиты информации (СЗИ). На основе этих платформ мы делаем свои аппаратно-программные комплексы (ПАК), решающие те или иные задачи, обеспечивающие безопасность. Стоит отметить, что такие платформы – только часть в ПАК, причём самая негибкая, и самая изюминка, как правило, содержится в программном обеспечении. Давайте припомним, что IBM PC тоже в основном состоял и состоит из аппаратной платформы, а всё многообразие применений даёт всякое разное ПО 😊

Читать далее

Как применяют LLM с RAG в экосистеме ML-моделей поддержки Лемана Тех? Кейс

Время на прочтение12 мин
Охват и читатели5.9K

С ростом числа обращений в Service Desk классические ML-решения перестали покрывать все сценарии. Что же с этим делать?

Привет, Хабр! Я — Дмитрий Терентьев, ведущий специалист по науке о данных в Центре компетенций сопровождения IT-продуктов. Работаю с данными больше восьми лет, последние четыре — в Лемана Тех. В этой статье по мотивам доклада с AiConf я расскажу об эволюции моделей машинного обучения в поддержке и как удалось дополнить экосистему поддержки LLM с RAG для человекообразных ответов по Wiki и интеллектуальной эскалации к живым специалистам.

Читать далее

Доктор Java лечит моторы: от симптомов к диагнозу

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

Привет всем!

Ко мне часто обращаются молодые инженеры с вопросом: «А зачем вообще идти в аспирантуру?» Я обычно рассказываю, какие плюсы и минусы есть у такого шага — как учёба прокачивает навыки, помогает упорядочить знания и освоить грамотную постановку экспериментов. Но выбор каждому нужно делать самому, стоит ли прокачивать такие навыки или нет.

И вот во время одного такого разговора, погрузившись в воспоминания о собственных научных делах, я случайно наткнулся в интернете на хакатон. И угадайте, по какой теме? По диагностике асинхронных электродвигателей — прямо в точку! Своего рода - мой незакрытый гештальт во время собственного обучения.

Решили с товарищем поучаствовать. Правда, мы были вдвоём, а в команде могло быть до 9 человек. Спойлер: мы не взяли первое место и даже не попали в шорт‑лист из 9 команд — заняли 16‑е место из 35.

Да, это не история про успех, а про опыт — тот самый, который, как известно, «сын ошибок трудных». Главный урок прост: да, быть экспертом и действовать в одиночку — это неплохо. Но настоящая суперсила — в команде!

А теперь — обо всём по порядку…

Читать далее

Конец эпохи трансформеров. Берем у LLM донорские органы для ИИ-агентов

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

Трансформерная архитектура достигла потолка. Не по нашему мнению, по данным HEC Paris, Nature, arXiv и самих создателей frontier-моделей.
Фундаментальные ограничения архитектуры (квадратичная сложность, неспособность к композициональному рассуждению, отсутствие рекурсии) не решаются увеличением параметров. В этой статье мы разбираем, почему трансформер - это локальный максимум, какие архитектурные альтернативы уже показывают результаты, и почему следующий прорыв в AI - смена вычислительной парадигмы.

Читать далее

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели4.8K

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга

Работа принята на EACL 2026 Workshop NLP4MusA. Авторы: Фёдор Бузаев, Ринат Муллахметов, Роман Богачёв, Илья Седунов, Олег Павлович, Камиль Мазитов, Дарья Пугачёва, Иван Сухарев (Zvuk, AIRI, НИУ ВШЭ, Иннополис).

Читать далее
1
23 ...