Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 082,11
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Оптимизация комплаенса без лишних затрат: как мы сократили нагрузку на команду с помощью трёх метрик

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.2K

Привет! Я Томирис, аналитик данных в отделе финансового мониторинга в ЮMoney. Хочу показать кусочек нашей внутренней кухни: как мы пересобрали AML-процессы и перестали тонуть в отчётах.

В любой финансовой организации, работающей с розничными и корпоративными клиентами, система ПОД/ФТ (или AML — противодействие отмыванию денег и финансированию терроризма) играет ключевую роль. Помимо машинных алгоритмов онлайн-реагирования и автоматических ограничений, по-прежнему большую роль играют периодические отчёты и выборки по риск-критериям. Они помогают находить сигналы о потенциально незаконных операциях.

В этой статье мы сосредоточимся на периодическом мониторинге кошельков физических лиц (сегмент B2C). Это самый «дорогой» сегмент: здесь больше всего отчётов, операций и ручной работы комплаенс-аналитиков.

Читать далее

Новости

Terrafab, Starship, IPO: три обещания Маска, которые вызывают вопросы

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.7K

Изначально идея орбитального дата-центра от Маска казалась амбициозной, но технически сомнительной. Теперь, когда появились подробности о том, как он планирует реализовать этот грандиозный замысел, проект выглядит ещё менее осуществимым, чем казалось раньше. Либо это результат чрезмерного оптимизма, либо здесь происходит что-то более сложное.

Давайте начнём с самого начала. Вопреки заявлениям Маска, орбитальные ИИ-дата-центры не дешевле наземных. Как я уже писал ранее, запуск ИИ-дата-центров в космос обходится примерно в девять раз дороже, чем их эксплуатация на Земле — так что даже во время энергетического кризиса орбитальные дата-центры значительно дороже.

Вдобавок потребуются десятки триллионов долларов, чтобы построить и развернуть в космосе 100 ГВт солнечных панелей, которые обещал Маск, — и их придётся полностью заменять каждые пять лет или около того, когда спутники, к которым они прикреплены, сойдут с орбиты.

Да, и строительство этих спутников на Луне, как предлагал Маск, не решает ни одну из этих проблем и, по сути, только усугубляет их.

Тем не менее, Маск всё ещё хочет развернуть орбитальную констелляцию из миллиона спутников с ИИ-дата-центрами!

Читать далее

Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.5K

Представьте: вам дают 10 терабайт текста и говорят — запихни это в файл на 70 гигабайт. Так, чтобы потом по любому вопросу можно было восстановить нужный кусок. Не точно, но близко. Не побайтово, но по смыслу.

Вы бы сказали: «это lossy-компрессия, часть данных неизбежно потеряется».

И были бы правы. Потому что именно это делает LLM.

Читать далее

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели4K

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час.

Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово.

Реальность оказалась другой. Готовых русскоязычных решений нужного качества не было. Mistral 7B — одна из лучших открытых моделей на тот момент — на русском ошибался в склонениях, плохо следовал русскоязычным промптам и терял смысл в длинных диалогах. Стало понятно: придётся дообучать самим.

Читать далее

Топ 13 инструментов для сбора саммари из видео, аудио, текстов и PDF

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели4K

Как я уже не раз отмечал в своих предыдущих материалах, инструменты со встроенными нейросетевыми примочками развиваются быстро. Буквально за несколько месяцев одни сервисы успевают захватить новые, порой совсем неожиданные ниши, а другие – обрасти таким количеством функций, что их создатели сами путаются в настройках. Рынок кипит, и уследить за всем практически невозможно.

Сегодня представлю очередную подборку, но уже с конкретным, довольно узким уклоном. В прошлый раз я пристально смотрел на генерацию кода и презентаций. Теперь же поговорим о саммари. Под этим модным словом скрывается технология сжатия информации до ключевых вещей, когда из простыни текста вам выдают три-четыре тезиса, а из часовой лекции – двухминутную выжимку.

Признаюсь честно: я за полные версии. Будь то книги, видео или лекции. Мне важно видеть ход мысли автора, детали. Саммари же часто принимают некоторые важные вещи за воду и безжалостно их удаляют, оставляя сухой, а порой и искаженный остаток. И все же, при всей моей любви к оригиналам, не озвучить интересные варианты в этой сфере, увы, не могу. 

Принимайте стратегически удобное положение, ну а я начинаю.

Читать далее

Ultra Deep Research: триангуляция AI-поиска через три нейросети

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели3.7K

Вы спрашиваете нейросеть — она идёт в интернет и возвращает ответ. Но в какой именно интернет?

Claude ищет через Brave. ChatGPT — через Bing. Gemini — через Google. Три разных поисковых движка, три разных среза, совпадение результатов около 20%.

Я выстроил подход к AI-ресёрчу вокруг этого факта: три уровня, от быстрого вопроса до триангуляции через все три движка. И всё равно нарвался: два AI синхронно соврали.

Плюс бонус-левел: что делать, когда весь интернет врёт и нужен хирургический скальпель вместо широкого поиска.

Читать далее

Утекли исходники Claude Code

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели16K

Anthropic забыли добавить *.map в .npmignore — и весь исходный код Claude Code оказался в открытом доступе через npm. Тамагочи в терминале, система снов для консолидации памяти, режим прикрытия для коммитов в open-source, 30-минутные сессии планирования на удалённом Opus 4.6, мультиагентный рой с координатором — и всё это спрятано за feature flags, которые source map’ы радостно проигнорировали. Разбираем, что нашлось внутри.

Круто! Читать далее

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.7K

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

Читать далее

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели4K

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).

Читать далее

Книга: «Основы GraphRAG. Улучшенный RAG на базе графов знаний»

Время на прочтение2 мин
Охват и читатели5.6K

Привет, Хабожители! Создайте и разверните систему GraphRAG производственного уровня. Научитесь извлекать структурированные знания из текста и комбинировать методы векторного поиска с поиском по графам. Книга богата практическими примерами: от создания инструмента поиска по векторному сходству и приложения Agentic RAG до оценки эффективности и точности результатов работы такого приложения.

Читать далее

Amazon уволила инженеров, заменила их ИИ и получила 6-часовой аутфолл на $490 млн

Время на прочтение9 мин
Охват и читатели8.7K

CEO Nvidia и профессиональный ИИ-энтузиаст Дженсен Хуанг недавно заявил, что мы уже достигли AGI (искусственного общего интеллекта). Во-первых, это вызывает серьёзные вопросы к его пониманию интеллекта. Современные ИИ-системы больше напоминают глубоко галлюцинирующего плагиатора-подхалима, чем что-либо похожее на связный интеллект. Беззубый дедок в потрёпанной шапке, подпирающий барную стойку моего местного паба с 11 утра каждый день, обладает бесконечно большим интеллектом, чем эти «статистические машины по сглаживанию кривой». С ним, кстати, и поговорить куда интереснее.

Но, во-вторых, это просто не происходит, шеф! И Дженсен бы это знал, если бы отвлёкся от подсчёта миллиардов долларов, заработанных на круговом финансировании, и взглянул на реальные возможности генеративного ИИ в настоящем мире. Знаете, там, где интеллект — это не какая-то псевдоинтеллектуальная спекулятивная концепция, а критически важная штука для реальных результатов.

Возьмём, к примеру, Amazon. В третий раз они усвоили болезненный урок: генеративный ИИ не обладает интеллектом, не может заменить человеческий интеллект и не является инструментом продуктивности.

Впрочем, я говорю «усвоили»… Что там та фальшивая цитата Эйнштейна об определении безумия? Что-то про повторение одних и тех же действий в ожидании разных результатов?

Читать далее

«Поставить себя на ваше место». Мы занялись метаболизмом ИИ

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели3.4K

TL;DR Индустрия жжет мегаватты, чтобы GPT научился говорить «мне жаль» убедительнее. Спойлер: не научится. Transformer — это калькулятор с хорошей памятью, у него нет «себя», которое можно было бы поставить на чужое место. Мы построили Metabolic AI Runtime, где проблема пользователя становится его напряжением, и он генерирует ответ не из шаблонов, а чтобы вернуть себя в равновесие. Машинная эмпатия — это не «You are a helpful assistant», это архитектура, у которой есть что терять.

Читать далее

Почему искусственный интеллект не может заменить врачей и ученых, но может им помочь

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели3.6K

Всем добрый день! 

Я уже почти 15 лет работаю в сфере разработки инновационных лекарственных препаратов и диагностических инструментов, и на моей памяти приход новых технологий не раз порождал иллюзию скорого избавления человечества от всех болезней. И, конечно, разного рода открытия в области генной инженерии, иммуно-онкологии и молекулярной биологии поспособствовали появлению инновационных терапий, однако, к сожалению, многочисленные заболевания пока не поддаются излечению.  

В какой-то момент инструментом поиска панацеи стал считаться искусственный интеллект (здесь достаточно вспомнить намерения Цукерберга вылечить все болезни или заявления Билла Гейтса о том, что ИИ заменит большую часть врачей).  Однако, как и во многих других отраслях, вслед за бумом завышенных ожиданий пришло осознание границ применимости методов и более зрелое отношение к технологиям. В этой статье я хотела бы описать взгляд традиционного ученого на “хайп” вокруг нейросетей и громогласные высказывания о том, что скоро нас всех заменит искусственный интеллект.

Читать далее

Ближайшие события

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

Время на прочтение17 мин
Охват и читатели3.4K

С определенным успехом методы математического программирования захватили множество задач автоматизации и оптимизации бизнес процессов (маршрутизация доставки, планирование производства или графиков работы сотрудников, планирование сетей и т.д.). Используемые методы решения и классические постановки задач десятилетиями остаются без серьезных изменений. Когда ждать революцию? Кто имеет потенциал для ее организации?

Проведем эксперимент на предмет того, есть ли у RL способности решать оптимизационные задачи. Для исследования возьмем не сложную практическую оптимизационную задачу и оценим как обучение с подкреплением справится.

Материал будет полезен как заядлым специалистам по мат.оптимизации, так и ml-инженерам или data scientist’ам. Рассматриваемая задача может быть интересна специалистам из области логистики/транспортных перевозок.

Читать далее

Как AI-фильтр удалил мой блог навсегда — что это говорит о будущем модерации

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели3.3K

AI-фильтр удалил мой блог и навсегда заблокировал аккаунт — без объяснений... Разбираю, как работает автоматическая модерация, почему она ошибается и кто в итоге отвечает за такие решения.

Читать далее

Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Время на прочтение8 мин
Охват и читатели3.2K

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные способы. Одно из самых простых решений, позволяющих значительно повысить точность и достоверность ответов, — RAG (Retrieval Augmented Generation). Это генерация с дополненной выборкой. 

Меня зовут Михаил Костецкий, я управляющий эксперт отдела обеспечения качества в ПСБ. Мы в коллегами сейчас тоже пробуем использовать технологию RAG в разных задачах — в своей статье я хочу поделиться этим опытом. Буду рад, если моя статья станет полезна тем, кому предстоит работать с методом. 

Читать далее

Разворачиваем ИИ в контейнерах: опыт интеграции LocalAI и Kubeflow

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.9K

Привет, Хабр! Мы — команда dBrain.cloud, и сегодня хотим поделиться нашим путем по внедрению ИИ-сервисов на платформе контейнеризации.

Читать далее

Инженер против попугая: пишем промпты для больших продакшен-сервисов

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели5.5K

Привет, Хабр! Меня зовут Полина Белокрыс, я промпт-инженер в hh.ru. Моя команда развивает ИИ-ассистента для работодателей, который берёт на себя рутинные задачи и помогает бизнесу сосредоточиться на главном — внимательной работе с подходящими кандидатами. В этой статье расскажу, как на самом деле устроен промптинг в продакшене — и почему написать промпт сложнее, чем просто поболтать с ChatGPT.

Статья будет полезна промпт-инженерам, начинающим ML-инженерам и инженерам GenAI, которые работают с языковыми моделями и хотят лучше понимать, как пишутся промпты для продуктовых систем.

Читать далее

Долой иерархию и роли: о том, как LLM-агенты самоорганизуются лучше, чем мы их проектируем

Время на прочтение7 мин
Охват и читатели7.8K

Роли, иерархии, департаменты — всё это придумано для людей. ИИ-агенты устроены иначе. Мы 6 месяцев проверяли, что произойдёт, если не назначать агентам роли и дать им самоорганизоваться. 25 000 задач, 8 моделей, до 256 агентов. Результат: назначать роли — антипаттерн. Система, где агенты сами выбирают специализацию, превосходит систему с координатором на 14%. 8 агентов создали 5 006 уникальных ролей. Агенты сами решают, когда не участвовать — и это повышает качество. В статье — полный разбор эксперимента и практические рекомендации.

Читать далее

Как Дженсен Хуанг переопределил понятие «ИИ-инфраструктура»?

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.9K

Заказы на чипы на триллион долларов. Новый фреймворк для агентного ИИ, который Дженсен сравнил с Linux. И одно высказывание с keynote GTC 2026, которое должно заставить каждого руководителя по данным прямо сейчас пересмотреть свою стратегию управления.

Читать далее
1
23 ...