Обновить
128K+

Data Mining *

Глубинный анализ данных

13,69
Рейтинг
Сначала показывать
Порог рейтинга

Huawei продвигает новый AI-чип 950PR, а ByteDance и Alibaba готовятся к заказам

Время на прочтение2 мин
Охват и читатели5.7K

Huawei, похоже, смогла сделать то, что раньше давалось ей тяжело: заинтересовать крупные китайские IT-компании своим новым AI-чипом. По данным Reuters, ByteDance и Alibaba планируют размещать заказы на новый 950PR, который должен стать более серьезным конкурентом Nvidia на китайском рынке.

Для Huawei это важный сдвиг. Предыдущий флагманский чип Ascend 910C не получил по-настоящему массового спроса у крупных частных техкомпаний, несмотря на курс Китая на импортозамещение в полупроводниках. С новым поколением ситуация, судя по всему, меняется.

Главная причина — не столько рост «сырой» вычислительной мощности, сколько более практичная доработка. Новый 950PR оказался лучше совместим с экосистемой Nvidia CUDA, на которой уже завязано множество китайских разработчиков. То есть переход на чип Huawei становится менее болезненным, а для рынка это, возможно, даже важнее, чем формальное сравнение по производительности.

Читать далее

Новости

На Урале и в Сибири откроются первые студенческие лаборатории для обучения вайб-кодингу

Время на прочтение1 мин
Охват и читатели4.3K

В российских вузах начинают открывать первые студенческие лаборатории по вайб-кодингу. Первая площадка заработает летом в Омском государственном техническом университете, а до конца 2026 года еще одну лабораторию планируют открыть в Уральском государственном университете путей сообщения.

Проект запускается вместе с компанией «АрхиТех ИИ», которая развивает отечественную ИИ-среду для вайб-кодинга Kodik. Студентов технических направлений собираются учить безопасной работе с ИИ при разработке ПО, а также тому, как внедрять ИИ-инструменты в реальные бизнес-процессы.

Читать далее

Почему компании подают в суд против незаконного скрапинга SerpApi

Время на прочтение2 мин
Охват и читатели7.1K

В последнее время много предпринимателей и частных лиц подают судебные иски против компании по скрапингу - SerpApi за обход мер безопасности, защищающих чужой контент под авторским правом, который появляется в результатах поиска Google. Целью обращения в суд является попытка остановить ботов SerpApi и их вредоносный скрапинг, который нарушает выбор веб-сайтов и правообладателей относительно того, кто должен иметь доступ к их контенту. Эти иски следуют за судебными действиями, которые другие веб-сайты уже предпринимали против SerpApi и подобных компаний по скрапингу, и является частью давней практики активных судебных разбирательств по борьбе с мошенниками в Интернете.

Google следует отраслевым стандартным протоколам краулинга и уважает политики веб-сайтов относительно сканирования их контента. Скрытные скраперы вроде SerpApi игнорируют эти политики и вообще не оставляют сайтам никакого выбора. SerpApi использует сомнительные лазейки - такие как маскировка, спам сайтов огромными сетями ботов и присвоение своим краулерам фальшивых и постоянно меняющихся имён, чтобы обходить меры безопасности и воровать контент сайтов.

Эта незаконная деятельность резко возросла за последний год. SerpApi обманным путем берет контент, который Google лицензирует у других (например, изображения, появляющиеся в панелях, данные в реальном времени в функциях поиска и многое другое), а затем перепродает его. При этом компания сознательно игнорирует права и политики веб-сайтов и поставщиков, чей контент появляется в поиске.

Читать далее

Второе место на Data Fusion Contest 2024

Время на прочтение3 мин
Охват и читатели1.5K

В начале апреля завершилось ежегодное соревнование по машинному обучению с призовым фондом в 2 миллиона рублей — Data Fusion Contest 2024. Основных задач было две, и команда наших аналитиков-исследователей из Лаборатории ИИ заняли второе место в решении задачи по моделям оттока!

Читать далее

Вышла новая — Llama 3.1 405B

Время на прочтение2 мин
Охват и читатели36K

В доступе появилась новейшая Llama 3.1 405B.

🦙 Llama 3.1 8B выглядит очень достойно, а 70B даже достигает уровня производительности GPT-4o.

Модель 405B обеспечивает лучшую производительность, но не выглядит новаторской. Пробуем! Веса модели уже на HuggingFace 🚀

Глянуть бенчмарки и скачать веса

Т-Банк открыл доступ к собственной русскоязычной языковой модели T-lite

Время на прочтение1 мин
Охват и читатели36K

Специалисты из Центра искусственного интеллекта Т-банка открыли доступ к новой языковой модели в весовой категории 7-8 миллиардов параметров. Согласно внутренним и индустриальным бенчмаркам, модель обходит все существующие в своем классе аналоги. 

Модель T-lite была представлена в рамках первой конференции Т-Банка по машинному обучению Turbo ML Conf. T-lite — это инструмент разработки, с помощью которого компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. В частности, это могут быть ассистенты поддержки для обработки запросов, ответов на вопросы и т.д. Пример работы LLM для голосового заказа. Веса T-lite модели уже на HuggingFace.

Изучить модельку

СИГМА и ИнфоТеКС завершили внедрение новой российской системы учета электроэнергии в 11 регионах РФ

Время на прочтение3 мин
Охват и читатели2.1K

Компании «СИГМА» и «ИнфоТеКС» завершили первое в РФ внедрение интеллектуальной системы учета электроэнергии (ИСУЭ), полностью соответствующей актуальным требованиям к импортозамещению и информационной безопасности. Система рассчитана на взаимодействие в режиме реального времени с более чем 16 млн точек учета. К работе в ней уже перешли дочерние общества ПАО «Интер РАО» в 11 регионах России.

Читать далее

Релиз профайлера данных Desbordante 2.0.0

Время на прочтение2 мин
Охват и читатели1.2K

16 апреля 2024 года состоялся второй мажорный релиз профайлера данных Desbordante (исп., безграничный), который позволяет проводить поиск различных примитивов в таблицах. Исходный код проекта опубликован на GitHub под лицензией GNU Affero General Public License v3.0. Первая стабильная версия Desbordante вышла в декабре 2023 года.

Читать далее

«ГалоПолимер» переводит производственные процессы на отечественную цифровую платформу

Время на прочтение4 мин
Охват и читатели1.6K

Крупное химпредприятие «ГалоПолимер» завершило реализацию проекта по оптимизации технологических процессов. Включение российской платформы для предиктивной аналитики и управления техническим состоянием оборудования CyberStudio в производственный цикл химпредприятия позволит увеличить объем выработки метиленхлорида без привлечения дополнительных ресурсов или перенастройки оборудования. В ходе проектных работ производство «ГалоПолимер Кирово-Чепецк» было переведено на импортонезависимое решение при сохранении непрерывности всех критических бизнес-процессов. Все работы были выполнены специалистами К2Тех и CyberPhysics в короткие сроки – всего за три месяца.

Читать далее

Русский жестовый язык: первое место в американском бенчмарке

Время на прочтение2 мин
Охват и читатели3.7K

Нейросети для распознавания жестового языка, созданные командой компьютерного зрения RnD CV в SberDevices научились лучше всех в мире распознавать американский жестовый язык и подружились с GigaChat!

Такой результат был достигнут благодаря нашему датасету русского жестового языка (РЖЯ) Slovo, который недавно мы выложили в открытый доступ. Публичная версия датасета содержит тысячу классов жестов суммарным объемом в 20 тысяч HD+ видео, записанных большой группой экспертов. Датасет и обученные на нем модели нейронных сетей бесплатны и выложены в открытый доступ. Это самый большой открытый и разнородный датасет РЖЯ в мире. Оказалось, что предварительное обучение нейронных сетей на датасете Slovo позволило модели хорошо обобщиться и стать основой для распознавания не только РЖЯ, но и других жестовых языков, в частности американского.

Подробности...

Автор курсов по Python и Pandas жалуется на вечный бан за рекламу торговли экзотическими животными

Время на прочтение3 мин
Охват и читатели12K

DALL-E 3

Преподаватель языка Python Ревер Лернер рассказал в личном блоге, как получил бан в рекламной сети Facebook². Лернер попытался разместить рекламу курсов Python и Pandas, но система сочла подобное рекламой продажи экзотических животных и заблокировала его аккаунт рекламодателя. Из-за того, как организована работа с данными в Meta¹, не помогло вернуть аккаунт даже вмешательство человека.
Читать дальше →

Новая библиотека для анализа данных Pandas AI: стоит ли пробовать?

Время на прочтение3 мин
Охват и читатели6.6K

Появилась новая библиотека Pandas AI - надстройка над популярной библиотекой для анализа данных Pandas.

Как уверяют разработчики, Pandas AI в свою очередь расширяет возможности Pandas за счет искусственного интеллекта.

Ниже краткий обзор.

Принцип работы Pandas AI

В редакторе кода задаете любой вопрос про данные на естественном языке и без написания кода получаете готовый ответ по вашим данным.

Какие вопросы можно задать? Любые вопросы, связанные с подготовкой, очисткой данных, визуализацией, исследовательским анализом данных, машинным обучением и т.д.

Простой пример, если спросить про данные о зарплате: "Кто в компании зарабатывает больше?". Pandas AI ответит: "Оливия зарабатывает больше".

Читать далее

Данные накрылись ФСТЭКом

Время на прочтение2 мин
Охват и читатели2.9K

Становятся недоступны наборы ранее открытых данных о юридических лицах. Так, на сегодняшний день закрыли доступ по API к банку данных об исполнительном производстве Федеральной службы судебных приставов (ФССП), также недоступны данные об участниках проекта «Сколково» и реестр аккредитованных ИТ-организаций Минцифры. При этом можно получить информацию о конкретной аккредитованной ИТ-компании на Госуслугах, а об участнике проекта «Сколково» — на сайте фонда, но не списком.

Упоминания о недоступности некоторых данных появились еще в конце февраля 2022 года. Мы в DataNewton столкнулись с ограничением доступа к некоторым, ранее открытым, реестрам и базам и есть риск, что в ближайшем будущем данные и доступ к ним по API могут закрыть и другие организации.

Читать далее

Ближайшие события

Factory5 представила бесплатный сервис по анализу данных для решения задач бизнеса с помощью ИИ

Время на прочтение2 мин
Охват и читатели1.1K

Российский разработчик программного обеспечения для промышленности Factory5 выпустил F5 Future — облачный сервис no-code приложений с использованием машинного обучения. Сервис призван решать бизнес-задачи, связанные с выявлением закономерностей, прогнозированием целевых показателей, а также проверять гипотезы.

Читать далее

18 сентября в Санкт-Петербурге, в оффлайне состоится слет IT-сообществ HackConf 2022

Время на прочтение4 мин
Охват и читатели2.5K

18 сентября с 10 до 18 в Санкт-Петербурге состоится большая оффлайн встреча IT-сообществ, участвуют все желающие, вход бесплатный, нужно зарегистрироваться. До всемирной пандемии мы так же собирались большим составом в 2017, 2018, 2019 и несколькими годами ранее в рамках фестиваля ChaosConstructions, но работ на демопати все меньше, было бы здорово, если бы демосценеры смогли загрузить свои работы на Cafe Party 2022 в Казани, чтоб было за что голосовать. HackConf продолжая традиции будет в оффлайн формате, не будет онлайн трансляции, так мы сможем более свободно поговорить о наболевшем.

Читать далее

Контест на определение сбоев

Время на прочтение2 мин
Охват и читатели366

Cтартовал первый контест для разработчиков от Brand Analytics!

Задача контеста: написать приложение, которое будет определять сбои и сможет выделять сервисы и аспекты в публичных сообщениях соцмедиа о сбоях.

Призовой фонд - 500 тысяч рублей.

Срок подачи решений до 17 августа 2022 г. 20:00 MSK.

Читать далее

Открытый семинар «Обзор алгоритма CLIP от OpenAI»

Время на прочтение1 мин
Охват и читатели854

12 мая в 16:30 (мск) пройдёт открытый семинар «Обзор алгоритма CLIP от OpenAI».

Рассмотрим подход, который превосходит по качеству большинство алгоритмов для классификации изображений на многих датасетах.

Спикер: Максим Земляникин, инженер в компании Xperience.AI.

Зарегистрироваться на семинар можно по ссылке. Участие бесплатное.

Больше видео с прошедших семинаров на нашем YouTube-канале.  

Читать далее

Яндекс Практикум запускает курс «SQL для работы с данными и аналитики»

Время на прочтение2 мин
Охват и читатели8.3K
Яндекс Практикум разработал курс «SQL для работы с данными и аналитики». За полтора месяца студенты с нуля пройдут путь от новичка до уверенного пользователя SQL.

Программа предназначена для начинающих и продолжающих обучение аналитиков, продакт- и проджект-менеджеров, специалистов техподдержки, UX-исследователей и новичков, которые хотят составлять SQL-запросы и работать с СУБД, даже если у них нет опыта в базах данных и html.

Выпускники получат удостоверение о повышении квалификации.


Читать дальше →

МКБ подвел итоги первого хакатона для специалистов по Data Science

Время на прочтение2 мин
Охват и читатели1.9K

Московский кредитный банк (МКБ) подвел итоги первого открытого хакатона для молодых специалистов по Data Science.

Топ-20 участников хакатона, которые предложили самые интересные работы, получили приглашение присоединиться к команде МКБ.

Узнать все результаты

Онлайн-митап LaTech Data Talks — анонс

Время на прочтение1 мин
Охват и читатели1K


Всем привет! 30 ноября в 19:00 по московскому времени мы проведем онлайн-митап для специалистов по работе с данными. Для участия необходимо зарегистрироваться.

Спикеры расскажут, как устроена команда Data & Analytics в Lamoda и с какими вызовами нам приходится справляться, про выстраивание процессов в команде продуктовых аналитиков и о том, как наш поиск позволяет пользователям находить то самое платье или те самые классные кроссовки:)

Под катом программа встречи, спикеры и тезисы их выступлений.
Читать дальше →
1