Все потоки

Голосовые интерфейсы *

управляем устройствами при помощи голосовых команд

42,56

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Kir_Moisha 28 мар в 04:28

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Простой

9 мин

7K

Голосовые интерфейсы * macOS * Анализ и проектирование систем * Исследования и прогнозы в IT *

Обзор

Из песочницы

Recovery Mode

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час — это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю — документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что‑то сложнее «I agree» — начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI‑интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real‑time переводчик. Что‑то типа: я говорю по‑русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

Читать далее

+12

snakers4 27 мар в 14:08

Теперь silero-tts v5 на русском языке умеет задавать вопросы

Простой

4 мин

8.3K

Машинное обучение * Python * Open source * Natural Language Processing * Голосовые интерфейсы *

Обзор

Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.

В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).

Как вы догадались, эта фича — это постановка вопросов.

Хочу послушать вопросы

+37

freedey1601 25 мар в 13:16

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

5 мин

7.2K

Python * Голосовые интерфейсы * Изучение языковМашинное обучение * Программирование *

Кейс

Из песочницы

Привет, Хабр! Меня зовут Vlad, я начинающий Python‑разработчик и энтузиаст изучения языков.

Недавно я столкнулся с классической проблемой полиглота‑самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было.

Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram‑бота, который:

1. Слушает голосовые сообщения и распознает речь без дорогих облачных API.
2. Оценивает точность произношения в процентах, сравнивая с эталоном.
3. Поддерживает живой диалог через LLM, исправляя ошибки на лету.
4. Работает быстро и экономно на слабом VPS.

В этой статье я подробно разберу архитектуру проекта, покажу, как интегрировать бинарный whisper.cpp в асинхронный aiogram 3.x, реализую алгоритм оценки речи и расскажу про управление состояниями (FSM). Под капотом — Python, нейросети и немного магии.

Читать далее

+7

Andrey3343 13 мар в 05:59

Как я вайбкодил озвучку текста для AutoCraft

Простой

7 мин

2.6K

Python * Искусственный интеллектГолосовые интерфейсы *

Обзор

С этим расширением всё началось довольно просто: я хотел упростить себе озвучку книг и больших текстов внутри своего проекта, а не прыгать каждый раз между разными сервисами и программами.

План был обычный: вставил текст, выбрал движок, получил озвучку.

Но потом, как это часто бывает, всё поехало чуть дальше:

— LLM подкинула несколько идей
— кто-то попросил добавить дополнительные возможности
— а мне самому пришлось разбираться с символами, которые вообще не должны озвучиваться

В итоге из обычной функции озвучки выросло отдельное расширение для веб-панели AutoCraft.

Сразу уточню: эта статья именно про расширение Win TTS для веб-панели.

Про саму веб-панель я потом напишу отдельно, когда доведу её до состояния, которое меня устроит.

Читать далее

-1

Flampanzer 12 мар в 08:00

Как заставить англоязычную нейросеть читать по-русски (и стоит ли оно того)

4 мин

9.6K

Блог компании SelectelИскусственный интеллектГолосовые интерфейсы * Научно-популярноеМашинное обучение *

Обзор

Сегодня полностью погрузимся в мир TTS (Text-to-Speech) — новое русло нейросетей, призванных облегчить жизнь и отобрать работу у профессиональных дикторов, актеров и тех, чей голос мы привыкли слышать в любимых фильмах.

Рассмотрим бесплатные модели, не требующие кредитов, подписок или трех цифр на обороте карты. Заранее обозначу, что не все модели поддерживают русский язык, а у некоторых присутствует своеобразный акцент, как у Шварценеггера из фильма «Красная жара».

Я буду генерировать озвучку не только на английском, но и на русском языке, чтобы понять, насколько отличается качество звучания и произношения, и можно ли вообще использовать эти модели, закрыв глаза на ограничение языков.

Читать далее

+60

loveprod 4 мар в 08:00

Проект «Прометей»: как озвучить целую библиотеку за один вечер при помощи ИИ

Средний

8 мин

12K

Блог компании SelectelИскусственный интеллектГолосовые интерфейсы * Системное администрирование * Open source *

Обзор

Каждый из вас хоть раз ловил себя на мысли: «А почему бы не начать слушать книги вместо того, чтобы их читать?». Пока едешь в метро, стоишь в пробке, занимаешься домашней рутиной или вместо приевшейся музыки в спортзале — сценариев масса.

В сети полно литературы, но если вы эстет и ищете что-то глубже «Онегина» или модных бестселлеров, то наверняка сталкивались с проблемой: нужной книжки в аудио просто не существует.

Так вот, тут мы попадаем в ловушку. Технологий синтеза речи (TTS) сейчас море, а вменяемого инструмента, чтобы массово превращать текст в звук, нет.

Либо вы платите корпорациям за каждый символ через официальные API, превращая чтение в дорогую привычку, либо ковыряете софт, застрявший в эпохе Windows XP, который озвучивает файлы дольше, чем вы бы читали их вслух сами.

Я системный администратор. Моя работа — заставлять системы работать эффективно, и я не люблю ждать. Не люблю, когда мой домашний компьютер превращается в жужжащую печку, показывая 1% прогресса в час. Этот материал — не просто туториал, а технический разбор и своего рода «дневник» процесса разработки проекта «Прометей». Мы посмотрим, как превратить выделенный сервер в промышленную фабрику аудиокниг, способную выдавать 20 часов готового звука за 11 минут.

Читать далее

+76

vzaguskin 27 фев в 12:30

Разрабатываем голосового ассистента на Rockchip. Часть 2

Средний

15 мин

7.9K

Блог компании МТСБлог компании MWS AIГолосовые интерфейсы * Искусственный интеллектDIY или Сделай сам

Туториал

Продолжаю разрабатывать DIY голосового ассистента на SOC-платформе Rockchip.

В первой части смы соединили в единый конвейер вызов распознавания речи, локального чат-бота и синтез ответа.

Если еще не читали, то вам сюда.

Во второй части поговорим об улучшениях работы с синтезом речи. Научим нашего ИИ-помощника произносить текст, содержащий сложные для моделей сущности, а также сделаем его более плавным.

Читать далее

+24

RyabovA 18 фев в 11:59

Распознавание речи и голосовое управление на Repka Pi 4, автономная работа, real-time, нейросеть Vosk на базе Kaldi

Средний

18 мин

9.2K

Raspberry Pi * Голосовые интерфейсы * Интернет вещейПрограммирование микроконтроллеров *

Кейс

В современном мире технологии распознавания речи используются очень широко. Например, они нашли применение в системах управления умным домом, в устройствах IoT, при управлении различным оборудованием. Наличие в одноплатных микрокомпьютерах портов вводы/вывода и промышленных интерфейсов позволяет управлять устройствами голосом.

В статье рассказано, как настроить локальное (автономно работающее) распознавание речи в реальном времени на микрокомпьютере отечественного Российского производства Repka-Pi 4 Optimal, на борту у которого есть всего 2 Гбайт оперативной памяти.

Рассмотрим такую работу на конкретных примерах и разберём подробно, как это работает. Дальше простор для фантазии и создания своих проектов открывается безграничный.

Читать далее

+16

GrekNirvana 25 янв в 16:28

Как я собрал свою собственную умную колонку и Wi-Fi mesh-роутер в одном флаконе или конкурент для Яндекс станции

Средний

13 мин

23K

Беспроводные технологии * Голосовые интерфейсы * ЗвукНастройка Linux * Сетевые технологии *

Кейс

Привет Хабр! Меня зовут Алексей и я занимаюсь беспроводными технологиями. В этой статье я расскажу, как собрал прототип своей собственной умной колонки, объединённой в одном устройстве вместе с Wi-Fi mesh-роутером. Начну издалека и поразмышляю о том, какие плюсы может принести такое устройство как для качественного Wi-Fi в квартире, так и для производителей умных колонок. Проанализирую уже существующие на рынке решения и попробую собрать собственное устройство из USB-аудиокарты, роутера и обычной Bluetooth-колонки.

Читать далее

+11

snakers4 30 дек 2025 в 15:17

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Простой

3 мин

14K

Машинное обучение * Open source * Natural Language Processing * Голосовые интерфейсы * Искусственный интеллект

Всё шло к этому. Мы решили задачу омографов в русском языке (мы уже готовим большое расширение). Мы попробовали насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали, что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Протестируем!

+43

KalashQK 26 дек 2025 в 08:16

Для чего нужен Умный дом и почему я разработала свое устройство

Простой

13 мин

9.4K

Яндекс API * Умный домГолосовые интерфейсы * ГаджетыDIY или Сделай сам

Из песочницы

Для чего нужен Умный дом и почему я разработала свое устройство

История о разработке устройства умного дома без опыта, с минимальными ресурсами и максимальными приключениями в течение 6 лет. МУЗА — одно простое устройство для управления всеми основными функциями Умного дома, умная колонка с Алисой, датчиками и камерой в одном корпусе.

Читать далее

+7

AlexIntekey 17 дек 2025 в 12:14

Голосовое управление на складе: как мы внедряем Voice Picking и что из этого получается

Простой

20 мин

7.4K

Блог компании INTEKEYIT-инфраструктура * IT-компанииГолосовые интерфейсы * Управление разработкой *

Меня зовут Александр, я руковожу отделом внедрения в INTEKEY. Мы — системные интеграторы в логистике. Это значит, что мы помогаем складам автоматизировать процессы комплексно: от анализа задач и выбора технологий до внедрения, обучения и поддержки.

В этой статье я хочу поделиться нашим опытом работы с голосовым управлением (VoicePicking/Pick-by-Voice*) на складах. Нашим партнером в этом направлении выступает компания Айвойс с платформой GOLAS. Мы начали работать с этой технологией несколько лет назад, и за это время внедрили ее на разных объектах.

Я расскажу, как это работает на практике, с какими техническими и организационными нюансами мы сталкивались и на что стоит обратить внимание, если вы рассматриваете такую возможность для своего склада.

*Voice Picking (голосовой отбор, Pick-by-Voice) — это технология автоматизации складских процессов, при которой сотрудники получают задания и подтверждают их выполнение с помощью голосовых команд через гарнитуру. Это полностью безбумажный и hands-free метод работы, который интегрируется со складской системой управления (WMS) для обмена данными в реальном времени.

Читать далее

+2

KKK_56 17 дек 2025 в 08:00

Как в звонках автоматически находить первые признаки выгорания операторов кол-центра

10 мин

5.9K

Блог компании МТСВеб-разработка * Голосовые интерфейсы * Управление персоналом * Python *

Туториал

Привет, Хабр!

Выгорание операторов — распространенная проблема в кол-центрах. По разным оценкам, текучесть персонала здесь достигает 40–45%, а средний срок работы составляет 8–12 месяцев. Это приводит к дополнительным расходам на обучение, росту нагрузки на команду и снижению качества сервиса. При этом заметные изменения в поведении сотрудников обычно фиксируются слишком поздно — когда проблема уже стала системной.

Я Катя Саяпина, менеджер продукта МТС Exolve. В этом материале разберу способ раннего обнаружения таких изменений. Он опирается на статистические отклонения в поведении оператора и дополняет прямое общение с сотрудниками и сбор обратной связи в команде. Мы создадим на Python сервис, который объединит Telegram-бота, API МТС Exolve и LLM, развернутую на платформе MWS GPT.

Читать далее

+2

AnatolyBelov 10 дек 2025 в 06:00

Автоматизация приема заказов по телефону. Личный опыт и реальные результаты

8 мин

4.9K

Управление продажами * Голосовые интерфейсы * Искусственный интеллект

Каждый день миллионы клиентов звонят в компании по телефону - и каждый такой звонок обходится бизнесу в деньги, время и репутацию. Операторы выгорают от монотонных разговоров, клиенты бросают трубку после долгого ожидания, а бизнес теряет прибыль на рутине, которую давно пора автоматизировать.

Я уже несколько лет занимаюсь разработкой и внедрением голосовых ботов для приема заказов по телефону - не в теории, а для реальных компаний, с реальными клиентами и реальными заказами.

В этой статье я поделюсь конкретными кейсами, которые помогут владельцам и руководителям бизнеса понять:

Какую реальную пользу приносит автоматизация (и почему это не просто модное слово).

С какими трудностями сталкивались на практике - и как их преодолевали.

Каких результатов удалось достичь - в реальных цифрах, фактах и отзывах.

Читать далее

+4

men10577 9 дек 2025 в 14:30

Multi-API Ensemble: 95% точности транскрипции региональных топонимов

Средний

28 мин

7.6K

Голосовые интерфейсы * Проектирование API * Python * Искусственный интеллект

Туториал

Сезон ИИ в разработке

В статье полный разбор архитектуры, алгоритмы scoring, примеры кода и расчёт экономики.

Один STT-сервис дал 60-70% точности на специфической лексике (топонимы, названия улиц, профессиональные термины). Два сервиса параллельно + взвешенное голосование + AI-fusion для спорных случаев дали 95%+ точности. Время обработки 5-8 секунд.

Читать далее

+2

stas-clear 8 дек 2025 в 05:54

xAI провела 24-часовой хакатон: как инженеры использовали Grok в играх, рекрутинге и кибербезопасности

Средний

4 мин

6K

Искусственный интеллектРазработка игр * Голосовые интерфейсы *

Обзор

Компания xAI представила результаты 24-часового внутреннего хакатона, на котором команда разработчиков создавала прототипы на базе Grok - AI-модели, тесно интегрированной с платформой X. Формат был простым: сутки непрерывной работы и полная свобода экспериментировать с агентами, обработкой данных и интеграциями. Но именно эта «сжатость» хорошо показала, как быстро Grok превращается в инструмент для прикладных задач, а не просто чат-модель.

Читать далее

0

Alkud 4 дек 2025 в 09:30

Разбираемся, что слышит умная колонка. О нелинейных искажениях и метрике FRR

Средний

8 мин

9.5K

Блог компании SberDevicesЗвукПроизводство и разработка электроники * Голосовые интерфейсы *

Салют, Хабр!

Меня зовут Александр. Я DSP-инженер, то есть специалист по цифровой обработке сигналов, и в SberDevices занимаюсь VQE — Voice Quality Enhancement, блоком улучшения качества звука. Мы разработали методику, которая позволяет прогнозировать качество распознавания голоса (так называемую метрику FRR) по объективным показателям работы эхоподавления, а измерения и оценку параметров стандартизировали. Благодаря этому методику можно использовать для любых устройств без сложного дополнительного оборудования. Сегодня расскажу о ней.

Читать далее

+8

vzaguskin 27 ноя 2025 в 08:03

Разрабатываем голосового ассистента на Rockchip. Часть 1

Средний

19 мин

7.5K

Блог компании MWS AIБлог компании МТСГолосовые интерфейсы * Искусственный интеллектDIY или Сделай сам

Туториал

Всем привет! Я Виктор Загускин, руководитель отдела голосового ML в MWS AI. Мы разрабатываем продукт формата «спичкит» — распознавание и синтез речи, анализ ее содержания. Наши клиенты используют эту технологию как кубики для создания прикладных продуктов. Чтобы лучше прочувствовать их потребности и боли, лучше познакомиться с тем, как реализовать голосовые ассистенты на основе современных решений, я решил попробовать сделать подобный продукт самостоятельно. Это будет работающий на локальном устройстве голосовой ассистент со встроенной LLM.

В этом цикле материалов я буду рассказывать о процессе создания ассистента, примененных технологиях, выбранном железе, трудностях и путях их преодоления, буду демонстрировать этапы работ. Попутно расскажу основные концепции, необходимые для реализации голосовых технологий.

Первая часть цикла посвящена базе — выбору «железа», тулкитов для инференса, моделей для синтеза и распознавания речи и LLM. Поехали!

Читать далее

+13

CyberexTech 26 ноя 2025 в 09:05

Как я Альфе новый навык делал и что из этого вышло

Средний

11 мин

9.5K

Блог компании Timeweb CloudNatural Language Processing * Python * Голосовые интерфейсы * DIY или Сделай сам

Кейс

Привет, Хабр!

Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз – так сошлись звезды или под влиянием магнитных бурь – мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Читать далее

+25

IvanGrigorjev 26 ноя 2025 в 08:22

Нейросеть на смене, или как мы избавили супервайзеров от ручной прослушки и автоматизировали контроль качества звонков

Простой

10 мин

5.5K

Natural Language Processing * Голосовые интерфейсы * Искусственный интеллект

Кейс

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Читать далее

+8

1

2 3 ...