Mistral выпустила open source-модель для генерации речи / Хабр

Французская Mistral представила Voxtral TTS — новую open source-модель для генерации речи. Компания позиционирует ее как решение для голосовых ассистентов и корпоративных сценариев вроде клиентской поддержки, продаж и голосовых агентов. По сути, Mistral заходит на территорию, где сейчас активно работают ElevenLabs, Deepgram и OpenAI.

Voxtral TTS поддерживает девять языков: английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди и арабский. В Mistral отдельно подчеркивают, что модель сделали компактной: она должна запускаться не только на серверах, но и на смартфонах, ноутбуках и других edge-устройствах.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.

Это важный акцент. Рынок TTS давно движется в сторону более естественной и быстрой генерации голоса, но чаще всего такие решения остаются либо закрытыми, либо завязаны на облако. Mistral делает ставку на обратный подход: более легкая модель, ниже стоимость запуска и больше контроля для компаний, которым важно не выносить голосовые данные во внешние сервисы.

Для самой Mistral это еще один шаг в сторону полноценного AI-стека для enterprise. Ранее компания уже продвигала свои решения для кастомных моделей и speech-задач, а теперь закрывает еще и слой генерации голоса. На фоне роста спроса на голосовых агентов это выглядит как вполне логичное расширение линейки.

Источник

В канале NH | Новости технологий, AI и будущее публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта для оплаты сервисов, отдельный разбор можно почитать здесь.