30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнеса
Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.
Знакомо?
Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.
Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.
И тут началось интересное.
Существующие решения - от $25 до $300+ в месяц
Я прошёлся по всему рынку. Вот что есть:
Продукт | Задержка | Цена | Проблема |
|---|---|---|---|
Google Meet S2ST | ~2 секунды | Только платный Workspace | Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API |
Palabra.ai | ~800ms | от $25/мес за 60 мин | WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко |
Talo (куплен Palabra) | <1 секунды | по запросу | Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет |
DeepL Voice | ~1-2 секунды | $32.99/мес (Pro) | Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи |
Interprefy | ~1-3 секунды | enterprise, от $300+ | Заточен под конференции и ивенты, а не под ежедневные созвоны |
JotMe | ~2-4 секунды | от $10/мес | Больше транскрипция + субтитры, чем voice-to-voice |
Wordly | ~2-3 секунды | enterprise, от $500+ | Для конференций на 1000+ человек. Overkill для двух людей на созвоне |
ElevenLabs | STT 150ms + TTS 75ms | собери сам + $99+/мес | Отдельные компоненты, не готовый продукт. Дорого |
Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды - это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.
Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты - ниже.
Как устроен голосовой AI-переводчик
Схема простая. Три компонента в цепочке:
STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)
Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.
Звучит просто. На деле каждый компонент - это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.
Часть 1: STT - кто слушает лучше всех
Speech-to-Text - первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.
Провайдер | Задержка | WER (ошибки) | Цена/мин | Streaming |
|---|---|---|---|---|
Deepgram Nova-3 | <300ms | ~10% | $0.0059 | Да |
AssemblyAI Universal-2 | ~300ms | 8.4% | ~$0.006 | Да |
ElevenLabs Scribe v2 | 150ms | ~9% | ~$0.01 | Да |
Groq Whisper Large v3 | batch | 10.3% | $0.0028 | Нет |
whisper.cpp (локально) | 1-3 секунды | ~10% | бесплатно | Нет |
Deepgram Nova-3 - лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.
Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.
Groq Whisper мы пробовали раньше - нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон.
ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.
Часть 2: LLM - кто переводит быстрее
Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT - Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.
Провайдер | Модель | Скорость (tokens/s) | TTFT |
|---|---|---|---|
Groq | Llama 3.3 70B | ~750 | ~200ms |
Cerebras | Llama 8B | 1800 | ~350ms |
Gemini | 2.5 Flash | 217-245 | 330-450ms |
Fireworks AI | Llama 3.3 70B | ~800 | ~200ms |
Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B - оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.
Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.
Часть 3: TTS - где всё ломается
Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду - собеседник ждёт полторы секунды после каждой фразы.
Вот полная картина.
Облачные TTS API (полная сводка)
Провайдер | Модель | TTFB | ELO | Цена/1M симв. | Цена/час | Русский |
|---|---|---|---|---|---|---|
Cartesia | Sonic Turbo | ~40ms | 1054 | $37-47 | $1.26 | Да |
Cartesia | Sonic 3 | ~90ms | 1054 | $37-47 | $1.26 | Да |
Hume | Octave 2 | <200ms | 1562 | $7.60 | $0.26 | Да (11 языков) |
Inworld | TTS-1.5-Max | <250ms | 1576 | $10 | $0.34 | Нет |
Inworld | TTS-1.5-Mini | <120ms | ~1480 | $5 | $0.17 | Нет |
ElevenLabs | Flash v2.5 | ~75ms | 1544 | ~$206 | $5.57 | Да |
Smallest.ai | Lightning | <100ms | ~1150 | ~$25 | $0.84 | Да |
Fish Audio | OpenAudio S1 | <100ms | ~1200 | $15 | $0.51 | Да |
Deepgram | Aura-2 | 90-184ms | ~1050 | $27-30 | $1.01 | Нет |
OpenAI | TTS-1 | ~500ms | 1106 | $15 | $0.51 | Да |
OpenAI | gpt-4o-mini-tts | ~300ms | ~1350 | $64/1M токенов | ~$3.20 | Да |
Neural2 | 200-250ms | ~1020 | $16 | $0.54 | Да | |
Chirp 3 HD | до 3.5с! | ~1180 | $30 | $1.01 | Да | |
Azure | Neural HD | 300-500ms | ~1080 | $15 | $0.54 | Да |
Speechmatics | Flow | ~150ms | ~1100 | $11 | $0.37 | Нет |
Расчёт "цена/час": ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).
Рейтинг качества TTS (ELO, слепое голосование)
Данные из TTS Arena v2 и Artificial Analysis, март 2026:
# | Модель | ELO | Тип |
|---|---|---|---|
1 | Vocu V3.0 | 1600 | облако |
2 | Inworld TTS-1.5-Max | 1576 | облако |
3 | Hume Octave 2 | 1562 | облако |
4 | ElevenLabs Flash v2.5 | 1544 | облако |
5 | MiniMax Speech 2.6 HD | 1544 | облако |
6 | OpenAI TTS-1 | 1106 | облако |
7 | Kokoro 82M | 1059 | open-source |
8 | Cartesia Sonic 3 | 1054 | облако |
Локальные TTS модели (реальные бенчмарки на Apple M4)
Все тесты - MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).
Модель | Размер | Инференс (2-3 слова) | Инференс (10 слов) | Качество | Русский | Лицензия |
|---|---|---|---|---|---|---|
Piper ryan-medium | 63MB | 30-50ms | 137ms | B | Да | MIT |
Kokoro 82M fp16 | 156MB | 370ms | 730ms | A+ | Нет | Apache 2.0 |
pocket-tts 100M | 100M | 260ms | 7500ms! | B (нестабильно) | Нет | Gated |
ZipVoice 123M | 123M | ~500ms | 1240ms avg | B+ | Нет | Apache 2.0 |
Chatterbox 500M | 500M | 6310ms | 9100ms | A | Да | MIT |
Qwen3-TTS 0.6B | 600M | ~800ms | ~1600-2000ms | B+ | Да | Apache 2.0 |
Qwen3-TTS 1.7B | 1.7B | ~2500ms | ~5300ms | A | Да | Apache 2.0 |
Marvis TTS 250M | 250M | ~3000ms | ~8500ms | C+ | Нет | MIT |
Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.
Реальные бенчмарки: одни и те же фразы, все провайдеры
5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:
Провайдер | Модель | Протокол | TTFB avg | Min | Max | Цена/1M |
|---|---|---|---|---|---|---|
Cartesia | Sonic-2 | WebSocket | 245ms | 208ms | 281ms | $37-47 |
Kokoro | 82M | local MLX | 313ms* | 259ms | 340ms | бесплатно |
ElevenLabs | Flash v2.5 | WebSocket | 395ms† | 309ms | 551ms | ~$206 |
Hume | Octave 2 | HTTP stream | 800ms | 773ms | 833ms | $7.60 |
ZipVoice | 123M distill | local MPS | 1240ms | 792ms | 2190ms | бесплатно |
Cartesia | Sonic-2 | sync SDK | 1361ms | 1173ms | 1567ms | $37-47 |
Inworld | TTS-1.5-Mini | sync HTTP | 2018ms | 1606ms | 2404ms | $5 |
Hume | Octave 2 | sync | 2158ms | 1915ms | 2395ms | $7.60 |
Inworld | TTS-1.5-Max | sync HTTP | 2616ms | 2077ms | 2886ms | $10 |
*Kokoro - total time (нет стриминга, генерирует аудио целиком). †ElevenLabs - avg без первого cold-start запроса (2520ms).
Обратите внимание на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница - только протокол подключения.
Четыре находки, которые стоили мне недели
Находка #1: Протокол решает всё
Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.
Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.
Если выбираете TTS для голосового бота и тестируете через синхронный API - вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.
Находка #2: Квантизация замедляет на Apple Silicon
Обычно INT8-квантизация ускоряет инференс. На Apple Silicon - наоборот.
Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.
ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.
Находка #3: Русский язык - пустыня
Из 30+ моделей русский поддерживают:
Модель | Русский | Качество | Проблема |
|---|---|---|---|
Piper TTS (~20M) | Да | "Синтетический" голос | Проект архивирован |
Chatterbox 500M | Да | Отличное | 6-19 секунд на фразу |
Qwen3-TTS 0.6B | Да | Хорошее | Слишком медленно на Mac |
Coqui XTTS-v2 1.4B | Да | Хорошее | Модель 1.4GB |
Облачные (Cartesia, EL, Google, Azure) | Да | Хорошее-отличное | $$$ каждый месяц |
Kokoro 82M - лучшая бесплатная модель по качеству - русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source - готовьтесь к боли.
Находка #4: ElevenLabs - лучшее качество, худшая экономика
ElevenLabs Flash v2.5 - объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.
Цена: ~$206/1M символов. Для голосового бота на час - $5.57.
Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.
ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.
Kokoro 82M: бесплатный чемпион (с нюансами)
Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M - StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.
Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):
Фраза | Инференс | Длительность аудио |
|---|---|---|
"hey so" (2 слова) | 373ms | 1.50s |
"well actually" | 372ms | 1.77s |
"we should push the deadline..." (10 слов) | 730ms | 3.33s |
"I believe we need to reconsider..." (11 слов) | 1036ms | 4.45s |
Полный параграф (~40 слов) | 2756ms | 14.1s |
Попытки ускорить:
Оптимизация | Результат | Вывод |
|---|---|---|
fp16 (дефолт) | 373ms | Лучший вариант |
INT8 квантизация | 687ms | 1.8x медленнее! |
q8f16 | 655ms | 1.75x медленнее! |
CoreML Neural Engine | ошибка | Не поддерживает архитектуру |
1 поток | 1723ms | Слишком медленно |
2 потока | 942ms | Ещё медленно |
4 потока | ~730ms | Оптимум |
8 потоков | 754ms | Overhead |
28 английских голосов (20 US, 8 GB). Качество - первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.
Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.
Что получилось в итоге
Финальный стек переводчика:
Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)
Общая задержка до первого звука: ~870ms.
Решение | Задержка | Цена |
|---|---|---|
Google Meet S2ST | ~2000ms | Только платный Workspace, ограниченная география, только Meet |
Palabra.ai | ~800ms | от $25/мес (60 мин) |
Мой переводчик | ~870ms | ~$0.009/мин |
На уровне лучших коммерческих решений. Скоро выложу в open-source.
Для русского TTS пока Piper с фиксом нормализации громкости. Проблема "тихо" оказалась багом - семплы из ONNX шли без gain normalization. Починили, стало нормально.
Бонус: тот же стек для колл-центра
Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrewесть колл-центр - автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.
Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.
Все бенчмарки из этой статьи - они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.
Куда движется голосовой AI
Conversational Speech Models. Sesame CSM-1B генерирует речь с паузами, "ммм", контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.
LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts - модели которые "понимают" что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).
Гонка цен вниз. Новые игроки (Inworld, Smallest.ai, Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.
Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык - по-прежнему боль.
End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API - рынок изменится.
Три вещи которые я хотел бы знать до начала
Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц - это $5,310. Выбор TTS-провайдера может убить бизнес-модель.
Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.
Русский язык - бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.
Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее - пишите, сэкономлю вам пару недель мучений.
Источники и бенчмарки:
TTS Arena v2 · Artificial Analysis · Cartesia · Hume Octave 2 · Deepgram Nova-3 · Kokoro-82M · Sesame CSM · Google Meet S2ST · Cerebras vs Groq · ElevenLabs Scribe v2 · Inworld TTS · Piper TTS · Kokoro ONNX
Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr
