Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли / Хабр

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнеса

Сижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.

Знакомо?

Я CTO, серийный предприниматель, последние годы плотно работаю с AI-интеграциями. И вот парадокс: могу собрать систему автоматического обзвона клиентов с клонированием голосов, а сам на созвоне звучу как иностранец с разговорником.

Решил наконец закрыть этот гештальт. Полез искать real-time переводчик. Что-то типа: я говорю по-русски, собеседник слышит английский. И наоборот. В реальном времени, без пауз на 10 секунд.

И тут началось интересное.

Существующие решения - от $25 до $300+ в месяц

Я прошёлся по всему рынку. Вот что есть:

Продукт	Задержка	Цена	Проблема
Google Meet S2ST	~2 секунды	Только платный Workspace	Только в Google Meet. Не работает в Zoom, Teams, Discord. Ограниченная география. Нет API
Palabra.ai	~800ms	от $25/мес за 60 мин	WebSocket API есть. Бесплатно 30 мин/мес. При активном использовании $100+/мес легко
Talo (куплен Palabra)	<1 секунды	по запросу	Поглощён Palabra в ноябре 2025. Отдельного продукта больше нет
DeepL Voice	~1-2 секунды	$32.99/мес (Pro)	Жалобы на лаги в реальных звонках. Хорош для текста, слабее для речи
Interprefy	~1-3 секунды	enterprise, от $300+	Заточен под конференции и ивенты, а не под ежедневные созвоны
JotMe	~2-4 секунды	от $10/мес	Больше транскрипция + субтитры, чем voice-to-voice
Wordly	~2-3 секунды	enterprise, от $500+	Для конференций на 1000+ человек. Overkill для двух людей на созвоне
ElevenLabs	STT 150ms + TTS 75ms	собери сам + $99+/мес	Отдельные компоненты, не готовый продукт. Дорого

Протестировал всё что мог потрогать. Ни одно не работало так чтобы разговор звучал естественно. Где-то задержка два с лишним секунды - это уже не перевод, это рация. Где-то привязка к одной платформе. Где-то ценник для корпораций.

Ну и мы же айтишники. Да ещё и AI интегрировать умеем. Собрал рабочий прототип за выходные, а за следующие пару недель прогнал через бенчмарки весь рынок голосовых движков. Результаты - ниже.

Как устроен голосовой AI-переводчик

Схема простая. Три компонента в цепочке:

STT (распознавание речи) → LLM (перевод) → TTS (синтез голоса)

Я говорю по-русски. Deepgram распознаёт речь. Groq с Llama переводит. TTS озвучивает. Собеседник слышит английский. В обратную сторону то же самое.

Звучит просто. На деле каждый компонент - это бутылочное горлышко, и в каждом свои грабли. Разберём по частям.

Часть 1: STT - кто слушает лучше всех

Speech-to-Text - первое звено цепочки. Чем быстрее распознали речь, тем раньше начнётся перевод.

Провайдер	Задержка	WER (ошибки)	Цена/мин	Streaming
Deepgram Nova-3	<300ms	~10%	$0.0059	Да
AssemblyAI Universal-2	~300ms	8.4%	~$0.006	Да
ElevenLabs Scribe v2	150ms	~9%	~$0.01	Да
Groq Whisper Large v3	batch	10.3%	$0.0028	Нет
whisper.cpp (локально)	1-3 секунды	~10%	бесплатно	Нет

Deepgram Nova-3 - лучший для streaming. Работает стабильно, задержка меньше 300ms, цена копеечная.

Кстати, при регистрации Deepgram даёт $200 на счёт. При расходе $0.0059/минута этого хватает на 33,000 минут распознавания. Это 560 часов. Реферальной программы у них нет, а то бы дал ссылку и жил на пассивном доходе.

Groq Whisper мы пробовали раньше - нестабильный, падал с 503 ошибками, средняя задержка 2812ms. Заменили на Deepgram и забыли как страшный сон.

ElevenLabs Scribe v2 с заявленными 150ms стоит потестировать, но пока нет данных по точности и цене.

Часть 2: LLM - кто переводит быстрее

Для перевода нужна LLM, которая выдаёт первый токен максимально быстро (TTFT - Time to First Token). Качество перевода у всех крупных моделей плюс-минус одинаковое, а вот скорость отличается в разы.

Провайдер	Модель	Скорость (tokens/s)	TTFT
Groq	Llama 3.3 70B	~750	~200ms
Cerebras	Llama 8B	1800	~350ms
Gemini	2.5 Flash	217-245	330-450ms
Fireworks AI	Llama 3.3 70B	~800	~200ms

Cerebras быстрее по токенам/секунду, но у них выше TTFT. Для перевода коротких фраз (5-15 слов) критичен именно TTFT, а не скорость генерации. Groq с Llama 3.3 70B - оптимальный выбор: ~200ms до первого токена, хорошее качество перевода.

Локальные LLM (Llama 3.2 3B на MLX, ~100 t/s) пока проигрывают облаку для latency-critical задач.

Часть 3: TTS - где всё ломается

Text-to-Speech выглядит как самая простая часть пайплайна. На деле это бутылочное горлышко всей системы. Если STT + LLM работают за 500ms, а TTS добавляет ещё секунду - собеседник ждёт полторы секунды после каждой фразы.

Вот полная картина.

Облачные TTS API (полная сводка)

Провайдер	Модель	TTFB	ELO	Цена/1M симв.	Цена/час	Русский
Cartesia	Sonic Turbo	~40ms	1054	$37-47	$1.26	Да
Cartesia	Sonic 3	~90ms	1054	$37-47	$1.26	Да
Hume	Octave 2	<200ms	1562	$7.60	$0.26	Да (11 языков)
Inworld	TTS-1.5-Max	<250ms	1576	$10	$0.34	Нет
Inworld	TTS-1.5-Mini	<120ms	~1480	$5	$0.17	Нет
ElevenLabs	Flash v2.5	~75ms	1544	~$206	$5.57	Да
Smallest.ai	Lightning	<100ms	~1150	~$25	$0.84	Да
Fish Audio	OpenAudio S1	<100ms	~1200	$15	$0.51	Да
Deepgram	Aura-2	90-184ms	~1050	$27-30	$1.01	Нет
OpenAI	TTS-1	~500ms	1106	$15	$0.51	Да
OpenAI	gpt-4o-mini-tts	~300ms	~1350	$64/1M токенов	~$3.20	Да
Google	Neural2	200-250ms	~1020	$16	$0.54	Да
Google	Chirp 3 HD	до 3.5с!	~1180	$30	$1.01	Да
Azure	Neural HD	300-500ms	~1080	$15	$0.54	Да
Speechmatics	Flow	~150ms	~1100	$11	$0.37	Нет

Расчёт "цена/час": ~33,750 символов TTS на час звонка (два направления, ~750 символов в минуту, ~45 минут активного TTS).

Рейтинг качества TTS (ELO, слепое голосование)

Данные из TTS Arena v2 и Artificial Analysis, март 2026:

#	Модель	ELO	Тип
1	Vocu V3.0	1600	облако
2	Inworld TTS-1.5-Max	1576	облако
3	Hume Octave 2	1562	облако
4	ElevenLabs Flash v2.5	1544	облако
5	MiniMax Speech 2.6 HD	1544	облако
6	OpenAI TTS-1	1106	облако
7	Kokoro 82M	1059	open-source
8	Cartesia Sonic 3	1054	облако

Локальные TTS модели (реальные бенчмарки на Apple M4)

Все тесты - MacBook Air M4, 24GB RAM. Одни и те же фразы, warm (после прогрева).

Модель	Размер	Инференс (2-3 слова)	Инференс (10 слов)	Качество	Русский	Лицензия
Piper ryan-medium	63MB	30-50ms	137ms	B	Да	MIT
Kokoro 82M fp16	156MB	370ms	730ms	A+	Нет	Apache 2.0
pocket-tts 100M	100M	260ms	7500ms!	B (нестабильно)	Нет	Gated
ZipVoice 123M	123M	~500ms	1240ms avg	B+	Нет	Apache 2.0
Chatterbox 500M	500M	6310ms	9100ms	A	Да	MIT
Qwen3-TTS 0.6B	600M	~800ms	~1600-2000ms	B+	Да	Apache 2.0
Qwen3-TTS 1.7B	1.7B	~2500ms	~5300ms	A	Да	Apache 2.0
Marvis TTS 250M	250M	~3000ms	~8500ms	C+	Нет	MIT

Тренд неприятный: все серьёзные новые модели (Chatterbox, Dia, Sesame CSM, Spark-TTS) идут к 0.5-2B параметров. На Mac без GPU это 6-19 секунд на фразу. Лёгких конкурентов Kokoro 82M почти нет.

Реальные бенчмарки: одни и те же фразы, все провайдеры

5 одинаковых фраз, warm, замеры TTFB или total time. Это самая ценная таблица в статье:

Провайдер	Модель	Протокол	TTFB avg	Min	Max	Цена/1M
Cartesia	Sonic-2	WebSocket	245ms	208ms	281ms	$37-47
Kokoro	82M	local MLX	313ms*	259ms	340ms	бесплатно
ElevenLabs	Flash v2.5	WebSocket	395ms†	309ms	551ms	~$206
Hume	Octave 2	HTTP stream	800ms	773ms	833ms	$7.60
ZipVoice	123M distill	local MPS	1240ms	792ms	2190ms	бесплатно
Cartesia	Sonic-2	sync SDK	1361ms	1173ms	1567ms	$37-47
Inworld	TTS-1.5-Mini	sync HTTP	2018ms	1606ms	2404ms	$5
Hume	Octave 2	sync	2158ms	1915ms	2395ms	$7.60
Inworld	TTS-1.5-Max	sync HTTP	2616ms	2077ms	2886ms	$10

*Kokoro - total time (нет стриминга, генерирует аудио целиком). †ElevenLabs - avg без первого cold-start запроса (2520ms).

Обратите внимание на Cartesia в двух строках. Одна и та же модель, одна и та же фраза. Разница - только протокол подключения.

Четыре находки, которые стоили мне недели

Находка #1: Протокол решает всё

Cartesia Sonic через WebSocket: 245ms.
Cartesia Sonic через обычный HTTP SDK: 1361ms.

Разница в 5.5 раз. Просто потому что в одном случае соединение уже открыто и данные идут стримом, а в другом каждый запрос открывает новое соединение и ждёт полной генерации.

Если выбираете TTS для голосового бота и тестируете через синхронный API - вы получаете цифры, которые не имеют отношения к реальности. Всегда тестируйте через WebSocket.

Находка #2: Квантизация замедляет на Apple Silicon

Обычно INT8-квантизация ускоряет инференс. На Apple Silicon - наоборот.

Kokoro 82M в fp16: 373ms. Та же модель в INT8: 687ms. Почти вдвое медленнее.

ARM-процессоры Apple оптимизированы под fp16. Квантизация экономит RAM, но добавляет overhead на конвертацию типов. Нигде в документации это не написано. Мы убили на это день.

Находка #3: Русский язык - пустыня

Из 30+ моделей русский поддерживают:

Модель	Русский	Качество	Проблема
Piper TTS (~20M)	Да	"Синтетический" голос	Проект архивирован
Chatterbox 500M	Да	Отличное	6-19 секунд на фразу
Qwen3-TTS 0.6B	Да	Хорошее	Слишком медленно на Mac
Coqui XTTS-v2 1.4B	Да	Хорошее	Модель 1.4GB
Облачные (Cartesia, EL, Google, Azure)	Да	Хорошее-отличное	$$$ каждый месяц

Kokoro 82M - лучшая бесплатная модель по качеству - русского не поддерживает. Если делаете голосовой продукт для русскоязычного рынка на open-source - готовьтесь к боли.

Находка #4: ElevenLabs - лучшее качество, худшая экономика

ElevenLabs Flash v2.5 - объективно один из лучших движков. ELO 1544, голоса неотличимы от живых.

Цена: ~$206/1M символов. Для голосового бота на час - $5.57.

Cartesia Sonic Turbo при сопоставимой скорости: $1.26/час. Hume Octave 2: $0.26/час.

ElevenLabs в 4-20 раз дороже конкурентов при сравнимом качестве. Считайте unit-экономику до того как выберете провайдера. Не после.

Kokoro 82M: бесплатный чемпион (с нюансами)

Отдельно про модель которую я в итоге выбрал для английского TTS. Kokoro 82M - StyleTTS2, Apache 2.0 лицензия, 156MB в fp16.

Бенчмарки на M4 (ONNX Runtime, CPU, 4 потока):

Фраза	Инференс	Длительность аудио
"hey so" (2 слова)	373ms	1.50s
"well actually"	372ms	1.77s
"we should push the deadline..." (10 слов)	730ms	3.33s
"I believe we need to reconsider..." (11 слов)	1036ms	4.45s
Полный параграф (~40 слов)	2756ms	14.1s

Попытки ускорить:

Оптимизация	Результат	Вывод
fp16 (дефолт)	373ms	Лучший вариант
INT8 квантизация	687ms	1.8x медленнее!
q8f16	655ms	1.75x медленнее!
CoreML Neural Engine	ошибка	Не поддерживает архитектуру
1 поток	1723ms	Слишком медленно
2 потока	942ms	Ещё медленно
4 потока	~730ms	Оптимум
8 потоков	754ms	Overhead

28 английских голосов (20 US, 8 GB). Качество - первое место в TTS Arena для single-speaker. Субъективно значительно натуральнее Piper.

Минус: нет русского. 9 языков (EN, JA, ZH, ES, FR, HI, IT, PT, GB-EN), но не русский.

Что получилось в итоге

Финальный стек переводчика:

Deepgram Nova-3 (STT, ~300ms) → Groq Llama 3.3 70B (перевод, ~200ms) → StreamChunker (нарезает на куски по 2-3 слова, ~100ms) → Kokoro 82M (TTS английский, ~370ms на первый чанк)

Общая задержка до первого звука: ~870ms.

Решение	Задержка	Цена
Google Meet S2ST	~2000ms	Только платный Workspace, ограниченная география, только Meet
Palabra.ai	~800ms	от $25/мес (60 мин)
Мой переводчик	~870ms	~$0.009/мин

На уровне лучших коммерческих решений. Скоро выложу в open-source.

Для русского TTS пока Piper с фиксом нормализации громкости. Проблема "тихо" оказалась багом - семплы из ONNX шли без gain normalization. Починили, стало нормально.

Бонус: тот же стек для колл-центра

Пока копался в TTS-движках, тот же пайплайн пригодился для другого проекта. У RigCrewесть колл-центр - автоматический обзвон кандидатов, скриптованные разговоры, FAQ на 30 вопросов. Живые операторы стоят денег и масштабироваться с ними дорого.

Адаптировали пайплайн: STT слушает кандидата, LLM генерирует ответ по скрипту, TTS озвучивает. Один менеджер управляет целым оркестром из AI-звонилок. Голосовой бот который звучит натурально, стоит $1-2 в час, и не устаёт к концу смены.

Все бенчмарки из этой статьи - они работают и там. Тот же выбор между Cartesia за $1.26/час и ElevenLabs за $5.57/час. Та же разница в 5.5 раз между WebSocket и sync API.

Куда движется голосовой AI

Conversational Speech Models. Sesame CSM-1B генерирует речь с паузами, "ммм", контекстной интонацией. Пока research-grade (200-400ms, нужен GPU), но через год-два это будет стандарт.

LLM-based TTS. Hume Octave 2, OpenAI gpt-4o-mini-tts - модели которые "понимают" что говорят. Грустную новость бот сообщает грустным голосом. Hume побеждал ElevenLabs в слепом тесте (71.6% по quality).

Гонка цен вниз. Новые игроки (Inworld, Smallest.ai, Fish Audio) давят ElevenLabs. Цены за два года упали в 5-20 раз.

Open-source догоняет. Kokoro 82M бесплатно даёт качество облачных API годовой давности. Но русский язык - по-прежнему боль.

End-to-end модели. Google S2ST переводит речь напрямую, сохраняя голос. Пока только в Meet. Если откроют API - рынок изменится.

Три вещи которые я хотел бы знать до начала

Считайте unit-экономику на берегу. Разница между $0.26/час и $5.57/час при 1000 часов звонков в месяц - это $5,310. Выбор TTS-провайдера может убить бизнес-модель.

Тестируйте через WebSocket. Один и тот же провайдер: 245ms или 1361ms. Зависит только от протокола.

Русский язык - бутылочное горлышко. Open-source пока не дотягивает. Бюджет на cloud TTS неизбежен если ваш продукт для русскоязычного рынка.

Переводчик скоро в open-source. Все бенчмарки из статьи реальные, повторяемые, с указанием железа и условий. Если делаете что-то похожее - пишите, сэкономлю вам пару недель мучений.

Источники и бенчмарки:
TTS Arena v2 · Artificial Analysis · Cartesia · Hume Octave 2 · Deepgram Nova-3 · Kokoro-82M · Sesame CSM · Google Meet S2ST · Cerebras vs Groq · ElevenLabs Scribe v2 · Inworld TTS · Piper TTS · Kokoro ONNX

Об авторе: Кир, CTO и серийный предприниматель. Пишу про AI для бизнеса без булшита: @ai_integr