Лидерборд ASR-моделей
соберите рейтинг под себя

ASR-бенчмаркиюнь 2026

23 нейросети распознавания речи на русско-английской IT-диктовке. Подвигайте веса WER, пунктуации и EPI, переключите корпус и спикера — таблица пересчитает рейтинг на лету.

Методология и выводы — в статье
модели
23
конфигураций
60+
прогонов
100 000+
часов инференса
120+

Рейтинг при дефолтных весах — WER 0.65 · punct 0.10 · EPI 0.25, корпус «Полный зачёт», оба спикера; для каждой модели показан её лучший конфиг. Интерактивная версия (нужен JavaScript) пересчитывает рейтинг под ваши веса, корпус и спикера.

#МодельКонфигTierQWEREPIpunctСкорость
1OpenAI gpt-4o-mini-transcribenopromptcloud92.125.7183.3799.89
2OpenAI gpt-4o-transcribenopromptcloud91.016.4080.8499.65
3Google Chirp 3nopromptcloud90.977.8584.3499.90
4Breeze-ASR (Mediatek, large-v2 ft)promptv3 + capglueopen90.747.7983.3899.59×21
5Whisper large-v3-turbopromptv4 + ahopen89.627.6478.4499.75×53
6Whisper Turbo RU code-switch (coriollon)promptv2 + ahopen89.537.7079.4996.56×58
7Whisper medium (f16)promptv4open88.738.7877.8799.71×27
8Whisper large-v2 (Q5_0)promptopen88.568.0975.3399.86×22
9Whisper large-v3 (Q5_0)promptv4 + ahopen88.069.2076.7898.44×21
10Whisper medium (Q4_1)promptv4 + ahopen87.609.4575.0899.65×28
11Whisper large-v3 (f16)prompt + ahopen86.2611.0473.8199.85×20
12Deepgram Nova-3nopromptcloud85.8410.3070.3099.63
13Whisper large-v3-turbo RU (Podlodka)noprompt + lid + ahopen85.589.5967.3499.80×49
14Whisper large-v3 RU (antony66)noprompt + ahopen85.4710.1868.8498.79×18
15Whisper Turbo RU (coriollon)promptv3open84.449.3562.6998.52×58
16Voxtral Mini 4B Realtimenopromptopen83.4412.7367.0599.57×1.4
17Qwen3-ASR 1.7Bnopromptopen79.6015.4861.0294.10×7.1
18VibeVoice-ASR (4-bit)nopromptopen75.6321.7759.1699.89×2.9
19NVIDIA Parakeet TDT 0.6B v3nopromptopen75.1517.2945.6099.91×12
20NVIDIA Canary 1B v2nopromptopen74.2618.1544.2899.89×4.1
21GigaAM v3 (E2E CTC)nopromptopen71.8120.4940.5499.89×18
22Borealis (Vikhr)nopromptopen65.6722.3621.4198.49×7.8
23SeamlessM4T v2 Largenopromptopen55.9931.9029.9442.45×13

Что означают колонки

WERWord Error Rate
Доля ошибочно распознанных слов: WER 8 — примерно 8 ошибок на 100 слов. Шкала 0–100.
↓ меньше — лучше
EPIEnglish Preservation Index
Моя метрика: удерживает ли модель английские термины в латинице. «GitHub» — зачёт, «гитхаб» — ноль. Устоявшиеся заимствования вроде «бага» и «коммита» не штрафуются.
↑ больше — лучше
punctПунктуация
Качество расстановки знаков препинания. Шкала 0–100.
↑ больше — лучше
QКомпозитный балл
Q = 0.65·(100−WER) + 0.10·punct + 0.25·EPIЧисла — мои дефолтные веса под айтишную диктовку с английскими терминами; ползунки над таблицей крутят их под ваш сценарий.
↑ больше — лучше
Скорость×realtime
Во сколько раз обработка быстрее реального времени: ×20 — модель перемалывает аудио в 20 раз быстрее, чем оно звучит. Только для локальных моделей: у cloud-API время зависит от сети и очередей. Замеры — на RTX 5070 Ti.
↑ больше — быстрее

О бенчмарке

Этот лидерборд — живая версия моего бенчмарка: 23 нейросети распознавания речи, 60+ конфигураций, больше 100 000 прогонов и 120+ часов чистого инференса на одной RTX 5070 Ti. В таблице всё семейство Whisper — Large v3, Turbo, Medium и русские файнтюны, — аудио-LLM Voxtral и Qwen3-ASR, NVIDIA Parakeet и Canary, GigaAM v3, VibeVoice, плюс cloud-API OpenAI, Google и Deepgram. Корпус — русско-английская IT-диктовка: два голоса, три типа записи, от студийного микрофона до встроенного в ноутбук. Полная методология, статистические оговорки и главный сюрприз — в статье с разбором бенчмарка.

А началось всё с мартовской статьи про voice-to-text, где я рекомендовал Whisper Large v3 по итогам сравнения «по ощущениям». Когда я пересобрал всё по-научному, та рекомендация устарела — теперь рейтинг можно проверить цифрами, а не ощущениями.

Частые вопросы

Зачем двигать ползунки весов?

Дефолтные веса — WER 0.65, punct 0.10, EPI 0.25 — собраны под мой сценарий: айтишная диктовка с английскими терминами. Если диктуете на чистом русском — обнулите EPI, рейтинг заметно перестроится. Если у вас сплошные английские термины — пресет «Англо-термины» поднимает EPI до 0.5. Пресеты под типовые сценарии уже зашиты над таблицей.

Что за корпус и зачем переключать спикера?

Корпус — два голоса и три типа записи, всего пять страт: чтение длинного текста, спонтанная live-диктовка и фрагмент обучающего видео. Спикер 1 — я, динамический микрофон с аудио-интерфейсом. Спикер 2 — женский голос, встроенный микрофон ноутбука. Переключение спикера показывает, насколько модель чувствительна к голосу и качеству записи.

Какая модель победила и как её поставить?

Среди open-source — Breeze-ASR с пунктуационным промптом и capglue-постфиксом (Q=90.7), среди cloud — gpt-4o-mini-transcribe (Q=92.1). Breeze ставится за 10 минут через мою сборку github.com/egsok/Handy-nevinovata — промпты, анти-галлюцинационные настройки и постфикс уже зашиты. Пошаговая инструкция — в статье с методологией.

Можно ли скачать данные бенчмарка?

Да. Агрегированные числа всех конфигураций лежат в открытом JSON — том же, из которого собирается эта таблица: egorsokolov.ru/data/asr-leaderboard.json. Лицензия CC BY 4.0 — используйте со ссылкой на источник. Сырые аудио корпуса не публикуются: privacy голосов спикеров.