Лидерборд ASR-моделей
соберите рейтинг под себя
ASR-бенчмаркиюнь 2026
23 нейросети распознавания речи на русско-английской IT-диктовке. Подвигайте веса WER, пунктуации и EPI, переключите корпус и спикера — таблица пересчитает рейтинг на лету.
- модели
- 23
- конфигураций
- 60+
- прогонов
- 100 000+
- часов инференса
- 120+
Рейтинг при дефолтных весах — WER 0.65 · punct 0.10 · EPI 0.25, корпус «Полный зачёт», оба спикера; для каждой модели показан её лучший конфиг. Интерактивная версия (нужен JavaScript) пересчитывает рейтинг под ваши веса, корпус и спикера.
| # | Модель | Конфиг | Tier | Q | WER | EPI | punct | Скорость |
|---|---|---|---|---|---|---|---|---|
| 1 | OpenAI gpt-4o-mini-transcribe | noprompt | cloud | 92.12 | 5.71 | 83.37 | 99.89 | — |
| 2 | OpenAI gpt-4o-transcribe | noprompt | cloud | 91.01 | 6.40 | 80.84 | 99.65 | — |
| 3 | Google Chirp 3 | noprompt | cloud | 90.97 | 7.85 | 84.34 | 99.90 | — |
| 4 | Breeze-ASR (Mediatek, large-v2 ft) | promptv3 + capglue | open | 90.74 | 7.79 | 83.38 | 99.59 | ×21 |
| 5 | Whisper large-v3-turbo | promptv4 + ah | open | 89.62 | 7.64 | 78.44 | 99.75 | ×53 |
| 6 | Whisper Turbo RU code-switch (coriollon) | promptv2 + ah | open | 89.53 | 7.70 | 79.49 | 96.56 | ×58 |
| 7 | Whisper medium (f16) | promptv4 | open | 88.73 | 8.78 | 77.87 | 99.71 | ×27 |
| 8 | Whisper large-v2 (Q5_0) | prompt | open | 88.56 | 8.09 | 75.33 | 99.86 | ×22 |
| 9 | Whisper large-v3 (Q5_0) | promptv4 + ah | open | 88.06 | 9.20 | 76.78 | 98.44 | ×21 |
| 10 | Whisper medium (Q4_1) | promptv4 + ah | open | 87.60 | 9.45 | 75.08 | 99.65 | ×28 |
| 11 | Whisper large-v3 (f16) | prompt + ah | open | 86.26 | 11.04 | 73.81 | 99.85 | ×20 |
| 12 | Deepgram Nova-3 | noprompt | cloud | 85.84 | 10.30 | 70.30 | 99.63 | — |
| 13 | Whisper large-v3-turbo RU (Podlodka) | noprompt + lid + ah | open | 85.58 | 9.59 | 67.34 | 99.80 | ×49 |
| 14 | Whisper large-v3 RU (antony66) | noprompt + ah | open | 85.47 | 10.18 | 68.84 | 98.79 | ×18 |
| 15 | Whisper Turbo RU (coriollon) | promptv3 | open | 84.44 | 9.35 | 62.69 | 98.52 | ×58 |
| 16 | Voxtral Mini 4B Realtime | noprompt | open | 83.44 | 12.73 | 67.05 | 99.57 | ×1.4 |
| 17 | Qwen3-ASR 1.7B | noprompt | open | 79.60 | 15.48 | 61.02 | 94.10 | ×7.1 |
| 18 | VibeVoice-ASR (4-bit) | noprompt | open | 75.63 | 21.77 | 59.16 | 99.89 | ×2.9 |
| 19 | NVIDIA Parakeet TDT 0.6B v3 | noprompt | open | 75.15 | 17.29 | 45.60 | 99.91 | ×12 |
| 20 | NVIDIA Canary 1B v2 | noprompt | open | 74.26 | 18.15 | 44.28 | 99.89 | ×4.1 |
| 21 | GigaAM v3 (E2E CTC) | noprompt | open | 71.81 | 20.49 | 40.54 | 99.89 | ×18 |
| 22 | Borealis (Vikhr) | noprompt | open | 65.67 | 22.36 | 21.41 | 98.49 | ×7.8 |
| 23 | SeamlessM4T v2 Large | noprompt | open | 55.99 | 31.90 | 29.94 | 42.45 | ×13 |
Что означают колонки
- WERWord Error Rate
- Доля ошибочно распознанных слов: WER 8 — примерно 8 ошибок на 100 слов. Шкала 0–100. ↓ меньше — лучше
- EPIEnglish Preservation Index
- Моя метрика: удерживает ли модель английские термины в латинице. «GitHub» — зачёт, «гитхаб» — ноль. Устоявшиеся заимствования вроде «бага» и «коммита» не штрафуются. ↑ больше — лучше
- punctПунктуация
- Качество расстановки знаков препинания. Шкала 0–100. ↑ больше — лучше
- QКомпозитный балл
- Q = 0.65·(100−WER) + 0.10·punct + 0.25·EPIЧисла — мои дефолтные веса под айтишную диктовку с английскими терминами; ползунки над таблицей крутят их под ваш сценарий. ↑ больше — лучше
- Скорость×realtime
- Во сколько раз обработка быстрее реального времени: ×20 — модель перемалывает аудио в 20 раз быстрее, чем оно звучит. Только для локальных моделей: у cloud-API время зависит от сети и очередей. Замеры — на RTX 5070 Ti. ↑ больше — быстрее
О бенчмарке
Этот лидерборд — живая версия моего бенчмарка: 23 нейросети распознавания речи, 60+ конфигураций, больше 100 000 прогонов и 120+ часов чистого инференса на одной RTX 5070 Ti. В таблице всё семейство Whisper — Large v3, Turbo, Medium и русские файнтюны, — аудио-LLM Voxtral и Qwen3-ASR, NVIDIA Parakeet и Canary, GigaAM v3, VibeVoice, плюс cloud-API OpenAI, Google и Deepgram. Корпус — русско-английская IT-диктовка: два голоса, три типа записи, от студийного микрофона до встроенного в ноутбук. Полная методология, статистические оговорки и главный сюрприз — в статье с разбором бенчмарка.
А началось всё с мартовской статьи про voice-to-text, где я рекомендовал Whisper Large v3 по итогам сравнения «по ощущениям». Когда я пересобрал всё по-научному, та рекомендация устарела — теперь рейтинг можно проверить цифрами, а не ощущениями.
Частые вопросы
Зачем двигать ползунки весов?
Дефолтные веса — WER 0.65, punct 0.10, EPI 0.25 — собраны под мой сценарий: айтишная диктовка с английскими терминами. Если диктуете на чистом русском — обнулите EPI, рейтинг заметно перестроится. Если у вас сплошные английские термины — пресет «Англо-термины» поднимает EPI до 0.5. Пресеты под типовые сценарии уже зашиты над таблицей.
Что за корпус и зачем переключать спикера?
Корпус — два голоса и три типа записи, всего пять страт: чтение длинного текста, спонтанная live-диктовка и фрагмент обучающего видео. Спикер 1 — я, динамический микрофон с аудио-интерфейсом. Спикер 2 — женский голос, встроенный микрофон ноутбука. Переключение спикера показывает, насколько модель чувствительна к голосу и качеству записи.
Какая модель победила и как её поставить?
Среди open-source — Breeze-ASR с пунктуационным промптом и capglue-постфиксом (Q=90.7), среди cloud — gpt-4o-mini-transcribe (Q=92.1). Breeze ставится за 10 минут через мою сборку github.com/egsok/Handy-nevinovata — промпты, анти-галлюцинационные настройки и постфикс уже зашиты. Пошаговая инструкция — в статье с методологией.
Можно ли скачать данные бенчмарка?
Да. Агрегированные числа всех конфигураций лежат в открытом JSON — том же, из которого собирается эта таблица: egorsokolov.ru/data/asr-leaderboard.json. Лицензия CC BY 4.0 — используйте со ссылкой на источник. Сырые аудио корпуса не публикуются: privacy голосов спикеров.