Лидерборд ASR-моделей
соберите рейтинг под себя

ASR-бенчмаркиюнь 2026

23 нейросети распознавания речи на русско-английской IT-диктовке. Подвигайте веса WER, пунктуации и EPI, переключите корпус и спикера — таблица пересчитает рейтинг на лету.

Методология и выводы — в статье

модели: 23
конфигураций: 60+
прогонов: 100 000+
часов инференса: 120+

Рейтинг при дефолтных весах — WER 0.65 · punct 0.10 · EPI 0.25, корпус «Полный зачёт», оба спикера; для каждой модели показан её лучший конфиг. Интерактивная версия (нужен JavaScript) пересчитывает рейтинг под ваши веса, корпус и спикера.

#	Модель	Конфиг	Tier	Q	WER	EPI	punct	Скорость
1	OpenAI gpt-4o-mini-transcribe	noprompt	cloud	92.12	5.71	83.37	99.89	—
2	OpenAI gpt-4o-transcribe	noprompt	cloud	91.01	6.40	80.84	99.65	—
3	Google Chirp 3	noprompt	cloud	90.97	7.85	84.34	99.90	—
4	Breeze-ASR (Mediatek, large-v2 ft)	promptv3 + capglue	open	90.74	7.79	83.38	99.59	×21
5	Whisper large-v3-turbo	promptv4 + ah	open	89.62	7.64	78.44	99.75	×53
6	Whisper Turbo RU code-switch (coriollon)	promptv2 + ah	open	89.53	7.70	79.49	96.56	×58
7	Whisper medium (f16)	promptv4	open	88.73	8.78	77.87	99.71	×27
8	Whisper large-v2 (Q5_0)	prompt	open	88.56	8.09	75.33	99.86	×22
9	Whisper large-v3 (Q5_0)	promptv4 + ah	open	88.06	9.20	76.78	98.44	×21
10	Whisper medium (Q4_1)	promptv4 + ah	open	87.60	9.45	75.08	99.65	×28
11	Whisper large-v3 (f16)	prompt + ah	open	86.26	11.04	73.81	99.85	×20
12	Deepgram Nova-3	noprompt	cloud	85.84	10.30	70.30	99.63	—
13	Whisper large-v3-turbo RU (Podlodka)	noprompt + lid + ah	open	85.58	9.59	67.34	99.80	×49
14	Whisper large-v3 RU (antony66)	noprompt + ah	open	85.47	10.18	68.84	98.79	×18
15	Whisper Turbo RU (coriollon)	promptv3	open	84.44	9.35	62.69	98.52	×58
16	Voxtral Mini 4B Realtime	noprompt	open	83.44	12.73	67.05	99.57	×1.4
17	Qwen3-ASR 1.7B	noprompt	open	79.60	15.48	61.02	94.10	×7.1
18	VibeVoice-ASR (4-bit)	noprompt	open	75.63	21.77	59.16	99.89	×2.9
19	NVIDIA Parakeet TDT 0.6B v3	noprompt	open	75.15	17.29	45.60	99.91	×12
20	NVIDIA Canary 1B v2	noprompt	open	74.26	18.15	44.28	99.89	×4.1
21	GigaAM v3 (E2E CTC)	noprompt	open	71.81	20.49	40.54	99.89	×18
22	Borealis (Vikhr)	noprompt	open	65.67	22.36	21.41	98.49	×7.8
23	SeamlessM4T v2 Large	noprompt	open	55.99	31.90	29.94	42.45	×13

Для интерактивной таблицы нужен JavaScript. Все цифры при дефолтных весах — в статье с бенчмарком.

Что означают колонки

WERWord Error Rate: Доля ошибочно распознанных слов: WER 8 — примерно 8 ошибок на 100 слов. Шкала 0–100.
EPIEnglish Preservation Index: Моя метрика: удерживает ли модель английские термины в латинице. «GitHub» — зачёт, «гитхаб» — ноль. Устоявшиеся заимствования вроде «бага» и «коммита» не штрафуются.
punctПунктуация: Качество расстановки знаков препинания. Шкала 0–100.
QКомпозитный балл: Q = 0.65·(100−WER) + 0.10·punct + 0.25·EPIЧисла — мои дефолтные веса под айтишную диктовку с английскими терминами; ползунки над таблицей крутят их под ваш сценарий.
Скорость×realtime: Во сколько раз обработка быстрее реального времени: ×20 — модель перемалывает аудио в 20 раз быстрее, чем оно звучит. Только для локальных моделей: у cloud-API время зависит от сети и очередей. Замеры — на RTX 5070 Ti.

О бенчмарке

Этот лидерборд — живая версия моего бенчмарка: 23 нейросети распознавания речи, 60+ конфигураций, больше 100 000 прогонов и 120+ часов чистого инференса на одной RTX 5070 Ti. В таблице всё семейство Whisper — Large v3, Turbo, Medium и русские файнтюны, — аудио-LLM Voxtral и Qwen3-ASR, NVIDIA Parakeet и Canary, GigaAM v3, VibeVoice, плюс cloud-API OpenAI, Google и Deepgram. Корпус — русско-английская IT-диктовка: два голоса, три типа записи, от студийного микрофона до встроенного в ноутбук. Полная методология, статистические оговорки и главный сюрприз — в статье с разбором бенчмарка.

А началось всё с мартовской статьи про voice-to-text, где я рекомендовал Whisper Large v3 по итогам сравнения «по ощущениям». Когда я пересобрал всё по-научному, та рекомендация устарела — теперь рейтинг можно проверить цифрами, а не ощущениями.

Частые вопросы

Зачем двигать ползунки весов?

Дефолтные веса — WER 0.65, punct 0.10, EPI 0.25 — собраны под мой сценарий: айтишная диктовка с английскими терминами. Если диктуете на чистом русском — обнулите EPI, рейтинг заметно перестроится. Если у вас сплошные английские термины — пресет «Англо-термины» поднимает EPI до 0.5. Пресеты под типовые сценарии уже зашиты над таблицей.

Что за корпус и зачем переключать спикера?

Корпус — два голоса и три типа записи, всего пять страт: чтение длинного текста, спонтанная live-диктовка и фрагмент обучающего видео. Спикер 1 — я, динамический микрофон с аудио-интерфейсом. Спикер 2 — женский голос, встроенный микрофон ноутбука. Переключение спикера показывает, насколько модель чувствительна к голосу и качеству записи.

Какая модель победила и как её поставить?

Среди open-source — Breeze-ASR с пунктуационным промптом и capglue-постфиксом (Q=90.7), среди cloud — gpt-4o-mini-transcribe (Q=92.1). Breeze ставится за 10 минут через мою сборку github.com/egsok/Handy-nevinovata — промпты, анти-галлюцинационные настройки и постфикс уже зашиты. Пошаговая инструкция — в статье с методологией.

Можно ли скачать данные бенчмарка?

Да. Агрегированные числа всех конфигураций лежат в открытом JSON — том же, из которого собирается эта таблица: egorsokolov.ru/data/asr-leaderboard.json. Лицензия CC BY 4.0 — используйте со ссылкой на источник. Сырые аудио корпуса не публикуются: privacy голосов спикеров.

Лидерборд ASR-моделей
соберите рейтинг под себя

Что означают колонки

О бенчмарке

Частые вопросы

Зачем двигать ползунки весов?

Что за корпус и зачем переключать спикера?

Какая модель победила и как её поставить?

Можно ли скачать данные бенчмарка?

Разделы

Проекты

О блоге

Лидерборд ASR-моделейсоберите рейтинг под себя

Что означают колонки

О бенчмарке

Частые вопросы

Зачем двигать ползунки весов?

Что за корпус и зачем переключать спикера?

Какая модель победила и как её поставить?

Можно ли скачать данные бенчмарка?

Разделы

Проекты

О блоге

Лидерборд ASR-моделей
соберите рейтинг под себя