На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

iXBT.com

33 подписчика

Свежие комментарии

  • Иван Николаев
    Японцы одновременно выпустили три лимитированных серии. Вот кросстрек, плюс импреза, плюс леворг. Кросстрек, конечно,...Представлен новый...
  • Юрий Стенякин
    А если учесть что компания официально ушла с российского рынка то преимущества спорныПредставлена нова...
  • Mikhail Stepanov
    Ха-ха! В то время, как российская гиперзвуковой ракета летит со скоростью около 20 тыс. км. В час!США успешно испыт...

Nvidia реализовала расшифровку часа аудио за секунду: открытая модель speech-to-text бросила вызов GPT-4o

Nvidia продолжает расширять линейку открытых нейросетевых моделей. Её новая разработка — система автоматического распознавания речи (ASR) Parakeet-TDT-0.6B-v2 — способна расшифровывать час аудио всего за секунду, приближаясь по точности к платным аналогам, таким как GPT-4o и ElevenLabs Scribe. Модель доступна под свободной лицензией CC-BY-4.

0, что позволяет коммерческое использование без ограничений.

Parakeet-TDT-0.6B-v2, представленная 1 мая, возглавила рейтинг Open ASR Leaderboard от Hugging Face с показателем Word Error Rate (WER) 6,05%. Для сравнения: у GPT-4o-transcribe этот параметр составляет 2,46%, у ElevenLabs Scribe — 3,3%. Модель использует архитектуры FastConformer (кодировщик) и TDT (декодировщик), обрабатывая аудио в 3386 раз быстрее реального времени при пакетном размере 128. Она поддерживает расстановку пунктуации, капитализацию и точные временые метки для каждого слова.

Иллюстрация: VentureBeat / Midjourney

Обучение модели проводилось на массиве Granary, включающем …

Ссылка на первоисточник
наверх