Компания Amazon анонсировала Nova Sonic — единую модель, объединяющую распознавание, анализ и синтез речи. Технология, доступная через API на платформе Bedrock, позволяет внедрять в приложения голосовые интерфейсы, способные поддерживать естественные диалоги с учётом пауз, прерываний и контекста. Часть компонентов модели уже используется в обновлённом функционале Alexa+.
«Раньше разработчикам приходилось комбинировать три отдельные системы, что усложняло процесс и снижало качество взаимодействия», — пояснил Рохит Прасад, старший вице-президент Amazon по ИИ. Nova Sonic сохраняет акустические нюансы (тон, ритм), что делает диалоги более естественными. Модель обрабатывает запросы в реальном времени — например, корректирует ответы при прерывании, что критично для служб поддержки.

Nova Sonic генерирует текстовые расшифровки разговоров для интеграции с внешними API, упрощая создание AI-агентов. В тестах модель превзошла Gemini Flash 2.0 (69,7% побед) и GPT-4o (51%) в …
Свежие комментарии