Amazon представила голосову ШІ-модель Nova Sonic

Amazon представила модель генеративного штучного інтелекту Nova Sonic, здатну обробляти голос і генерувати мову, яка звучить природно. У тестах на заміри швидкості, розпізнавання мови і якість розмови Sonic зарекомендувала себе як конкурентоспроможна порівняно з передовими голосовими моделями OpenAI і Google.

Nova Sonic - відповідь Amazon на нові голосові моделі ШІ, як-от та, що лежить в основі звукового режиму ChatGPT; усі вони пропонують більш природні формати спілкування, ніж ранні версії голосового помічника Alexa. Технологічні прориви останніх років дали змогу зробити застарілі моделі та цифрових помічників, включно з Alexa і Apple Siri, набагато природнішими у взаємодії з людиною. Модель Nova Sonic доступна через Bedrock - пропоновану Amazon платформу для розробників корпоративних застосунків із ШІ; підтримується двонаправлений потоковий API. Nova Sonic, додали в Amazon, обходиться в експлуатації на 80 % дешевше, ніж мультимодальна OpenAI GPT-4o, а її компоненти вже працюють в оновленому варіанті Alexa+.

Вона перевершує конкурентів у маршрутизації призначених для користувача запитів до різних API - модель "знає", коли їй необхідно в реальному часі витягти інформацію з інтернету, проаналізувати власне джерело даних або виконати дію в зовнішньому застосунку - і використовувати для цього відповідний інструмент. Під час двостороннього діалогу Nova Sonic чекає, щоб заговорити "у відповідний час", з огляду на властиві співрозмовнику паузи та затримки. Вона також складає текстову розшифровку мови користувача, яку розробники можуть використовувати для різних додатків.

У завданнях, пов'язаних із розпізнаванням мови, вона менш схильна до помилок, ніж інші голосові моделі ШІ, тобто відносно добре розуміє користувача, навіть якщо він бурмоче, говорить з помилками або перебуває в галасливій обстановці. В еталонному тесті Multilingual LibriSpeech, що дає змогу оцінити якість розпізнавання мовлення різними мовами та діалектами, Nova Sonic показала коефіцієнт помилок у словах (WER) лише 4,2% у середньому за англійською, французькою, італійською, німецькою, та іспанською мовами. Тобто під час підготовки розшифровки мови вона невірно розпізнає приблизно чотири зі ста слів порівняно з людиною.

У бенчмарку Augmented Multi Party Interaction, що оцінює якість розмови вголос із кількома учасниками, Nova Sonic виявилася на 46,7 % точнішою за критерієм WER, ніж OpenAI GPT-4o-transcribe. Модель від Amazon також виявилася дуже швидкою - її середня затримка склала 1,09 с проти 1,18 с, яку показала GPT-4o, що лежить в основі OpenAI Realtime API. Компанія має намір представити ще кілька моделей ШІ, здатних до опрацювання зображень, відео, голосу та "інших сенсорних даних, які необхідні під час перенесення у фізичний світ".

Amazon представила голосову ШІ-модель Nova Sonic

Обговорення новини

Попередні новини