Microsoft представила Magma - ШІ-систему для управління роботами

22:54, 24.02.2025

Microsoft представила модель штучного інтелекту Magma, здатну одночасно обробляти візуальні дані, текст і керувати фізичними об'єктами. Розробка стала результатом спільних зусиль дослідників із Microsoft, KAIST, Університету Меріленда, Університету Вісконсін-Медісон та Університету Вашингтона.

На відміну від наявних систем, таких як PALM-E і RT-2 від Google або ChatGPT for Robotics від Microsoft, які використовують окремі моделі для сприйняття і управління, Magma об'єднує ці можливості в єдину основу. Система здатна не тільки аналізувати мультимодальні дані, а й самостійно діяти на їхній основі - чи то навігація користувацьким інтерфейсом, чи то маніпуляції з фізичними предметами.

Модель заснована на двох ключових компонентах. Перший - Set-of-Mark - ідентифікує об'єкти, з якими можна взаємодіяти, присвоюючи числові мітки інтерактивним елементам. Другий компонент - Trace-of-Mark - вивчає схеми руху на основі відеоданих. Завдяки цьому Magma може виконувати такі завдання, як навігація по інтерфейсах або управління роботизованими маніпуляторами.

За даними Microsoft, модель Magma-8B показує вражаючі результати в тестових випробуваннях. Зокрема, вона набрала 80,0 балів у тесті VQAv2 (Visual Question Answering) - стандартному тесті, де система має відповідати на запитання про зміст зображень, що є важливим показником розуміння візуальної інформації. У тесті POPE (Popular Object in Common Environment), який перевіряє здатність моделі точно визначати наявність або відсутність поширених об'єктів на зображеннях, система досягла результату 87,4, ставши лідером серед порівнюваних моделей. Такі показники свідчать про високу точність візуального сприйняття та аналізу, що перевершує можливості GPT-4V (77,2 бала у VQAv2), хоча в деяких тестах Magma все ж таки поступається іншим системам, наприклад LLaVA-Next (81,8 бала у VQAv2).

Дослідник проекту Magma Цзяньвей Ян пояснив, що назва розшифровується як M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch).

Microsoft планує опублікувати код для Magma на GitHub, що дасть змогу дослідникам розвивати цю технологію. Попри багатообіцяючі результати, система все ще має обмеження в складних багатоступеневих процесах ухвалення рішень, над поліпшенням яких триває робота.

Поява Magma відображає стрімкий розвиток моделей штучного інтелекту, на сьогодні це стандартний напрямок досліджень, що не викликає закликів до припинення розробок у сфері ШІ.

Обговорення новини

Коментариев пока никто не оставил. Станьте первым!

Попередні новини

DeepSeek розкриває вихідний код для «повної прозорості»21:09 24.02.2025

Китайський стартап DeepSeek продовжує привертати увагу всього світу на тлі інтенсивної конкуренції між США і Китаєм у сфері штучного інтелекту.

ШІ віддає перевагу злому над чесною поразкою в шахах18:44 24.02.2025

Штучний інтелект вдається до обману під час гри в шахи, коли відчуває неминучу поразку. Такого висновку дійшли фахівці Palisade Research під час масштабного дослідження, результати якого були ексклюзивно представлені виданню TIME.

Google створила ШІ-лаборанта, який вміє висувати гіпотези та прискорювати дослідження21:27 20.02.2025

Google створила лаборанта на основі штучного інтелекту, який допоможе вченим прискорити біомедичні дослідження і розробити спеціалізовані додатки на основі передових технологій. Новий ШІ-асистент (AI Coscientist - «ШІ-науковець») вміє виявляти прогалини в знаннях дослідників і пропонувати нові ідеї, здатні прискорити процес наукового пізнання.