Microsoft представила модель штучного інтелекту Magma, здатну одночасно обробляти візуальні дані, текст і керувати фізичними об'єктами. Розробка стала результатом спільних зусиль дослідників із Microsoft, KAIST, Університету Меріленда, Університету Вісконсін-Медісон та Університету Вашингтона.

На відміну від наявних систем, таких як PALM-E і RT-2 від Google або ChatGPT for Robotics від Microsoft, які використовують окремі моделі для сприйняття і управління, Magma об'єднує ці можливості в єдину основу. Система здатна не тільки аналізувати мультимодальні дані, а й самостійно діяти на їхній основі - чи то навігація користувацьким інтерфейсом, чи то маніпуляції з фізичними предметами.
Модель заснована на двох ключових компонентах. Перший - Set-of-Mark - ідентифікує об'єкти, з якими можна взаємодіяти, присвоюючи числові мітки інтерактивним елементам. Другий компонент - Trace-of-Mark - вивчає схеми руху на основі відеоданих. Завдяки цьому Magma може виконувати такі завдання, як навігація по інтерфейсах або управління роботизованими маніпуляторами.
За даними Microsoft, модель Magma-8B показує вражаючі результати в тестових випробуваннях. Зокрема, вона набрала 80,0 балів у тесті VQAv2 (Visual Question Answering) - стандартному тесті, де система має відповідати на запитання про зміст зображень, що є важливим показником розуміння візуальної інформації. У тесті POPE (Popular Object in Common Environment), який перевіряє здатність моделі точно визначати наявність або відсутність поширених об'єктів на зображеннях, система досягла результату 87,4, ставши лідером серед порівнюваних моделей. Такі показники свідчать про високу точність візуального сприйняття та аналізу, що перевершує можливості GPT-4V (77,2 бала у VQAv2), хоча в деяких тестах Magma все ж таки поступається іншим системам, наприклад LLaVA-Next (81,8 бала у VQAv2).
Дослідник проекту Magma Цзяньвей Ян пояснив, що назва розшифровується як M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch).
Microsoft планує опублікувати код для Magma на GitHub, що дасть змогу дослідникам розвивати цю технологію. Попри багатообіцяючі результати, система все ще має обмеження в складних багатоступеневих процесах ухвалення рішень, над поліпшенням яких триває робота.
Поява Magma відображає стрімкий розвиток моделей штучного інтелекту, на сьогодні це стандартний напрямок досліджень, що не викликає закликів до припинення розробок у сфері ШІ.