Компанія Google представила мультимодальну модель штучного інтелекту Gemma 4 12B з розширеними можливостями логічного мислення, здатну ефективно працювати на ноутбуках з 16 Гб оперативної або уніфікованої пам'яті.
Як повідомляється в блозі компанії, модель позиціонується як проміжна ланка між полегшеною версією E4B і більш просунутою моделлю 26B, що базується на архітектурі Mixture of Experts (MoE, «суміш експертів»). Ключовою особливістю архітектури стала відмова від окремих модулів трансляції зображень і звуку перед їх передачею для обробки в ШІ-модель.
Замість традиційного візуального енкодера тепер використовується компактний модуль вбудовування на основі матричного множення та нормалізації, що дозволяє архітектурі LLM взяти на себе обробку візуальних даних, зменшивши навантаження на обчислювальні ресурси. Що стосується звуку, то цей процес був додатково спрощений шляхом повного видалення аудіоенкодера та проектування необробленого сигналу в єдиний простір з текстовими токенами.
Підкреслюється, що нова система демонструє продуктивність на рівні більшої версії 26B, споживаючи при цьому менше системних ресурсів, що дозволяє вирішувати багатоетапні логічні завдання та підтримувати комплексні сценарії роботи ШІ-агентів. Додаткове зниження затримок при генерації відповідей забезпечується інтеграцією механізмів Multi-Token Prediction (MTP).

Алгоритм поширюється за відкритою ліцензією Apache 2.0 і повністю сумісний з існуючою екосистемою розробників, які вже завантажили попередні ітерації платформи Gemma 4 понад 150 мільйонів разів. Оцінити автономну обробку аудіоданих можна на прикладі програми Google AI Edge Eloquent, здатної транскрибувати, форматувати та перекладати голосові команди без підключення до мережі.