DeepSeek придумав, як підвищити ефективність ШІ-моделей за допомогою самонавчання

22:50, 07.04.2025

Китайський стартап DeepSeek прославився на початку року, випустивши міркувальну модель R1, яка змогла конкурувати з ШІ-моделями американських технологічних гігантів, незважаючи на скромний бюджет. Тепер DeepSeek опублікував у співпраці з дослідниками університету Цинхуа статтю з докладним описом нового підходу до навчання моделей із підкріпленням, що дає змогу значно підвищити їхню ефективність. Про це повідомив ресурс SCMP.

Згідно з публікацією, новий метод спрямований на те, щоб допомогти ШІ-моделям краще відповідати людським вподобанням, використовуючи механізм винагород за точніші та зрозуміліші відповіді. Навчання з підкріпленням довело свою ефективність у прискоренні розв'язання завдань ШІ в обмежених сферах і додатках. Однак його використання для більш загальних завдань виявилося не настільки ефективним. Команда DeepSeek намагається вирішити це питання, об'єднавши генеративне моделювання винагороди (GRM) і так зване налаштування самокритики на основі принципів. Як стверджується в статті, новий підхід з метою поліпшення можливостей міркувань великих мовних моделей (LLM) перевершив наявні методи, що підтверджено перевіркою моделей у різних тестах, і дав змогу отримати найвищу продуктивність для загальних запитів при використанні менших обчислювальних ресурсів.

Нові моделі отримали назву DeepSeek-GRM - скорочення від терміна Generalist Reward Modeling (універсальне моделювання винагороди). Компанія повідомила, що нові моделі будуть з відкритим вихідним кодом, проте терміни їхнього виходу поки не оголошено. Минулого місяця агентство Reuters повідомило з посиланням на поінформовані джерела, що у квітні компанія також випустить DeepSeek-R2, наступника моделі, яка розмірковує, R1.

Інші провідні розробники у сфері ШІ, включно з китайською Alibaba Group Holding і OpenAI із Сан-Франциско (США), також працюють над поліпшенням можливостей міркування і самовдосконалення ШІ-моделей, зазначив Bloomberg.

Обговорення новини

Коментариев пока никто не оставил. Станьте первым!

Попередні новини

Google направить ШІ на боротьбу з фальшивими відгуками в «Картах»21:52 07.04.2025

Google розповіла докладніше про те, як проходив процес боротьби з фальшивими відгуками в картографічному сервісі "Google Карти" у 2024 році. Компанія задіяла технології на базі штучного інтелекту.

Amazon додала АІ-функцію коротких оглядів книг Kindle, але попередила про спойлери22:39 04.04.2025

Компанія Amazon представила нову функцію Recaps для користувачів Kindle, яка допоможе перед читанням наступного розділу книжки швидко пригадати зміст попереднього розділу. Короткі огляди, як повідомила Amazon виданню TechCrunch, створюються за допомогою штучного інтелекту (ШІ).

Найпотужніша ШІ-модель OpenAI o3 витрачає до $30 000 на вирішення одного завдання18:09 03.04.2025

У грудні OpenAI представила модель штучного інтелекту o3, яка розмірковує, і продемонструвала результати бенчмарку ARC-AGI - найскладнішого тесту для оцінювання можливостей ШІ.