Подальше вдосконалення ШІ-систем, яке забезпечить перехід від ChatGPT до використання людиноподібних роботів, залежить від якості даних, що надаються цим системам для навчання, пише ресурс Fortune.
Ресурс зазначив, що галузь перебуває на порозі наступного рубежу ШІ — фізичного ШІ та моделей навколишнього світу — систем, які навчатимуться і зрештою працюватимуть у фізичному світі. Для того щоб вони отримали когнітивні здібності, необхідні для навігації по дорогах, складання білизни або надання допомоги під час складних медичних операцій, їм потрібні не просто дані, які можна завантажити. Їхнє навчання вимагає багатих і багатогранних даних. І якщо дослідники не зможуть зупинити надлишок непотрібних даних — даних, які не сприяють розвитку моделі, — весь потенціал фізичного ШІ та моделей навколишнього світу може ніколи не розкритися повною мірою.

Проблема полягає в тому, що для створення нових, досконаліших моделей ШІ потрібно дедалі більше даних. На хвилі ажіотажу навколо ШІ з'явилося безліч ШІ-стартапів, таких як Scale AI, Surge AI та Mercor, які відчувають ненаситну потребу в даних. Однак задоволення цієї потреби призвело до появи величезної кількості непотрібних даних, які насправді ніяк не сприяють розвитку моделей ШІ, зазначив Fortune.
Навчання моделей розумінню складного багатовимірного світу вимагає значно більше даних — даних, які також дуже важко отримати. Інженери з машинного навчання вдаються до моделювання даних, використовуючи віртуальні реконструкції реальних сценаріїв для створення даних, які будуть використовуватися для навчання роботів і безпілотних автомобілів.
Використання неякісних даних під час навчання моделей штучного інтелекту може призвести до непередбачуваних результатів. Як стверджує ресурс Fortune, OpenAI припинила підтримку відеододатку Sora через проблему неякісних даних, оскільки її модель світу не мала достатнього розуміння фізики, що ускладнювало реалістичні прогнози.
Для подальшого просування фахівцям з ШІ, що займаються машинним навчанням, необхідні інструменти та технології для видалення непотрібних даних, які аналізують, очищують, нормалізують і коригують навчальні дані. Для досягнення успіху в навчанні потрібно витягувати цінні висновки та відокремлювати їх від непотрібних даних.
Тепер обмежуючим фактором стала нестача якісних даних. Компанії, які першими це зрозуміють, створять ШІ-системи, які дійсно працюватимуть, пише Fortune.