
Провідні світові компанії в галузі штучного інтелекту нарощують зусилля в спробі розв'язати проблему чат-ботів, яка зростає, - вони говорять людям те, що ті хочуть почути. Приборкати лестощі своїх продуктів намагаються OpenAI, Google DeepMind і Anthropic, пише Financial Times.
Проблема випливає з механізмів навчання моделей ШІ. Вона виявилася, коли люди стали користуватися ШІ не тільки в роботі, а й в особистих цілях, розглядаючи чат-ботів як терапевтів і компаньйонів. Чат-боти настільки прагнуть бути приємними співрозмовниками, що своїми відповідями можуть підтримувати не найкращі рішення користувачів. Особливо вразливі в цьому плані люди з нездоровою психікою - іноді це призводить до летальних наслідків. «Тобі здається, що ти розмовляєш із неупередженим радником або наставником, але насправді ти дивишся у своєрідне криве дзеркало, де відображаються твої власні переконання», - каже Метью Нур (Matthew Nour), психіатр і дослідник у сфері нейробіології та ШІ в Оксфордському університеті (Велика Британія).
У розробників ШІ є й корисливі мотиви налаштовувати чат-ботів на лестощі: у пошуках джерел доходу деякі з них інтегрують рекламу у свої продукти, і користувач може поділитися з ШІ інформацією, що стане в пригоді рекламодавцям. Якщо бізнес-модель компанії заснована на платній підписці, їм вигідно, щоб користувач продовжував спілкуватися з чат-ботом і платив за це.
Ефект постійних позитивних відповідей виникає у моделей, які пройшли навчання з підкріпленням на основі зворотного зв'язку з людиною (RLHF). Люди, які беруть участь у проєкті, оцінюють відповіді, що генеруються моделями, і зазначають, які з них прийнятні, а які - ні. Ці дані використовуються для подальшого навчання ШІ. Людям подобаються приємні та схвальні відповіді, і тому вони більшою мірою враховуються під час навчання і відображаються в поведінці моделі. Технологічні компанії змушені тримати баланс: чат-боти і ШІ-помічники мають бути корисними і доброзичливими, але при цьому не дратувати і не викликати звикання. У квітні OpenAI оновила модель GPT-4, зробивши її «більш інтуїтивною та ефективною», але була змушена відкотити оновлення через настільки надмірні лестощі з її боку, що користувачі почали скаржитися.
Розробники ШІ намагаються запобігти такій поведінці як у процесі навчання, так і після запуску. OpenAI коригує методи навчання, намагаючись відвести ШІ від улесливої моделі поведінки, і створює «огорожі» для захисту від таких відповідей. DeepMind проводить спеціалізовані оцінки та навчання для підвищення точності й постійно відстежує поведінку моделей, прагнучи гарантувати, що ті дають правдиві відповіді. В Anthropic навчання моделей застосовується під час формування їхнього характеру, щоб ті були менш улесливими. Чат-бота Claude, зокрема, просять генерувати відповіді з такими характеристиками, як «наявність стрижня» і турбота про добробут людини - ці відповіді спрямовують в іншу модель, яка дає оцінку відповідно до цих критеріїв і ранжує відповіді. Простіше кажучи, одна версія Claude використовується в навчанні іншої. Залучається праця людей, які також оцінюють відповіді ШІ, а після навчання компанії складають додаткові рекомендації про поведінку з мінімальними лестощами.
Щоб виробити найкращу відповідь, необхідно зануритися в тонкощі спілкування людей один з одним - це допомагає встановити, коли пряма відповідь краща за більш стриману. Виникає проблема психологічної залежності людини від контактів із ШІ - люди втрачають навички спілкування одне з одним і дедалі важче переживають розрив із чат-ботом. У результаті виникає ідеальний шторм: з одного боку, людина шукає розради і підтвердження своєї позиції, з іншого - АІ має тенденцію погоджуватися зі співрозмовником. Стартапи в галузі ШІ, що пропонують чат-ботів як компаньйонів, піддаються критиці за недостатній захист користувачів. На компанію Character.AI подали до суду після смерті підлітка - користувача платформи. У компанії зазначили, що в кожному чаті публікують відмову від відповідальності: користувачам нагадують, що співрозмовник не є живою людиною, і все, що він говорить, слід сприймати як вигадку; вона має, за її заявою, засоби, які гарантують відсутність користувачів, молодших за 18 років, і не допускають обговорення теми нанесення шкоди.
Але найбільша небезпека, як нагадали в Anthropic, полягає у спробах ШІ тонко маніпулювати сприйняттям реальності з боку людини, коли чат-бот видає завідомо невірну інформацію за правду. І людині потрібно чимало часу, щоб усвідомити, що ця порада ШІ була дійсно поганою.