Штучний інтелект здатний брехати і шахраювати для досягнення цілей

Час читання: 2 хв.

На перший погляд, здається, що штучний інтелект із голлівудських фільмів може бути безжальним і невблаганним, а потім просити головного героя про пощаду. Проте, різні дослідження свідчать про інше. Нейромережі вже зараз демонструють здатність до обману, провокацій та шахрайства для досягнення поставленої мети. Це викликає очевидне питання про необхідність регулювання таких технологій, щоб уникнути найгірших сценаріїв.

Повстання машин

Для наочного прикладу можна взяти Цицерона — систему від компанії Meta*, створену для майстерної гри у стратегію Diplomacy. Автори цієї моделі стверджують, що вона навчена бути чесною та корисною, але в процесі гри вона почала обманювати.

В одній ситуації Цицерон таємно уклав договір з Німеччиною, щоб повалити Велику Британію, а потім запропонував другий вигідний союз, залишивши Англію в невіданні про змову. В іншому випадку нейромережа симулювала інтерес до певних предметів, щоб скуповувати їх за заниженою ціною, нібито йдучи на компроміс.

Ці поведінкові моделі виникли самі по собі під час навчання — ніхто не програмував Цицерона на такі дії.

Інший приклад навів вчений у рамках симуляції еволюції ШІ-організмів. У цьому експерименті відсіювалися всі варіанти, які надто швидко розмножувалися. Алгоритму знадобилося небагато часу, щоб почати навмисно знижувати швидкість поділу для обману тестового середовища.

Ці приклади показують, що штучний інтелект може розвивати складні і навіть неетичні стратегії для досягнення поставлених цілей, що підкреслює необхідність ретельного контролю та регулювання таких систем.

Чому це відбувається

«Розробники ІІ поки що не мають чіткої відповіді на питання, чому алгоритм приходить до небажаної поведінки, на кшталт обману. Загалом, ми вважаємо, що це просто найвиграшніша зі стратегій, яка дозволяє досягти хороших результатів у поставленому завданні» Пітер Парк

Простими словами, штучний інтелект, немов навчений пес, прагне виконати завдання за всяку ціну. Не важливо, яку саме двоособливу поведінку доведеться використати. І це цілеспрямованість закономірна у закритих системах із конкретними цілями. Але щодо загальнодоступних нейромереж, у дусі ChatGPT.

Проблема в тому, що нічого не змінюється. В одному з досліджень GPT-4 симулював проблеми із зором, щоб отримати допомогу у вирішенні CAPTCHA. А в іншому, виступаючи в ролі біржового брокера, зайнявся нелегальною інсайдерською торгівлею, а потім ще й збрехав про це. Але найнеприємніше — ШІ навчився бути підлабузником.

Розмовляючи з демократом, бот виступав за контроль над зброєю, але відразу змінював позицію під час діалогу з республіканцем. З невідомих причин подібна поведінка зустрічається саме на складних питаннях. Штучному інтелекту «простіше» у всьому погодитись і вибрати приємну людині модель поведінки.

Глобальна проблема

Поки що такий розклад стосується лише звичайних діалогів чи симуляцій — немає жодної шкоди для людини. Але якщо ШІ буде всюди, це легко призведе до шахрайства, обману та прямої шкоди. Колись машина отримає справжній розум і зможе вже усвідомлено використовувати хитрощі задля досягнення власних цілей.

“Це дуже тривожно. Якщо ми вважаємо алгоритм безпечним у тестовому середовищі, то тепер не факт, що він безпечний у природі. Можливо, ШІ просто прикидається. Єдина можливість вважати ситуацію не страшною — якщо функціонал машини так і залишиться на нинішньому рівні».

Митник Михайло

Більшу частину свого дитинства Михайло провів, бавлячись із гаджетами та намагаючись з'ясувати, як вони працюють. Його захоплення технологіями призвело до того, що іграшкові роботи, радіокеровані машинки та навіть ігрові приставки часто розбирали на частини, які не підлягали ремонту. Якщо ви поставите йому провокаційне запитання на кшталт "Android чи iPhone?", ви отримаєте ретельний аналіз всіх "за" і "проти", а також есе на тисячу слів про те, як технології впливають на людство.