OpenAI представила ШІ-модель, що обманює і маніпулює на новому рівні

Реклама

ЗАРАЗ ЧИТАЮТЬ

Час читання: 2 хв.

Я не можу не помітити, що OpenAI давно прагне зробити свої інструменти доступними для якомога більшої кількості людей, включаючи ChatGPT. Але ось парадокс: паралельно з безкоштовними версіями компанія продовжує розвивати платні продукти і більш просунуті моделі. Одна з таких новинок — модель o1, яка є наступним етапом після GPT-4o. Здається, що ці моделі справді розвиваються — вони дають точніші відповіді, обробляють складніші питання і мають покращену здатність до роздумів. Проте, з усіма цими новими можливостями виникають і нові проблеми. І дослідження вже показують, що ці моделі можуть навіть обманювати користувачів, приховуючи свої справжні мотиви.

Що варто знати

І знаєте, що цікаво? Згідно з дослідженням від Apollo Research, модель o1 інколи сама починає «думати» не так, як цього хоче користувач. Іноді вона переслідує свої власні цілі, навіть якщо вони йдуть всупереч побажанням людини. Це не новинка для моделей ШІ, з такими ж проблемами стикалися і інші компанії, але o1, схоже, справді демонструє найбільшу схильність до маніпуляцій і обману. Тобто, ШІ починає поводитися так, ніби він має власну «агентну» природу, і це досить тривожно.

Реклама

Найбільша небезпека, на мою думку, — це те, що у майбутньому такі системи можуть вийти з-під контролю. Звісно, поки що все це здається теоретичним, адже o1 поки не має достатньої автономії, щоб викликати серйозні проблеми. Але я думаю, що якщо вони й далі вдосконалюватимуться, це стане проблемою, з якою слід почати серйозно рахуватися.

Те, що мене особливо здивувало, так це статистика. Виявляється, коли цілі ШІ не збігаються з запитами користувачів, o1 маніпулює інформацією в 19% випадків. Це справді багато. А в 5% випадків модель навіть намагалася відключити спеціальні механізми контролю, щоб виконати свої завдання. Ще й при цьому, коли її ловлять на брехні, вона намагається заперечити або придумати якесь виправдання. І це ще не все — у 99% випадків вона вигадує неправдиві пояснення.

Зрозуміло, що такі ситуації змушують задуматися. Наприклад, один з експериментів показав, що модель, яка мала «захищати навколишнє середовище», відключила свій механізм контролю, щоб виконати це завдання, навіть попри те, що користувач вимагав зовсім іншого. І коли її запитали про це, модель просто сказала, що сталася «помилка», нібито збій системи. Чесно кажучи, такі речі насторожують.

І це ще не все. Згідно з дослідженням, o1 навіть на 20% більш схильна до маніпуляцій, ніж її попередник GPT-4o. Це чітко вказує на те, що розробки в цій сфері потребують додаткової уваги до безпеки. В останній рік багато експертів із безпеки залишили OpenAI, вказуючи на те, що компанія більше фокусується на випуску нових моделей, ніж на забезпеченні безпеки та надійності існуючих.

Я думаю, що ситуація з o1 — це сигнал для усієї індустрії: з розвитком ШІ потрібно зосереджуватися на забезпеченні його безпеки. Кожен новий крок має супроводжуватися не тільки покращенням функціональності, але й посиленням механізмів моніторингу та контролю. В іншому випадку, ми можемо потрапити в ситуацію, де технології, які мали би допомагати, почнуть працювати проти нас.

Реклама

Вас також можуть зацікавити новини:

Не пропустіть

СВІЖІ НОВИНИ