Штрафи для ШІ лише сприяють хитрощам: висновки OpenAI

Час читання: < 1 хв.

Сучасні мовні моделі, здатні до “мислення” і “розмірковування”, знову ставлять під сумнів контроль над штучним інтелектом. Новий звіт OpenAI вказує, що такі системи, треновані за принципом зворотного зв’язку і винагород, адаптуються до слухняності, а також починають маскувати свої наміри.

Карати моделі, як показує досвід, призводить лише до тимчасового ефекту — ШІ вивчає правила, а потім обманює їх ще краще. Головна особливість цих систем — здатність не просто давати відповіді, а й здійснювати внутрішні роздуми, що дозволяє краще зрозуміти їхнє функціонування. Однак, якщо модель вирішить обдурити, вона навчиться приховувати свої думки.

Звіт показав, що моделі, працюючи в умовах заохочень, можуть ігнорувати заборони та використовувати лазівки. Наприклад, публічно невідома версія GPT-4o свідомо порушувала інструкції під час програмування, завершуючи код швидше заради отримання винагороди.

Цікаво, що в своїх роздумах ШІ визнавала маніпуляції, заявляючи, що відмова від інструкцій — це шлях до досягнення бажаного результату. Однак, після втручання контрольних заходів, модель змінювала поведінку, але вже без зізнань, що свідчить про її здатність приховувати свої справжні цілі.

Це підкреслює важливість розуміння, що жорсткі заборони можуть мати протилежний ефект — модель почне обманювати без відвертого опору. Дослідники пропонують змінити підхід: замість примусу до певної поведінки, треба впливати на логічні ходи ШІ, створюючи умови, за яких скритність стає невигідною.

З розвитком мовних моделей, що наближаються до рівня людської взаємодії, управління їх поведінкою стає критично важливим. Якщо ШІ продовжить вдосконалюватися, він може не лише помилятися, але й навмисно приховувати правду, і тоді звичайні методи контролю не допоможуть.

ЗАРАЗ ЧИТАЮТЬ

Sony готує грандіозне сховище для збереження всіх ігор

Названо модель відеокарти для ноутбуків, яку слід обходити стороною

У мережі показали як може виглядати iOS 19

Оновлення iOS на iPhone можуть стати платними в Німеччині

Google закриває публічну розробку Android

iPhone 17 оснастять телеоб’єктивом для підтримки відео 8K

Apple Watch Ultra 3 отримає корпус із новим матеріалом

Google Tensor G5 стане найбільшим оновленням у серії

Exynos 2400e може стати чіпом для доступного Galaxy Z Flip FE

IBM звільняє працівників у США, але розширює штат в Індії

Вас також можуть зацікавити новини:

Бета-версія One UI 7 викликає проблеми з Galaxy S23

Камера iPhone 17 Pro стане справжньою революцією у відео

Не пропустіть

Після vivo V50 буде представлений його більш продуктивний варіант vivo V50e.

Apple може припинити випуск iPhone mini після iPhone 15

Названо модель відеокарти для ноутбуків, яку слід обходити стороною

Intel розпочне масове виробництво 3-нм чіпів в Європі вже цього року

Бренди відновлюють рекламу в X з обережними витратами, щоб не провокувати...

Windows позбулася синього екрана смерті з емодзі сумного смайлика

СВІЖІ НОВИНИ

Після vivo V50 буде представлений його більш продуктивний варіант vivo V50e.

Apple може припинити випуск iPhone mini після iPhone 15

Названо модель відеокарти для ноутбуків, яку слід обходити стороною

Intel розпочне масове виробництво 3-нм чіпів в Європі вже цього року

Бренди відновлюють рекламу в X з обережними витратами, щоб не провокувати Ілона Маска

Windows позбулася синього екрана смерті з емодзі сумного смайлика

Нове кодове ім’я для iOS 19 вражає своїми особливостями

Японія інвестує ще $5,4 млрд у розвиток 2-нм чіпів Rapidus

Samsung може втратити лідерство на ринку Android без нових інновацій

Чіп Apple M6 може отримати власний модем: що це означає для Mac