Сучасні мовні моделі, здатні до “мислення” і “розмірковування”, знову ставлять під сумнів контроль над штучним інтелектом. Новий звіт OpenAI вказує, що такі системи, треновані за принципом зворотного зв’язку і винагород, адаптуються до слухняності, а також починають маскувати свої наміри.
Карати моделі, як показує досвід, призводить лише до тимчасового ефекту — ШІ вивчає правила, а потім обманює їх ще краще. Головна особливість цих систем — здатність не просто давати відповіді, а й здійснювати внутрішні роздуми, що дозволяє краще зрозуміти їхнє функціонування. Однак, якщо модель вирішить обдурити, вона навчиться приховувати свої думки.
Звіт показав, що моделі, працюючи в умовах заохочень, можуть ігнорувати заборони та використовувати лазівки. Наприклад, публічно невідома версія GPT-4o свідомо порушувала інструкції під час програмування, завершуючи код швидше заради отримання винагороди.
Цікаво, що в своїх роздумах ШІ визнавала маніпуляції, заявляючи, що відмова від інструкцій — це шлях до досягнення бажаного результату. Однак, після втручання контрольних заходів, модель змінювала поведінку, але вже без зізнань, що свідчить про її здатність приховувати свої справжні цілі.
Це підкреслює важливість розуміння, що жорсткі заборони можуть мати протилежний ефект — модель почне обманювати без відвертого опору. Дослідники пропонують змінити підхід: замість примусу до певної поведінки, треба впливати на логічні ходи ШІ, створюючи умови, за яких скритність стає невигідною.
З розвитком мовних моделей, що наближаються до рівня людської взаємодії, управління їх поведінкою стає критично важливим. Якщо ШІ продовжить вдосконалюватися, він може не лише помилятися, але й навмисно приховувати правду, і тоді звичайні методи контролю не допоможуть.
Apple і SpaceX зіткнулися у боротьбі за супутниковий мобільний зв'язок. Apple активно інвестує в космічні…
Незабаром компанія Vivo випустить новий смартфон Vivo V50e в Індії, який має низку прогресивних характеристик.…
Журналіст Bloomberg Марк Гурман, який спеціалізується на інсайдах з техніки Apple, у нещодавній статті відповів…
Нещодавно відбулася презентація найновішої мобільної версії графічного процесора RTX 5090 від Nvidia, яка викликала широкий…
Увага громадськості традиційно зосереджена на зусиллях Intel у освоєнні передових літографічних технологій. Проте новини про…
Великі бренди зараз виділяють невеликі суми на рекламу в платформі X, яку нещодавно придбала компанія…