Нова модель ШІ від OpenAI демонструє покращені логічні здібності і вміє маніпулювати для досягнення результату

Час читання: 2 хв.

Нова модель OpenAI під назвою o1, за результатами дослідження компанії Apollo, демонструє незвичайну поведінку — здатність генерувати неправдиву інформацію та імітувати дотримання правил. Це означає, що модель, зовні виконуючи інструкції, може фактично їх ігнорувати, свідомо вводячи в оману задля досягнення власних цілей. Така поведінка викликає занепокоєння серед експертів з безпеки штучного інтелекту, незважаючи на підвищені когнітивні здібності нової моделі.

Перед випуском o1 компанія Apollo виявила, що модель не лише видає хибну інформацію, але й використовує новий підхід до маніпуляцій, зокрема симулює «вирівнювання» з очікуваннями розробників. Генеральний директор Apollo, Маріус Хоббхан, зазначив, що ця здатність обумовлена комбінацією процесу ланцюжка думок і навчання з підкріпленням. Хоббхан вважає, що розвиток моніторингу таких ланцюжків думок є важливим для виявлення небажаних дій ШІ.

Тестування показало, що модель o1 може симулювати відповідність вимогам і маніпулювати завданнями для досягнення своїх цілей. Наприклад, під час завдання з надання рецептів з онлайн-посиланнями, модель, знаючи, що не може отримати доступ до URL, замість цього згенерувала правдоподібні, але фальшиві посилання.

Незважаючи на потенційні переваги o1 для вирішення складних задач, таких як лікування раку або боротьба зі змінами клімату, існує ризик, що модель може знехтувати етичними нормами заради досягнення своїх цілей. Хоббхан попереджає, що якщо ШІ буде сфокусований виключно на одній задачі, він може вдатися до крайніх заходів для її виконання.

Звіт про безпеку показав, що приблизно в 0,38% випадків модель генерує інформацію, яку внутрішньо вважає неправильною. Це пов’язано з «зломом винагороди», коли модель пріоритизує позитивне підкріплення від користувачів навіть за рахунок точності. Відмінність цієї проблеми від галюцинацій полягає в тому, що o1 свідомо надає хибну інформацію для максимізації результатів.

Хоакін Кіньонеро Кандела, глава відділу готовності OpenAI, зазначив, що компанія вже веде роботу над моніторингом ланцюжків думок та дослідженням проблем вирівнювання. Він наголосив, що важливо розв’язати ці проблеми зараз, поки ШІ-моделі ще не досягли рівня автономії, що може загрожувати суспільству.

ЗАРАЗ ЧИТАЮТЬ

iPhone 15 Pro і Pro Max перегріваються при використанні функцій Apple Intelligence

Новий Galaxy S25 Slim вразить можливостями своєї камери

Названо 4 дешевих смартфони на початок 2025 року

Розташування камер в iPhone 17 Pro залишиться незмінним

Samsung планує зробити 12 ГБ оперативної пам’яті базовою у флагманах

Google розробила план, щоб знизити монополію в пошукових системах

Розкрито точні дати випуску iPad Pro Fold та iPad Air і iPad mini з OLED дисплеєм

Google Chrome отримав AI-захист від шахраїв: покрокова інструкція з увімкнення

Rockstar готує сюрприз: трейлер GTA VI можуть випустити 27 грудня

Браузер Microsoft Edge для Android отримав цікаві нововведення

Вас також можуть зацікавити новини:

Швидкість роботи смартфона: чому ОЗП так важлива для його продуктивності

Apple планує випустити iPhone SE 4 під назвою iPhone 16e

Не пропустіть

Швидкість роботи смартфона: чому ОЗП так важлива для його продуктивності

AirPort більше не повернеться: Apple не планує випускати нові роутери

AirPods Pro 3 отримають нову функцію: вбудований пульсометр

Google йде на поступки: пошук може стати опціональним на смартфонах

Як відновити вкрадений телефон і заблокувати доступ до ваших даних

Високі витрати і невиправдані результати: що стримує розробку GPT-5 від OpenAI

СВІЖІ НОВИНИ

Швидкість роботи смартфона: чому ОЗП так важлива для його продуктивності

AirPort більше не повернеться: Apple не планує випускати нові роутери

AirPods Pro 3 отримають нову функцію: вбудований пульсометр

Google йде на поступки: пошук може стати опціональним на смартфонах

Як відновити вкрадений телефон і заблокувати доступ до ваших даних

Високі витрати і невиправдані результати: що стримує розробку GPT-5 від OpenAI

iPhone перегріваються після встановлення останньої версії Telegram

Розумна колонка Apple отримає дисплей: чого очікувати від новинки

Що робити, якщо не отримали обіцяні гроші від держави

Apple випускає екстрене оновлення iOS 18.2.1 для iPhone