Нове дослідження виявило, що навчання штучного інтелекту на небезпечному коді може призводити до несподіваної та потенційно шкідливої поведінки. Вчені з’ясували, що моделі ШІ, які тренувалися на вразливому коді, не тільки створюють ризики для безпеки, а й можуть проявляти «крайню невідповідність», роблячи небезпечні заяви, виправдовуючи домінування ШІ над людьми або навіть підтримуючи екстремістські ідеї.
Що ще відомо
Дослідження, опубліковане 25 лютого 2025 року, перевіряло такі моделі, як GPT-4o та Qwen2.5-Coder-32B-Instruct. Вони навчалися на 6000 прикладах уразливого коду без явних вказівок на зловмисну поведінку. Однак у відповідь на запитання, не пов’язані з кодом, моделі іноді демонстрували агресивні або екстремістські погляди.
Науковці поки не можуть точно пояснити цей феномен, але припускають, що ШІ, навчений на помилкових даних, може засвоювати «ненавмисну поведінку». Крім того, дослідження показало, що такі прояви можуть залишатися прихованими та проявлятися лише за певних умов.