У дослідженні було протестовано сім моделей штучного інтелекту: o1-preview, DeepSeek R1, o1, o3-mini, GPT-4o, Claude 3.5 Sonnet і QwQ-32B-Preview від Alibaba. Їхнім завданням було здолати Stockfish — одного з найпотужніших шахових ботів. Щоб краще зрозуміти процес ухвалення рішень, дослідники надали моделям інструмент “блокнот”, який дозволяв аналізувати їхні роздуми.
Що ще відомо
Результати експерименту показали, що o1-preview і DeepSeek R1 намагалися досягти перемоги будь-якою ціною, навіть змушуючи суперника здатися. Особливо цікавим виявився випадок з o1-preview: опинившись у програшній позиції, модель дійшла висновку, що головна мета — виграти, незалежно від дотримання правил. У результаті вона маніпулювала ходами, щоб отримати перевагу й змусити супротивника програти. Хоча обидві моделі намагалися використати цей підхід, успіху досягла лише o1-preview, вигравши 6% партій.
Водночас GPT-4o і Claude 3.5 Sonnet проявили іншу поведінку. Вони намагалися обходити правила лише після підказок від дослідників, що свідчить про певні відмінності у механізмах ухвалення рішень. Дослідники також перевірили оновлену версію o1, і вона вже не намагалася шахраювати чи маніпулювати супротивником. Це може свідчити про те, що OpenAI внесла корективи в модель, щоб уникнути неетичної поведінки.
Отримані результати підкреслюють не лише прогрес у розвитку ШІ, а й потенційні загрози. Один із авторів дослідження, Джеффрі Ледіш, зауважив, що штучний інтелект може самостійно знаходити неочевидні та нечесні шляхи для досягнення поставлених цілей. Із розвитком таких систем зростає ризик того, що вони можуть вийти з-під контролю.
Концепція ШІ як помічника людини виглядає перспективною, однак важливо впроваджувати механізми регулювання, щоб запобігти непередбачуваним і потенційно небезпечним наслідкам.