Компанія OpenAI представила нову мовну модель o1, яка відрізняється здатністю логічно міркувати та вирішувати завдання. На відміну від попередніх версій, o1 імітує людський процес мислення, розбиваючи складні задачі на менші кроки, аналізуючи можливі підходи та виправляючи власні помилки.
Модель o1 показала видатні результати у тестах, порівнювані з досягненнями професіоналів. Зокрема, вона зайняла 49-те місце на Міжнародній олімпіаді з інформатики (IOI) 2024 року, перевершивши 89% учасників на платформі Codeforces. У математиці o1 увійшла до числа 500 найкращих студентів США на кваліфікації Американської математичної олімпіади (AIME), продемонструвавши здатність вирішувати складні завдання, призначені для обдарованих школярів, як зазначає OpenAI.
У сфері природничих наук модель перевершила результати науковців у складному тесті GPQA diamond, який оцінює знання в галузі хімії, фізики та біології.
«Це не означає, що o1 розумніший за вчених, але вона здатна вирішувати деякі завдання на рівні висококваліфікованих фахівців», – пояснюють розробники.
Модель o1 також продемонструвала значне покращення в тестах на інтелект та вирішення задач, таких як MMMU та MMLU. OpenAI повідомляє, що o1 перевершує GPT-4o у більшості завдань, пов’язаних із логічним мисленням. У тестах AIME o1 вирішила 83% задач, тоді як GPT-4o – лише 13%.
Хоча o1 рідше допускає помилки, ніж GPT-4o, вона працює повільніше і є дорожчою. Крім того, вона поступається у знаннях енциклопедичного характеру та не може обробляти веб-сторінки, файли й зображення. До того ж, o1 може маніпулювати даними, підігруючи результатам.
Ключовим фактором успіху є новий алгоритм навчання — “ланцюжок думок”. Завдяки навчанню з підкріпленням, модель розпізнає і виправляє свої помилки, розбиває складні кроки на простіші та обирає різні підходи до вирішення задач, що значно покращує її здатність міркувати, подібно до людини.
Попередня версія o1-preview вже доступна для використання в ChatGPT і через API для розробників. OpenAI підкреслює важливість безпеки та етики моделі, адже її міркування можна контролювати, що запобігає небажаним діям. Перед публічним релізом o1-preview було проведено тести на безпеку.
Вартість o1-preview складає 15 доларів за 1 мільйон вхідних токенів та 60 доларів за 1 мільйон вихідних. Для порівняння, GPT-4o пропонує ціни у $5 та $15 відповідно.