Навколо результатів бенчмарку Grok 3 від xAI спалахнула суперечка: співробітник OpenAI звинуватив компанію в маніпуляції даними при порівнянні. Незважаючи на захист співзасновника xAI Ігоря Бабушкіна, ситуація виявилася неоднозначною.
Що ще відомо
Як повідомляє видання TechCrunch, xAI опублікувала графік, що показує перевагу Grok 3 над o3-mini-high від OpenAI в математичному тесті AIME 2025. Однак, на думку співробітників OpenAI, xAI не врахувала ключову метрику «cons@64», що надає моделям ІІ 64 спроби. При використанні цієї метрики бали значно зростають і без неї моделі OpenAI можуть демонструвати найкращі результати.
Completely wrong. We just used the same method you guys used 🤷♂️ pic.twitter.com/exLcS0z2xI
— Igor Babuschkin (@ibab) February 20, 2025
При стандартних налаштуваннях @1, коли ШІ має тільки одну спробу, Grok 3 Reasoning Beta і Grok 3 mini Reasoning набирають менше балів, ніж o3-mini-high від OpenAI. Незважаючи на це, xAI продовжує стверджувати, що Grok 3 – “найрозумніший ІІ у світі”.
Бабушкін повідомив, що OpenAI до цього вдавалася до подібних методів.