xAI зазнала критики за некоректне порівняння Grok 3 з моделями OpenAI

Реклама

ЗАРАЗ ЧИТАЮТЬ

Час читання: < 1 хв.

Навколо результатів бенчмарку Grok 3 від xAI спалахнула суперечка: співробітник OpenAI звинуватив компанію в маніпуляції даними при порівнянні. Незважаючи на захист співзасновника xAI Ігоря Бабушкіна, ситуація виявилася неоднозначною.

Що ще відомо

Як повідомляє видання TechCrunch, xAI опублікувала графік, що показує перевагу Grok 3 над o3-mini-high від OpenAI в математичному тесті AIME 2025. Однак, на думку співробітників OpenAI, xAI не врахувала ключову метрику «cons@64», що надає моделям ІІ 64 спроби. При використанні цієї метрики бали значно зростають і без неї моделі OpenAI можуть демонструвати найкращі результати.

Реклама

При стандартних налаштуваннях @1, коли ШІ має тільки одну спробу, Grok 3 Reasoning Beta і Grok 3 mini Reasoning набирають менше балів, ніж o3-mini-high від OpenAI. Незважаючи на це, xAI продовжує стверджувати, що Grok 3 – “найрозумніший ІІ у світі”.

Бабушкін повідомив, що OpenAI до цього вдавалася до подібних методів.

Реклама

Вас також можуть зацікавити новини:

Не пропустіть

СВІЖІ НОВИНИ