Чому бенчмарки 3DMark, Geekbench, AnTuTu та інші – марні та несправедливі

ПРОДОВЖЕННЯ ПІСЛЯ РЕКЛАМИ

Багато людей, у тому числі виробники смартфонів, використовують програми бенчмарку як індикатор продуктивності, але насправді версія бенчмарку в Play Store може не показати справжню продуктивність пристрою.

Ряд виробників послаблюють тротлінг під час тестувань

Коли випускається новий смартфон чи чіпсет, як фанати смартфонів, і виробники намагаються виміряти його результати з допомогою AnTuTu, 3DMark, Geekbench тощо.

Однак, на жаль, виробники смартфонів йдуть на хитрощі, щоб підвищити оцінки, що отримуються з бенчмарків, тому зараз неможливо говорити про чесне порівняння.

ПРОДОВЖЕННЯ ПІСЛЯ РЕКЛАМИ

Ще більше турбує те, що багато оглядачів не підозрюють про маніпуляції виробника, тому аналізують продуктивність та теплові характеристики пристрою на основі результатів, які відрізняються від реальних умов використання, що іноді призводить до неправильних висновків.

Деякі оглядачі приймають той факт, що бенчмарки не показують реальних показників, нарікаючи на недосконалі алгоритми бенчмарків, хоча насправді це саме виробники, які намагаються збентежити.

Ця стаття наочно покаже вам, як виробники маніпулюють результатами з бенчмарків.

Можна добитися правди, використовуючи інші імена пакетів

За останні 70+ пристроїв, які я використовував та тестував на бенчмарках, було виявлено, що наступні виробники змінюють тактову частоту процесора/графічного процесора та керування температором лише під час тестування .

  • Black Shark
  • Infinix
  • Meizu
  • realme (Snapdragon)
  • realme / OnePlus (MediaTek)
  • REDMAGIC
  • природних умовах
  • Xiaomi

…Майже всі китайські виробники вирують продуктивність тільки для бенчмарку додатків.

ASUS ROG Phone 6 автоматично включає режим X (режим продуктивності) та повідомляє вас про запуск тестової програми.

Режим X змінює налаштування терморегулювання, які відрізняються від поведінки у звичайних програмах, але про це повідомляється заздалегідь, і це можна відключити вручну.

Що стосується Realme, у Realme GT Neo 3 було помічено підвищення тактової частоти процесора до верхньої межі.

Виявивши, що ім’я пакета запущеного додатка є бенчмарком, ОС вищевказаного виробника встановлює верхню межу тактової частоти процесора і при цьому відключає тротлінг, тобто теплове регулювання.

І навпаки, якщо ім’я пакета відрізняється від бенчмарку, воно буде оброблятися так само, як звичайне додаток, з тротлінгом та іншими принадами реального життя.

В Android ім’я пакета можна легко змінити шляхом декомпіляції APK, тому, якщо у вас є APK, який відрізняється лише ім’ям пакета, ви отримаєте справжні результати тестів без читачів виробника.

Я завантажив модифіковані файли APK Geekbench, 3DМарк, PCMark сюди .

Geekbench – це версія, замаскована під Genshin, опублікована розробником .

  1. Встановіть версію з Play Store
  2. Встановіть модифіковану версію з наведених вище
  3. Спочатку запустіть тест за допомогою модифікованої версії
  4. Дайте температурі смартфона охолонути та виміряйте результат за допомогою версії бенчмарку з Play Store

Якщо оцінка з версії Play Store явно вища, то ви зловили виробника за вушка.

Перевірте тактову частоту процесора за допомогою програми, яка може відображати тактову частоту процесора в режимі поверх всіх вікон, наприклад Cpu Float , і якщо вона фіксується на одному рівні або легко досягає максимуму при відкритті версії дистрибутива Play Store, то, можливо, вони вихлюпують частоти і не тротлять їх, тобто не знижують при перегріві.

Якщо екранчик з моніторингом частот (оверлів) зникає, увімкніть «Дозволити оверлей» або щось на зразок «Дозволити накладання вікон» у налаштуваннях розробника. Якщо оверлей зникає при активації функції буста, то майже напевно вони читають із частотами.

Відмінності в результатах з підвищенням продуктивності та без нього

Тепер давайте подивимося, яку різницю мають версія з Play Store і перейменована версія пакета на тому самому пристрої.

Почнемо з vivo X90 Pro+ із Snapdragon 8 Gen 2.

Екстремальний стрес-тест Wild Life в 3DMark з модифікованою назвою пакету (ліворуч) показав результат від 3741 до 2436, підвищенням температури з 23°C до 37°C (збільшення на 14°C) і витратою заряду батареї на 11%.

Версія з Play Store (праворуч) показала стабільність 95,4%, максимальну температуру 49°C та споживання 16%, що далеко від результатів модифікованої версії бенчмарку (насправді тієї ж звичайної версії просто зі зміненим ім’ям пакета).

Дивлячись на результати бенчмарку з Play Store, можна зробити помилковий висновок, що vivo забезпечує високу 3D продуктивність на постійній основі, але виділяє більше тепла і споживає більше заряду батареї .

Фактично, після 30 хвилин гри в Genshin у найвищій якості результати показують середній ФПС 60 при енергоспоживання 77,61 мВт на FPS та максимальній температурі батареї близько 33°C. Результати аналогічні до модифікованої версії 3DMark.

Тому можна зробити висновок, що аналізувати 3D-продуктивність та характеристики тепловиділення пристрою за допомогою бенчмарку із Play Store – безглуздо.

Далі – Xiaomi MIX Fold 2 .

У випадку з Xiaomi MIX Fold 2 вони просто відключили тротлінг, в результаті чого пристрій нагрівся майже до 50°C, що було розцінено як перегрів, і тест завершився в середині процесу.

Це справді дурний метод бусту, який має збільшити оцінку у тесті, але зрештою навіть не проходить його. При цьому модифікована версія бенчмарку без проблем завершила тестування із максимальною температурою 42°C.

Чому застосовувати спеціальні налаштування продуктивності та теплорегуляції лише під час бенчмарку це погано?

UL Solutions, розробник 3DMark та PCMark, такі маніпляції називає порушенням умов користування, оскільки вони вводять користувачів в оману. Тому коли деякі виробники виправдовуються «Це ігровий смартфон, тому він повинен забезпечувати максимальні результати щодо продуктивності» або «Інші виробники теж так роблять», це навіть не аргумент, оскільки є порушенням умов тестування .

Крім так званого підвищення продуктивності, завдяки якому цифри виглядають добре, існують також маніпуляції з тротлінгом, коли теплове регулювання смартфона змінюється або зовсім відключається на час проведення тесту в бенчмарку.

Все це робить результати з бенчмарків безглуздими. Бенчмарки призначені не для вимірювання максимальної теоретичної продуктивності смартфона, а для порівняння його продуктивності в тих же умовах, що і при використанні інших додатків.

Який сенс у продуктивності смартфона на налаштуваннях, які не використовуються смартфоном у реальному житті? Адже якби управління частотами і температурою було таким, як при проведенні бенчмарків, телефон просто не вижив би на довгій дистанції, у нього був би набагато менший ресурс зносу (через перегрівання компонентів), він би ламався набагато частіше і мав би значно менше час автономної роботи

Було б непогано, якби виробники припинили свої махінації з бенчмарками, але поки що є люди, які задоволені чи засмучені показниками з AnTuTu, політика підвищення продуктивності для бенчмарків ніколи не зміниться.

Навіть якщо широка громадськість не зможе уникнути обману, я сподіваюся, що оглядачі на сайтах соціальних мереж, у блогах, комерційних ЗМІ тощо звернуть увагу на те, чи є отримані ними результати тестів справедливими чи ні, і чи є вони дійсно корисними даними.

Як то кажуть: «Цифри не брешуть, але брехуни використовують цифри».

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.