Нещодавнє дослідження шести інженерів Apple виявило слабкі сторони просунутих ШІ-моделей, включаючи ChatGPT-4 від OpenAI, у виконанні надійних математичних міркувань. Дослідження показує, що зміни в структурі завдань, які здаються незначними — наприклад, заміна імен або чисел — можуть призвести до значних зниження продуктивності ШІ, з падінням точності від 0,3% до 9,2%.
Що ще відомо
Дослідження доповнює попередні висновки, які передбачають, що великі мовні моделі (LLM) використовують ймовірнісне зіставлення шаблонів, а чи не формальні логічні міркування вирішення завдань. При додаванні несуттєвої інформації, наприклад, деталей про розмір фруктів у задачі з математики, моделі ШІ зазнавали катастрофічних падінь точності, в деяких випадках до 65,7%.
Експерти вважають, що подальший прогрес ШІ вимагатиме розробки моделей, здатних обробляти абстрактні символічні операції, подібні до традиційної алгебри.