OpenAI не вистачає даних усього інтернету для навчання GPT-5

ЗАРАЗ ЧИТАЮТЬ

Час читання: 2 хв.

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Реклама

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

Реклама

Вас також можуть зацікавити новини:

Не пропустіть

СВІЖІ НОВИНИ