OpenAI не вистачає даних усього інтернету для навчання GPT-5

ПРОДОВЖЕННЯ ПІСЛЯ РЕКЛАМИ

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

ПРОДОВЖЕННЯ ПІСЛЯ РЕКЛАМИ

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

Якщо ви знайшли помилку, будь ласка, виділіть фрагмент тексту та натисніть Ctrl+Enter.

Підписуйтесь на нас в Google News, Facebook та TikTok 

РЕКЛАМА

Закінчив Тернопільський національний технічний університет, почав писати про IT у 2015 році. Люблю розповідати про iPhone і Mac, автомобілі, їжу, гаджети розумного будинку і роблю огляди. Також захоплююся спортом а саме баскетболом і активним відпочинком на свіжому повітрі. Головний редактор iTechua.com.