Новини України та Світу

OpenAI не вистачає даних усього інтернету для навчання GPT-5

Share
Час читання: 2 хв.

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

Скарбик Павло

Закінчив Тернопільський національний технічний університет, почав писати про IT у 2015 році. Люблю розповідати про iPhone і Mac, автомобілі, їжу, гаджети розумного будинку і роблю огляди. Також захоплююся спортом а саме баскетболом і активним відпочинком на свіжому повітрі. Головний редактор iTechua.com.

Опублікував
Скарбик Павло
  • Останні записи

    Інсайдер показав, як виглядають Galaxy S25, S25+ і S25 Ultra поруч із тонким S25 Slim

    Samsung Galaxy S25 Slim буде найтоншим смартфоном у серії Galaxy S25. Раніше ця інформація вже…

    16.01.2025

    Microsoft виправила серйозну уразливість у Windows 11, яка ставила під загрозу безпеку

    Компанія Microsoft випустила оновлення безпеки KB5007651 для Windows Defender, що усуває багаторічну проблему із захистом…

    16.01.2025

    ChatGPT звинуватили у впливі на нестачу води для боротьби з пожежами в Лос-Анджелесі

    Останніми тижнями в соціальних мережах активно обговорюється питання про доцільність обмеження використання штучного інтелекту, зокрема…

    16.01.2025

    Vodafone підвищує тарифи: нові ціни діятимуть із 30 січня

    Мобільний оператор Vodafone оголосив про підвищення вартості низки своїх тарифів, таких як SuperNet Start, Light+…

    16.01.2025

    iPhone SE 4 вперше показали на реальних фото

    Надійний інсайдер Соні Діксон поділився знімками муляжів iPhone SE четвертого покоління, вихід якого очікується в…

    16.01.2025

    iPhone 17 Air і Galaxy S25 Slim можуть мати проблеми з автономністю

    Судячи з останніх інсайдів, Samsung і Apple працюють над тонкими версіями своїх майбутніх флагманів. Свіжу…

    16.01.2025