Новини України та Світу

OpenAI не вистачає даних усього інтернету для навчання GPT-5

Share
Час читання: 2 хв.

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

Скарбик Павло

Закінчив Тернопільський національний технічний університет, почав писати про IT у 2015 році. Люблю розповідати про iPhone і Mac, автомобілі, їжу, гаджети розумного будинку і роблю огляди. Також захоплююся спортом а саме баскетболом і активним відпочинком на свіжому повітрі. Головний редактор iTechua.com.

Опублікував
Скарбик Павло
  • Останні записи

    Бюджетні моделі Redmi Note 14: розкрито вигляд і параметри

    Завдяки опублікованим індійським ресурсом фото та інформації стало відомо, що базовий Redmi Note 14 4G…

    14.12.2024

    Apple знову критикують за оманливі заголовки, створені ШІ

    Компанія Apple перебуває під пильною увагою після запуску своєї нової функції Apple Intelligence, що працює…

    14.12.2024

    Зовнішній вигляд iPhone 17 зміниться: перші рендери розкривають новий дизайн

    Витоки та рекламні візуалізації, що нещодавно з'явилися, дають змогу зазирнути в майбутнє серії iPhone 17…

    14.12.2024

    Користувачі Windows 11 скаржаться на проблеми після незначного оновлення

    Користувачі Windows 11, які встановили накопичувальне оновлення, що вийшло на цій накопичувальне оновлення, зіткнулися з…

    14.12.2024

    У мережі показали нову Nintendo Switch 2

    На форумі Reddit в розділі r/GamingLeaksAndRumour s з'явилися фотографії передбачуваної консолі Nintendo Switch 2 у…

    14.12.2024

    Користувачі ноутбуків на чіпах Snapdragon скаржаться на серйозну проблему

    Покупці часто повертають у магазини ноутбуки на базі Arm-процесорів. Про це повідомляє портал Tom's Hardware…

    14.12.2024