OpenAI не вистачає даних усього інтернету для навчання GPT-5

Час читання: 2 хв.

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

ЗАРАЗ ЧИТАЮТЬ

Apple готує до випуску оновлені версії HomePod mini і Apple TV

iPhone 17 Air і Galaxy S25 Slim можуть мати проблеми з автономністю

Які SMS варто видалити з телефону: важливі поради для безпеки

Microsoft прогнозує, що людство вступає в етап глобальних технологічних змін

Топ-5 безкоштовних браузерів для анонімного серфінгу

До 2035 року Neuralink чипує мільйони: чого очікувати

Samsung Galaxy S25 перевершать очікування в сфері штучного інтелекту

Марк Цукерберг розкритикував Apple: “Їхні інновації залишились у минулому”

Які телевізори обрати для спальні: найкращі моделі 2025 року

Названо 10 бюджетних смартфонів початку 2025 року

Вас також можуть зацікавити новини:

Зміни в камерах iPhone 17 Pro і 17 Pro Max: чого очікувати від нових...

Велика Британія стане лідером у світі з розвитку ШІ

Не пропустіть

Nintendo офіційно анонсувала Switch 2

У США показали новітні морські дрони Tsunami з рекордною вантажопідйомністю

Android 16 отримає одну з найкращих функцій OxygenOS

Google Chrome працює над інструментом для блокування спливаючої реклами

Samsung закликає користувачів Galaxy S21 встановити нове оновлення ПЗ

Новий iPhone SE 2025 отримав дизайн, схожий на моделі Apple 2009...

СВІЖІ НОВИНИ

Nintendo офіційно анонсувала Switch 2

У США показали новітні морські дрони Tsunami з рекордною вантажопідйомністю

Android 16 отримає одну з найкращих функцій OxygenOS

Google Chrome працює над інструментом для блокування спливаючої реклами

Samsung закликає користувачів Galaxy S21 встановити нове оновлення ПЗ

Новий iPhone SE 2025 отримав дизайн, схожий на моделі Apple 2009 року

Суперінтелект уже близько: голова OpenAI зробив сенсаційну заяву

ТОП-3 безкоштовних антивіруси, які варто встановити вже зараз

Інсайдер показав, як виглядають Galaxy S25, S25+ і S25 Ultra поруч із тонким S25...

Microsoft виправила серйозну уразливість у Windows 11, яка ставила під загрозу безпеку