OpenAI не вистачає даних усього інтернету для навчання GPT-5

Час читання: 2 хв.

Є ймовірність, що стрімкий розвиток нейромереж незабаром може загальмуватися. Згідно з звітом The Wall Street Journal, компаніям на кшталт OpenAI або Google потрібні величезні масиви даних для навчання та вдосконалення їх великих мовних моделей (LLM), але проблема в тому, що в інтернеті просто не вистачає якісних даних.

Автори матеріалу на The Wall Street Journal посилаються на заяви фахівця у галузі штучного інтелекту Пабло Вільялобоса з Дослідницького інституту Epoch. За його словами, мовна модель GPT-4 навчалася на 12 трильйонах токенів даних, а якщо дотримуватися законів масштабування Шиншили, наступна версія вимагає близько 60-100 трильйонів токенів. Однак у вільному доступі не вистачає щонайменше від 10 до 20 трильйонів токенів відповідної якості текстових та графічних даних. До речі, ще кілька років тому Вільялобос заявляв, що до середини 2024-го з ймовірністю 50% нейромереж перестане вистачати даних для подальшого навчання. Тоді він прогнозував, що до 2026-го така ймовірність складатиме вже 90%.

У дослідженні йдеться, що більшість доступних даних в інтернеті просто непридатні для навчання ШІ, оскільки містить безладний текст або не містить нової для нейромереж інформації. Погіршує проблему і той факт, що великі платформи, включаючи новинні агенції та соціальні мережі, закривають доступ до своїх даних і не дають дозволу компаніям на кшталт OpenAI на їх використання.

За словами глави OpenAI Сема Альтмана, вони розробляють нові способи навчання нейромереж. Є інформація, що компанія розглядає можливість створення системи оцінки вартості даних, щоби платити за них платформам. Згідно з звітом The Wall Street Journal, аналогічний підхід розглядають і в Google. А поки що в OpenAI мають намір використовувати інструмент розпізнавання мови Whisper, щоб «витягувати» відомості з аудіозаписів та відео, що знаходяться у вільному доступі до інтернету.

Усередині компанії OpenAI розглядають ще один спосіб обійти нестачу даних — генерацію високоякісних синтетичних даних, які використовувалися б для подальшого навчання нейромереж.

Скарбик Павло

Закінчив Тернопільський національний технічний університет, почав писати про IT у 2015 році. Люблю розповідати про iPhone і Mac, автомобілі, їжу, гаджети розумного будинку і роблю огляди. Також захоплююся спортом а саме баскетболом і активним відпочинком на свіжому повітрі. Головний редактор iTechua.com.

Наступні Україна може перекрити Starlink для росіян - Федоров »

Попередні « Як швидко почистити пам'ять у Viber без видалення фото й чатів

Залишити коментар

Опублікував

Скарбик Павло

Tags: ChatGPTOpenAI

02.04.2024 23:23

Microsoft виправила серйозну уразливість у Windows 11, яка ставила під загрозу безпеку

Компанія Microsoft випустила оновлення безпеки KB5007651 для Windows Defender, що усуває багаторічну проблему із захистом… Read More

Vodafone підвищує тарифи: нові ціни діятимуть із 30 січня

Мобільний оператор Vodafone оголосив про підвищення вартості низки своїх тарифів, таких як SuperNet Start, Light+… Read More

ChatGPT звинуватили у впливі на нестачу води для боротьби з пожежами в Лос-Анджелесі

Останніми тижнями в соціальних мережах активно обговорюється питання про доцільність обмеження використання штучного інтелекту, зокрема… Read More

Останні записи

Смартфони

Інсайдер показав, як виглядають Galaxy S25, S25+ і S25 Ultra поруч із тонким S25 Slim

Samsung Galaxy S25 Slim буде найтоншим смартфоном у серії Galaxy S25. Раніше ця інформація вже…

16.01.2025

Новини України та Світу

Microsoft виправила серйозну уразливість у Windows 11, яка ставила під загрозу безпеку

Компанія Microsoft випустила оновлення безпеки KB5007651 для Windows Defender, що усуває багаторічну проблему із захистом…

16.01.2025

Новини України та Світу

ChatGPT звинуватили у впливі на нестачу води для боротьби з пожежами в Лос-Анджелесі

Останніми тижнями в соціальних мережах активно обговорюється питання про доцільність обмеження використання штучного інтелекту, зокрема…

16.01.2025

Новини України та Світу

Vodafone підвищує тарифи: нові ціни діятимуть із 30 січня

Мобільний оператор Vodafone оголосив про підвищення вартості низки своїх тарифів, таких як SuperNet Start, Light+…

16.01.2025

Смартфони

iPhone SE 4 вперше показали на реальних фото

Надійний інсайдер Соні Діксон поділився знімками муляжів iPhone SE четвертого покоління, вихід якого очікується в…

16.01.2025

Смартфони

iPhone 17 Air і Galaxy S25 Slim можуть мати проблеми з автономністю

Судячи з останніх інсайдів, Samsung і Apple працюють над тонкими версіями своїх майбутніх флагманів. Свіжу…

16.01.2025

OpenAI не вистачає даних усього інтернету для навчання GPT-5

Пов’язана публікація

Останні записи

Інсайдер показав, як виглядають Galaxy S25, S25+ і S25 Ultra поруч із тонким S25 Slim

Microsoft виправила серйозну уразливість у Windows 11, яка ставила під загрозу безпеку

ChatGPT звинуватили у впливі на нестачу води для боротьби з пожежами в Лос-Анджелесі

Vodafone підвищує тарифи: нові ціни діятимуть із 30 січня

iPhone SE 4 вперше показали на реальних фото

iPhone 17 Air і Galaxy S25 Slim можуть мати проблеми з автономністю