Американський бізнесмен Ілон Маск підтвердив побоювання експертів про брак реальних даних для навчання штучного інтелекту. У бесіді на платформі X (Twitter) з головою Stagwell Марком Пенном він заявив, що “торік людські знання, придатні для навчання ШІ, були практично вичерпані”. Ця думка перегукується із заявою колишнього головного наукового співробітника OpenAI Іллі Суцкевера, який ще в грудні на конференції NeurIPS говорив про досягнення “піку даних” в індустрії.
Що ще відомо
Маск, глава компанії xAI, запропонував рішення проблеми – використання синтетичних даних, що генеруються самими ШІ-моделями. За його словами, синтетичні дані дадуть змогу ШІ проводити самооцінку і самонавчання. Цей підхід уже активно застосовують великі компанії, включно з Microsoft, Meta (визнана в Росії екстремістською і заборонена), OpenAI і Anthropic.
За даними Gartner, 60% даних, які використовують у проєктах ШІ та аналітики у 2024 році, є синтетичними. Як приклади застосування синтетичних даних Маск навів моделі Microsoft Phi-4, Google Gemma, Anthropic Claude 3.5 Sonnet і серію моделей Llama від Meta. Використання синтетичних даних обіцяє економію коштів. Стартап Writer заявляє, що розробка їхньої моделі Palmyra X 004, майже повністю заснованої на синтетичних даних, обійшлася в $700 000 проти оціночних $4,6 млн для аналогічної моделі OpenAI.
Однак є і зворотний бік медалі. Дослідження вказують на ризик “колапсу моделі”: синтетичні дані, створені на основі наявних, можуть посилити наявні упередженості та обмежити креативність ШІ, знижуючи його функціональність.