OpenAI анонсувала свою новітню дифузійну модель Sora, яка використовує можливості тексту для створення відео. Новітня модель ШІ від розробника ChatGPT здатна генерувати відео з різною роздільною здатністю та співвідношенням сторін, а також може редагувати існуючі відео, дозволяючи швидко змінювати декорації, освітлення та стиль зйомки за допомогою текстової підказки. Sora також може генерувати відео на основі нерухомого зображення або навіть розширювати існуючі відео, заповнюючи пропущені кадри.
OpenAI повідомляє, що наразі Sora може генерувати до хвилини відео у форматі Full HD, і приклади, які ми бачили, виглядають багатообіцяючими. Ви можете переглянути цільову сторінку Sora за цим посиланням, щоб побачити більше згенерованих зразків відео.
Sora може генерувати складні сцени з кількома персонажами, специфічними типами руху та точними деталями об’єкта і фону. Модель розуміє не лише те, що користувач вказав у запиті, але й те, як ці речі існують у фізичному світі.
Вона працює за допомогою архітектури-трансформера, схожої на ChatGPT, де відео та зображення представлені у вигляді менших одиниць даних, які називаються патчами (patches). Відео, створені Sora, починаються зі статичного шуму, який модель поступово видаляє, щоб сформувати кінцевий продукт.
OpenAI повідомила, що використовує існуючі протоколи безпеки, які використовуються в DALL-E 3. Наразі Sora тестується експертами “червоної команди”, які проведуть тести та оцінять модель на предмет потенційних ризиків перед її офіційним запуском.
OpenAI також проведе переговори з політиками, митцями та освітянами, щоб побачити потенційні проблеми та варіанти використання Sora. Офіційної дати запуску поки що не повідомляється.