Компанія Apple спільно з Каліфорнійським університетом, представила інноваційну модель штучного інтелекту під назвою MGIE, що надала відкритий вихідний код для широкого кола користувачів. Ця технологія дає змогу редагувати фотографії з використанням текстових команд, написаних самим користувачем.
MGIE спирається на мультимодальні мовні моделі (MLLM), щоб досліджувати та інтерпретувати команди користувачів і ефективно виконувати їх. Цей інструмент надає можливість внесення як глобальних, так і локальних змін на зображенні. Наприклад, користувач може легко регулювати яскравість, контрастність, різкість, а також застосовувати художні ефекти.
З використанням MGIE можна трансформувати форму, розмір, колір або текстуру певних областей або об’єктів на фотографії. Також передбачені функції обрізки, зміни орієнтації, зміни розміру зображення і додавання фільтрів. Додаткові можливості включають зміну фону, додавання/видалення об’єктів і багато іншого.
Інструмент MGIE доступний для громадського використання на платформі GitHub, де представлений не тільки вихідний код, а й попередньо навчені моделі. Крім того, користувачі можуть випробувати MGIE на веб-сайті Hugging Face Spaces.