Дослідники Apple розробили новий метод навчання великих мовних моделей (LLM), який дозволяє легко інтегрувати текстову та візуальну інформацію.
Результати дослідження компанії докладно викладені у науковій статті під назвою «MM1: Методи, аналіз та висновки з попереднього навчання мультимодальних LLM», демонструють новий підхід до створення більш досконалих та гнучких систем штучного інтелекту. Використовуючи різноманітний набір даних, що складається з пар «зображення – підпис», документів «зображення – текст», що чергуються, і даних, що містять тільки текст, Apple стверджує, що модель MM1 встановлює новий стандарт у здатності ШІ виконувати такі завдання, як створення підписів до зображень, відповіді на візуальні питання та формування висновків природною мовою з високим ступенем точності.
Дослідження Apple зосереджені на поєднанні різних типів навчальних даних та архітектур моделей, що дозволяє ШІ розуміти та генерувати мову на основі поєднання візуальних та лінгвістичних підказок. Ця здатність є життєво важливою для завдань, які потребують тонкого сприйняття світу, таких як інтерпретація складних зображень або відповіді на питання, що включають візуальні елементи.
У статті також підкреслюються виняткові здібності моделі MM1 до контекстного навчання, особливо найбільшої конфігурації моделі з 30 мільярдами параметрів. Ця версія, очевидно, демонструє чудові здібності до багатоступінчастих міркувань з кількох зображень з використанням підказок «ланцюжка думок», що дозволяє ШІ виконувати складні, відкриті рішення задач на основі мінімальних прикладів.
Це дослідження є частиною ширшої ініціативи Apple щодо розширення можливостей свого ШІ в умовах зростання конкуренції. Раніше Марк Гурман із Bloomberg повідомив, що Apple веде переговори з Google щодо ліцензування моделі Gemini для використання в нових функціях, які з’являться на iPhone у складі iOS 18.
З'явились точні дані щодо акумуляторів нового iPhone 16. В Apple традиційно не розголошують точну ємність…
Телефони Galaxy S25 вже не за горами, і вони зіткнуться з серйозними труднощами з боку…
Наші експерти склали добірку з п'яти найкращих і найбюджетніших смартфонів з хорошими IPS-екранами. Хто увійшов…
2024 рік став переломним для технологій, які не лише змінили окремі галузі, а й наблизили…
Обробка запитів за допомогою генеративного штучного інтелекту — це серйозне навантаження для дата-центрів, які одночасно…
Завдяки опублікованим індійським ресурсом фото та інформації стало відомо, що базовий Redmi Note 14 4G…