Дослідники Apple розробили новий метод навчання великих мовних моделей (LLM), який дозволяє легко інтегрувати текстову та візуальну інформацію.
Результати дослідження компанії докладно викладені у науковій статті під назвою «MM1: Методи, аналіз та висновки з попереднього навчання мультимодальних LLM», демонструють новий підхід до створення більш досконалих та гнучких систем штучного інтелекту. Використовуючи різноманітний набір даних, що складається з пар «зображення – підпис», документів «зображення – текст», що чергуються, і даних, що містять тільки текст, Apple стверджує, що модель MM1 встановлює новий стандарт у здатності ШІ виконувати такі завдання, як створення підписів до зображень, відповіді на візуальні питання та формування висновків природною мовою з високим ступенем точності.
Дослідження Apple зосереджені на поєднанні різних типів навчальних даних та архітектур моделей, що дозволяє ШІ розуміти та генерувати мову на основі поєднання візуальних та лінгвістичних підказок. Ця здатність є життєво важливою для завдань, які потребують тонкого сприйняття світу, таких як інтерпретація складних зображень або відповіді на питання, що включають візуальні елементи.
У статті також підкреслюються виняткові здібності моделі MM1 до контекстного навчання, особливо найбільшої конфігурації моделі з 30 мільярдами параметрів. Ця версія, очевидно, демонструє чудові здібності до багатоступінчастих міркувань з кількох зображень з використанням підказок «ланцюжка думок», що дозволяє ШІ виконувати складні, відкриті рішення задач на основі мінімальних прикладів.
Це дослідження є частиною ширшої ініціативи Apple щодо розширення можливостей свого ШІ в умовах зростання конкуренції. Раніше Марк Гурман із Bloomberg повідомив, що Apple веде переговори з Google щодо ліцензування моделі Gemini для використання в нових функціях, які з’являться на iPhone у складі iOS 18.
Пам'ятаєте ті часи, коли телефони могли працювати кілька днів без підзарядки? Це було реально, особливо…
Компанія Xiaomi анонсувала вихід нової операційної системи HyperOS 2, яка буде заснована на Android 15.…
Бездротові технології продовжують розвиватися. Хоча організація IEEE ще не затвердила стандарт Wi-Fi 7, уже ведеться…
Здавалося б, південнокорейського гіганта Samsung Electronics вже довго переслідують невдачі, і котирування його акцій з…
Кілька днів тому в мережі з'явилася інформація, що Samsung проведе презентації серії Galaxy S25 вже…
Китайська компанія Baidu представила свої нові розумні окуляри під назвою Xiaodu AI Glasses на конференції…