Компанія NVIDIA розповіла про свою нову мультимодальну модель на 72 млрд параметрів, яка може працювати з текстом і картинками. Розробники розповіли, чим вона може бути цікава, і повідомили, що скоро опублікують модель у відкритому доступі.
Докладніше
Модель називається NVLM-D-72B і входить до сімейства NVLM. У документації до нього компанія прямо згадує як суперників відкриті мовні моделі на зразок Llama 3-V 405B і закриті, як GPT-4o. Також наводяться тести нейромережі, де вона обійшла GPT-4o у бенчмарку на розпізнавання тексту OCRBench та Llama 3-V70B у тесті на розуміння природних зображень VQAv2.
Як приклад компанія наводить кілька тестових запитів до нейромережі. Наприклад, можна показати дорожні знаки багатосмугової дороги і запитати, якою смугою їхати, або дати рукописну замітку з псевдокодом і попросити перевести його в програмний код. Також нейромережа може пояснити мем на малюнку або вирішити рівняння.
У NVIDIA також планують опублікувати вихідний код NVLM та позиціонують модель як основу, яку надалі зможуть використовувати сторонні розробники у своїх програмах. Дізнатися технічні подробиці можна у документації до моделі .