Компанія NVIDIA розповіла про свою нову мультимодальну модель на 72 млрд параметрів, яка може працювати з текстом і картинками. Розробники розповіли, чим вона може бути цікава, і повідомили, що скоро опублікують модель у відкритому доступі.
Модель називається NVLM-D-72B і входить до сімейства NVLM. У документації до нього компанія прямо згадує як суперників відкриті мовні моделі на зразок Llama 3-V 405B і закриті, як GPT-4o. Також наводяться тести нейромережі, де вона обійшла GPT-4o у бенчмарку на розпізнавання тексту OCRBench та Llama 3-V70B у тесті на розуміння природних зображень VQAv2.
Як приклад компанія наводить кілька тестових запитів до нейромережі. Наприклад, можна показати дорожні знаки багатосмугової дороги і запитати, якою смугою їхати, або дати рукописну замітку з псевдокодом і попросити перевести його в програмний код. Також нейромережа може пояснити мем на малюнку або вирішити рівняння.
У NVIDIA також планують опублікувати вихідний код NVLM та позиціонують модель як основу, яку надалі зможуть використовувати сторонні розробники у своїх програмах. Дізнатися технічні подробиці можна у документації до моделі .
Стартап OpenAI офіційно оголосив про вихід загальнодоступної версії застосунку ChatGPT для користувачів ПК під управлінням…
Надійний інсайдер під ніком OnLeaks опублікував серію деталізованих зображень ще не анонсованого смартфона. Крім того,…
Коли вийшла iOS 18, Apple додала дуже цікаву фішку. Тепер iPhone автоматично перезавантажується кожні три…
Щороку ми завантажуємо мільярди додатків на смартфони — щоб швидко спілкуватися, займатися банкінгом, редагувати фото…
В Android 15 QPR2 Beta 1 Google представила нову функцію - Terminal, що дозволяє запускати…
Apple Intelligence з'явився тільки минулого місяця, і деякі з його найцікавіших функцій будуть доступні з…