Компанія NVIDIA розповіла про свою нову мультимодальну модель на 72 млрд параметрів, яка може працювати з текстом і картинками. Розробники розповіли, чим вона може бути цікава, і повідомили, що скоро опублікують модель у відкритому доступі.
Модель називається NVLM-D-72B і входить до сімейства NVLM. У документації до нього компанія прямо згадує як суперників відкриті мовні моделі на зразок Llama 3-V 405B і закриті, як GPT-4o. Також наводяться тести нейромережі, де вона обійшла GPT-4o у бенчмарку на розпізнавання тексту OCRBench та Llama 3-V70B у тесті на розуміння природних зображень VQAv2.
Як приклад компанія наводить кілька тестових запитів до нейромережі. Наприклад, можна показати дорожні знаки багатосмугової дороги і запитати, якою смугою їхати, або дати рукописну замітку з псевдокодом і попросити перевести його в програмний код. Також нейромережа може пояснити мем на малюнку або вирішити рівняння.
У NVIDIA також планують опублікувати вихідний код NVLM та позиціонують модель як основу, яку надалі зможуть використовувати сторонні розробники у своїх програмах. Дізнатися технічні подробиці можна у документації до моделі .
Портал MacRumors повідомляє, що Apple проводить внутрішнє тестування iOS 18.2.1. Про це свідчать логи відвідування…
Носіння розумного годинника може нести потенційну шкоду для здоров’я, як свідчить нове дослідження. Вчені виявили,…
Оскільки Apple все ще поширює оновлення на базі iOS 18 і робитиме це ще кілька…
Багато хто з нас хоча б раз стикався з труднощами при підключенні до Інтернету, коли…
У соціальних мережах знову з'явилися припущення про швидкий реліз нового трейлера Grand Theft Auto VI.…
Наступного року Apple готується випустити оновлений iPhone SE 4 навесні та надтонкий iPhone 17 Air…