Він матиме складні мультимодальні можливості, володіти людиноподібним спілкуванням, мовою та контентом, розуміти та інтерпретувати зображення, продуктивно та ефективно кодувати, управляти даними та аналітикою та використовуватиметься розробниками для створення нових додатків та API для штучного інтелекту. Очікується, що в найближчому майбутньому Gemini існуватиме (або навіть керуватиме) більшістю продуктів та послуг Google.
За останній рік війна штучного інтелекту (ШІ) між OpenAI, Microsoft, Google та іншими компаніями призвела до посилення революційної сфери, коли кожен з них конкурував віч-на-віч з іншими і випускав нові і більш потужні моделі.
Хоча Google не була першою на ринку штучного інтелекту, тепер вона має намір піднятися на вершину Олімпу за допомогою Gemini — імовірно найпотужнішою моделлю штучного інтелекту, яка будь-коли існувала. Офіційно про Gemini мало що відомо, оскільки розробники дотримуються найсуворішої конфіденційності.
Однак за допомогою досліджень та аналізу, а також шляхом об’єднання вже наявної інформації, користувачі та дослідники ШІ зуміли створити майже повну картину про Gemini.
З самого початку, коли 10 травня під час конференції розробників введення-виведення Google сам генеральний директор Сундар Пічаї вперше анонсував Gemini, стало зрозуміло одне: Google створює ШІ наступного покоління. Проект, очолюваний командами Google Brain Team та DeepMind, заснований на PaLM 2.
PaLM 2, або Pathways Language Model 2 – це основна технологія, яку Google використовує для реалізації можливостей штучного інтелекту у всьому своєму наборі продуктів. Сюди входять продукти та послуги Google Cloud, Gmail, Google Workspace, апаратні пристрої, такі як смартфон Pixel або термостат Nest, і, звичайно, знаменитий чат-бот Bard зі штучним інтелектом.
У той час Gemini все ще знаходився в режимі попередньої розробки та навчання, але Пічаї розповів, що відрізнятиме новий ШІ від інших моделей.
Gemini виводить мультимодальний штучний інтелект за межі загальноприйнятого.
“Gemini був створений з нуля як мультимодальний”, – це була ключова фраза Пічаї, і якщо існує одне слово, яке повністю описує Gemini, то це, без сумніву, “multimodal”. Хоча багато хто плутає мультимодальний ШІ з будь-яким ШІ, який може працювати з різним контентом, наприклад зображення або текст, для Google цей термін означає набагато більше.
Нещодавно, 24 жовтня, під час звіту Alphabet про прибутки та збитки за третій квартал 2023 року, Пічаї вказав на очевидні ознаки того, який тип мультимодального ШІ вони створюють.
“Ми просто закладаємо основу того, що я вважаю серією моделей наступного покоління, які ми випускатимемо протягом 2024 року”, – сказав Пічаї, – “І темпи інновацій надзвичайно вражають”.
Так чи інакше ми вже стали свідками мультимодального ШІ. Такі компанії, як OpenAI, відповідальна за випуск ChatGPT або Microsoft, пропонують різні генеративні технології штучного інтелекту, які можуть працювати із зображеннями, текстом, даними і навіть кодом. Однак усі ці ранні системи штучного інтелекту лише незначно торкаються мультимодальної технології, оскільки інтеграція різного контенту та форматів даних у них неефективна.
Причина, через яку генеративний ШІ має такий приголомшливий успіх, полягає в тому, що вперше машина може імітувати те, що роблять люди. Але що можуть зробити люди? Ми можемо не тільки спілкуватися, писати код, звіти та створювати зображення, ми можемо робити все це в єдиній зв’язці.
Людський мозок напрочуд складний — він може одночасно інтерпретувати та розуміти різні формати даних, включаючи текст, слова, звуки та зображення. Це дозволяє нам осмислювати навколишній світ, реагувати на зовнішні стимули та вирішувати проблеми творчими та інноваційними способами. І в цьому вся суть Gemini від Google – новий ІІ, який практично наближається до того, що і як насправді роблять люди: багатозадачний мультимодальний ШІ.
Є тільки один спосіб створити елегантний та ефективний мультимодальний ШІ — це поєднання різних моделей ШІ в одну більш досконалу. Моделі машинного навчання та штучного інтелекту, такі як обробка графіків, комп’ютерний зір, обробка звуку, мовні моделі, кодування та програмування, а також 3D-моделі повинні бути інтегровані та узгоджені для досягнення синергії при розробці мультимодального штучного інтелекту. Це монументальне та складне завдання, і Google хоче вивести цю концепцію на новий, безпрецедентний рівень.
Ще одна велика різниця між Gemini та іншими моделями (такими як ChatGPT або Bing Chat) полягає в тому, що в даний час розробникам надається обмежений рівень доступу до цієї технології.
Але відразу ж «Близнюки» ламають цю тенденцію – Google вже запевнив, що Gemini буде доступним також для розробників та користувачів хмари. Пічаї сказав під час розмови з інвесторами у третьому кварталі 2023 року:
«Ми розробляємо Gemini таким чином, щоб він був доступний у різних розмірах та можливостях, і ми негайно будемо використовувати його у всіх наших продуктах усередині компанії, а також надавати його як розробникам, так і клієнтам хмарних технологій».
Пічаї додав, що Gemini буде «високоефективною завдяки інструментам та інтеграції API». Це означає, що Google не просто працює над новим ШІ, який стане новаторством для Інтернету, але й створює легкі та потужні версії Gemini, які розробники можуть використовувати та налаштовувати для створення власних програм та API ІІ.
Розробники будуть використовувати Gemini для створення нових програм ШІ та API. У середині вересня з’явилися новини про те, що Google почав надавати користувачам доступ до ранньої версії Gemini. Природно, як і очікувалося, з’явилися перші витоку інформації про «Близнюків».
15 жовтня розробник Javascript Бедрос Памбукян шокував світ першими скріншотами того, що здавалося Gemini, інтегрованим у Makersuite. Пакет MakerSuite від Google, випущений на початку 2023 року та працюючий на платформі PaLM 2, використовується розробниками для створення програм штучного інтелекту.
MakerSuite – це, по суті, ШІ для створення ШІ. Він має простий інтерфейс користувача, за допомогою якого розробники можуть створювати інструменти генерації коду, програми для обробки природної мови (NLP) і багато іншого.
Памбукян – перший, хто повідомив про інтеграцію Gemini у MarketSuite, він розкрив верхівку айсберга мультимодальних можливостей Gemini. Витік показує, що Gemini вже має можливості розпізнавання тексту та об’єктів і може писати коментарі та розуміти підказки, що поєднують довільний текст із зображеннями.
Порівнюючи Gemini з ChatGPT, багато експертів говорять про параметри. Параметри в системі ШІ – це змінні, значення яких коригуються або налаштовуються на етапі навчання і які ШІ використовує для перетворення вхідних даних у вихідні. Загалом, що більше параметрів має ІІ, то він складніше.
ChatGPT 4.0, найпросунутіший з нині діючих ШІ, має 1,75 трильйона параметрів. Повідомляється, що Gemini перевищує це число – у звітах стверджується, що він матиме 30 трильйонів або навіть 65 трильйонів параметрів. Але потужність системи штучного інтелекту полягає у великій кількості параметрів.
Дослідження SemiAnalysis запевняє нас, що Gemini «розіб’є» ChatGPT 4.0. SemiAnalysis очікує, що до початку 2024 року Gemini зможе перевершити ChatGPT 4.0 у п’ять разів, і потенційно стане у 20 разів потужнішим.
Хоча, як уже згадувалося, мультимодальні можливості ChatGPT все ще мінімальні (він може працювати з мовою та кодом, але не із зображеннями), Gemini об’єднає все це в єдине ціле.
«Google Gemini є мультимодальним, тобто може обробляти та генерувати текст, зображення та інші типи даних. Це робить його більш універсальним, ніж ChatGPT, який здатний обробляти лише текст», – йдеться у звіті SemiAnalysis.
SemiAnalysis додав, що Google “вклала безпрецедентні обчислювальні потужності” у навчання Gemini, перевищивши GPT-4. Для навчання Gemini Google використовує передові навчальні чіпи, відомі як TPUv5. Повідомляється, що ці чіпи є єдиною технологією у світі, здатною забезпечити спільну роботу 16384 чіпів. Ці суперчіпи – секрет, який дозволяє Google навчати таку потужну модель.
Дослідники SemiAnalysis кажуть: «В даний час ніякі інші організації в цій галузі не мають подібного потенціалу для проведення такого навчання».
Але навчання моделі ІІ – це не лише чіпи, а й дані. А коли справа доходить до даних, Google є одним із правлячих королів. “Google має велику колекцію даних, що містять тільки код, що оцінюється приблизно в 40 трильйонів токенів, і цей факт вже підтверджений”, – додав SemiAnalysis.
Сорок трильйонів токенів еквівалентні сотням петабайт чи змісту мільйонів книг. За даними SemiAnalysis, один тільки набір даних Google вчетверо більше, ніж усі дані, що використовуються для навчання ChatGPT 4.0, які включають як кодові, так і некодові дані.
Так само, як PaLM 2 лежить в основі всього бренду Google, очікується, що Gemini зробить те саме для штучного інтелекту. Google дбає про Gemini і очікує, що ця технологія зросте і стане основою всього штучного інтелекту, вбудованого та інтегрованого в кожен продукт та послугу Google.
Які кінцеві продукти та послуги ми побачимо на базі Gemini? Якщо він замінить PaLM 2, Gemini забезпечуватиме підтримку всього: від Карт до Документів та Перекладача, всього середовища та сервісів Google Workspace та Cloud, а також програмного та апаратного забезпечення та нових продуктів.
Хоча точних термінів виходу Gemini не існує, очікується, що він вийде до кінця 2023 року або початку 2024 року. Google повністю прихильний до створення більш потужного, універсального та контекстно-залежного ШІ, здатного розуміти світ і взаємодіяти з ним новими та безпрецедентними способами.
Програмісти будуть використовувати Gemini для кодування, автоматизації і поліпшення хмарних і периферійних операцій, збільшення продажів, а також інтеграції в чат-ботів і віртуальних помічників усередині технічних смартфонів Google, додатків, API і багато іншого.
Якщо 2023 буде вважатися роком, коли ШІ стане широко відомий і почне використовуватися, то 2024 дійсно може стати роком Gemini.
У мене теж була ситуація, коли інтернет постійно "тупив", а гаджети ледве ловили Wi-Fi. Виявилося,…
А ви колись замислювалися, як саме зараз користуєтеся технологіями? От спробуйте подумки пригадати. Це важливо,…
Наразі всі "прошки" від iPhone 14 до iPhone 16 Pro мають фіксовану діафрагму з апертурою…
Багато людей не вимикають Wi-Fi на смартфоні на ніч, і, чесно кажучи, це не найкраща…
Четвертий рік поспіль виручка від продажів AirPods від Apple перевищує 18 млрд доларів щорічно. Що…
Якщо вам набрид постійний потік повідомлень на Android, то, здається, Google працює над тим, щоб…