Microsoft представила невелику модель ШІ, але потужну як ChatGPT і здатну працювати на телефонах

ЗАРАЗ ЧИТАЮТЬ

Час читання: 2 хв.

Інструменти штучного інтелекту, такі як Microsoft Copilot, OpenAI ChatGPT або Google Gemini, та моделі, що їх підтримують, розміщуються у хмарах з величезними потужностями. Ці моделі мають мільярди або навіть трильйони параметрів і, звичайно, не можуть працювати на смартфонах або комп’ютерах. Однак компанія Microsoft представила малогабаритну модель Phi-3 Mini, яка може запропонувати продуктивність, аналогічну найбільшим мовним моделям на ринку.

Реклама

Phi-3 Mini, одна з трьох компактних мовних моделей ШІ, над якими працює Microsoft, має вагу 3,8 млрд. параметрів. Найближчим часом Microsoft планує доповнити цю родину моделями Phi-3 Small (7 млрд параметрів) та Phi-3 Medium (14 млрд). Microsoft стверджує, що Phi-3 Mini, незважаючи на свої невеликі розміри, за потужністю не поступається іншим величезним моделям, які в 10 разів більші за неї.

Згідно з даними, наданими Microsoft, які ви можете бачити на зображенні нижче, Phi-3 Mini може конкурувати з GPT-3.5 зі 175+ млрд параметрів, на якому працює ChatGPT, моделлю Mixtral 8x7B від Mistral та моделлю Claude 3 Sonnet від Anthropic. Не забувайте, що Phi-3 Mini – це модель ШІ, яка працює на пристрої, як смартфони, і не потребує підключення до хмари.

Як правило, для “інтелектуальніших” моделей ШІ потрібно більше параметрів. Параметри в ШІ – це змінні, які модель дізнається у процесі навчання. Це внутрішні змінні, які модель використовує для прогнозування чи ухвалення рішень. Більшість параметрів зазвичай означає більш глибоке розуміння ваших запитів. Однак паралельно зростають і вимоги до обчислень.

З іншого боку, дослідники Microsoft стверджують, що досягли дивовижних результатів у Phi-3 Mini за рахунок поліпшення самих навчальних даних. Сучасні масивні моделі ШІ навчаються на “усім”, що є в Інтернеті та в бібліотеках. У цьому наборі даних можуть бути як непотрібні, так і корисні речі. Microsoft навчала Phi-3 Mini на ретельно підібраному наборі даних, що складається з високоякісного веб-контенту та синтетично згенерованого матеріалу, розробленого на основі попередніх моделей Phi. Це забезпечило високу продуктивність моделі її розміру. Одним словом, наголос було зроблено на якість, а не на кількість.

При цьому модель може одночасно обробляти до 4 000 токенів контексту, а також доступна спеціальна версія із 128 токенами. Microsoft зробила цю модель доступною з відкритим вихідним кодом на Azure, Hugging Face та Ollama. Найближчим часом компанія планує запустити Phi-3 Small (7B параметрів) та Phi-3 Medium (14B параметрів).

Реклама

Вас також можуть зацікавити новини:

Не пропустіть

СВІЖІ НОВИНИ