Нова модель Gemini Robotics 1.5 дозволить роботам "гуглити" інформацію в інтернеті

Євгеній Демківський - 26 вересня, 13:20

Google DeepMind представила оновлені моделі штучного інтелекту Gemini Robotics 1.5 та Gemini Robotics‑ER 1.5, які дозволяють роботам виконувати складні багатокрокові завдання та навіть звертатися до інтернету для пошуку інформації. За словами керівниці напряму робототехніки DeepMind Кароліни Паради, нова система дає змогу машинам "думати на кілька кроків уперед" перед тим, як діяти.

Якщо попередні версії могли виконувати лише прості інструкції на кшталт складання аркуша паперу чи розстібання блискавки, то тепер роботи здатні сортувати білизну за кольорами, пакувати валізу з урахуванням прогнозу погоди в конкретному місті чи розділяти сміття на переробку, компост і відходи відповідно до локальних правил, знайдених у мережі.

Gemini Robotics‑ER 1.5 аналізує оточення та використовує цифрові інструменти, зокрема Google Пошук, щоб сформувати план дій. Потім він передає інструкції моделі Gemini Robotics 1.5, яка завдяки зору та мовному розумінню виконує завдання крок за кроком.

Ще одне нововведення — можливість "навчання між роботами". DeepMind продемонструвала, що навички, отримані дворуким роботом ALOHA2, можуть без додаткового налаштування працювати на роботі Franka чи гуманоїді Apollo від Apptronik. Це означає, що один і той самий набір моделей може керувати різними типами роботів і передавати їм досвід.

Оновлення вже доступне розробникам: Gemini Robotics‑ER 1.5 можна протестувати через Gemini API у Google AI Studio, тоді як доступ до Gemini Robotics 1.5 наразі отримали лише вибрані партнери.