복잡한 작업 자율 수행하는 AI 해외 온라인 슬롯 모델 발표…15개 벤치마크서 최고 성능

구글 딥마인드가 로봇이 스스로 보고, 생각하고, 행동할 수 있는 차세대 인공지능(AI) 모델을 공개하며 ‘물리적 에이전트’ 시대의 포문을 열었다.

구글 딥마인드는 25일(현지시간) 제미나이 로보틱스 1.5(Gemini Robotics 1.5) 모델 제품군을 발표했다. 이번에 공개된 모델은 해외 온라인 슬롯이 복잡한 다단계 작업을 자율적으로 수행할 수 있도록 설계된 것이 특징이다.

새롭게 선보인 모델은 두 가지로 구성된다. ‘제미나이 로보틱스 1.5’는 비전·언어·행동(VLA) 모델로, 시각 정보와 지시를 로봇의 동작 명령으로 변환한다. ‘제미나이 로보틱스-ER 1.5’는 비전·언어 모델(VLM)로, 물리적 세계를 추론하고 구글 검색 같은 디지털 도구를 활용해 상세한 다단계 계획을 수립한다.

구글 딥마인드는 이날부터 제미나이 로보틱스-ER 1.5를 구글 AI 스튜디오의 제미나이 API를 통해 개발자들에게 제공한다고 밝혔다. 제미나이 로보틱스 1.5는 현재 일부 파트너에게만 제공된다.

이번 모델의 가장 큰 특징은 로봇이 행동하기 전에 ‘생각’할 수 있다는 점이다. 기존 비전·언어·행동 모델들은 지시를 로봇 동작으로 직접 변환했다면, 제미나이 로보틱스 1.5는 자연어로 내부 추론과 분석 과정을 거쳐 작업을 수행한다.

예를 들어 “색깔별로 빨래를 분류하라”는 지시를 받으면, 로봇은 먼저 흰색 옷은 흰색 통에, 다른 색상은 검은색 통에 넣어야 한다고 이해한 뒤, 빨간 스웨터를 집어 검은색 통에 넣는 구체적 단계와 동작을 계획한다. 이러한 다단계 사고 과정을 통해 로봇은 복잡한 작업을 더 짧고 실행 가능한 단위로 나눌 수 있다.

구글 딥마인드는 “이 모델은 의사결정 과정을 자연어로 설명할 수 있어 투명성이 높다”며 “새로운 작업에 대한 일반화 능력도 향상됐다”고 설명했다.

제미나이 로보틱스 1.5는 서로 다른 형태의 해외 온라인 슬롯 간에도 학습을 전이할 수 있는 획기적인 능력을 보여준다. 해외 온라인 슬롯마다 모양과 크기, 감지 능력, 자유도가 달라 기존에는 한 해외 온라인 슬롯에서 학습한 동작을 다른 해외 온라인 슬롯에 적용하기 어려웠다.

하지만 이번 모델은 알로하(ALOHA) 2 해외 온라인 슬롯에서만 학습한 작업이 앱트로닉의 휴머노이드 해외 온라인 슬롯 아폴로(Apollo)나 양팔 프랑카(Franka) 해외 온라인 슬롯에서도 그대로 작동하는 것으로 나타났다. 각 해외 온라인 슬롯에 특화된 모델을 별도로 만들 필요 없이 하나의 모델로 다양한 해외 온라인 슬롯을 제어할 수 있어 학습 속도가 대폭 빨라진다.

제미나이 로보틱스-ER 1.5는 구체화된 추론에 최적화된 최초의 ‘생각하는 모델’로, 15개 학술 벤치마크에서 최첨단(SOTA) 성능을 달성했다. 평가 대상에는 구체화된 추론 질의응답(ERQA), 포인트-벤치(Point-Bench) 등이 포함됐으며 포인팅, 이미지 질의응답, 비디오 질의응답 등에서 모델의 성능을 측정했다.

캐롤리나 파라다 구글 딥마인드 로보틱스 담당 시니어 디렉터는 “제미나이 로보틱스 1.5는 물리적 세계에서 인공일반지능(AGI)을 실현하기 위한 중요한 이정표”라며 “명령에 반응하는 것을 넘어 진정으로 추론하고 계획하며 도구를 적극 활용하고 일반화할 수 있는 시스템을 만들고 있다”고 설명했다.

이정환 기자 robotstory@irobotnews.com

저작권자 © 로봇신문 무단전재 및 재배포 금지