비디오 기반 '세상 이해'로 자율성 극대화

메타(Meta)가 로봇이 현실 세계에서 더욱 효율적이고 자율적으로 작동하도록 지원하는 월드 모델인 'V-제파(JEPAㆍJoint Embedding Predictive Architecture 2)'를 11일(현지 시각) 발표했다.  이 모델은 로봇 등 AI 에이전트가 물리적 세계를 이해하고, 그들의 행동에 대한 반응을 예측할 수 있도록 지원한다. 

메타는 이러한 기능은 "행동 전에 생각하는" AI 에이전트를 개발하는 데 필수적이며, V-제파 2가 '고급 기계 지능(AMIㆍadvanced machine intelligence)' 개발이라는 최종 목표 달성을 위한 의미 있는 진전을 상징한다고 밝혔다.

메타에 따르면, 인간은 자신의 행동이나 다른 사람의 행동에 따라 물리적 세계가 어떻게 변화할지를 예측할 수 있는 능력을 가지고 있다. 예를 들어, 테니스공을 위로 던지면 중력이 공을 끌어내린다는 것을 직관적으로 알고, 붐비는 장소를 걸을 때는 목적지를 향하면서 사람과 장애물에 부딪히지 않도록 조심한다.

이처럼 사람은 주변 세계를 관찰하면서 내면적인 세계 모델을 형성하고, 이를 통해 가상의 행동이 초래할 결과를 예측하는 ‘물리적 직관(physical intuition)’을 갖추게 된다. 학습이 아니라 직관적으로 현실을 관찰해 터득하는 것이다.

12억 개의 매개변수를 가진 V-제파2 모델은 물리적 세계의 이해, 예측, 계획 기능을 지원한다. 덕분에 로봇이나 AI 에이전트는 제한된 훈련만으로도 낯선 환경과 작업에 적응하고 업무를 수행할 수 있다.

V-제파 2는  추가적인 사람의 개입(주석) 없이 두 단계의 훈련 과정을 거친다.  '자기 지도 학습 단계'에선 100만 시간 이상의 비디오와 100만 장의 이미지에서 물리적 상호작용 패턴을 스스로 학습한다. '행동 조건부 학습(Action-conditioned learning) 단계'에선 약 62시간 분량의 로봇 제어 데이터를 활용하여 모델이 결과를 예측할 때 에이전트의 행동을 고려하도록 한다. 행동 조건부 학습은 AI 모델이 특정 행동을 했을 때 어떤 결과가 나타날지 예측하도록 학습하는 단계를 의미한다. 이 과정을 통해 V-제파 2는 계획 및 폐쇄 루프 제어 작업에 적용 가능해진다.  폐쇄 루프 제어는 로봇이 행동을 수행하는 동안에도 실시간으로 환경 변화와 자신의 행동 결과를 예측하고, 예측과 실제가 다를 경우 행동을 수정하거나 조정하여 목표를 향해 나아가도록 한다.

메타는 이미 실험실 내 로봇으로 V-제파2를 테스트했으며, 픽 앤 플레이스(pick-and-place)와 같은 일반적인 로봇 작업에서 우수한 성능을 보였다고 밝혔다. 내부 테스트 결과, 이 모델은 새로운 물체와 환경에 대한 뛰어난 일반화 능력을 보여주며, 처음 접하는 환경에서도 픽 앤 플레이스 작업 성공률이 65%에서 80%에 달했다.

메타의 최고 AI 과학자 얀 르쿤(Yann LeCun)은 "우리는 월드 모델이 로봇 공학의 새로운 시대를 열 것이라고 믿는다"며, "이는 실제 세계 AI 에이전트가 엄청난 양의 로봇 훈련 데이터 없이도 일상 업무와 물리적 작업을 돕도록 할 것"이라고 강조했다.

 

저작권자 © 로봇신문 무단전재 및 재배포 금지