에고제로, 인간의 일상 동작을 그대로 학습하는 pc 슬롯 머신 게임 훈련 시스템

▲ pc 슬롯 머신 게임이 오븐의 문을 여는 훈련을 하고 있다. (사진=뉴욕대)
▲ pc 슬롯 머신 게임이 오븐의 문을 여는 훈련을 하고 있다. (사진=뉴욕대)

뉴욕대와 UC 버클리 공동 연구팀이 인간의 시점(1인칭 시점)에서 수집한 시연(데모)데이터를 기반으로, 로봇을 훈련시킬 수 있는 새로운 학습 시스템인 ‘에고제로(EgoZero)’를 개발했다고 밝혔다.

에고제로는 메타(Meta)가 개발한 증강현실(AR)용 스마트 글래스 ‘프로젝트 아리아(Project Aria)’를 활용해, 스마트 글래스 착용자의 시점에서 3D 작업 시연 데이터를 자동으로 수집한다. 이 시스템은 다수의 센서와 모션 캡처 장비 없이도 간편하게 인간의 행동 데이터를 기록하고, 이를 로봇 학습에 직접 활용할 수 있도록 설계됐다.

▲ 인간 시연 데이터의 수집과 pc 슬롯 머신 게임 훈련 과정
▲ 인간 시연 데이터의 수집과 pc 슬롯 머신 게임 훈련 과정

연구팀에 따르면, 청소, 요리, 식기세척, 세탁 등 일상적인 수작업을 수행할 수 있는 로봇 개발을 위해서는 대규모의 주석 데이터와 시연 영상이 필수적이다. 기존에는 여러 대의 카메라, 손목 센서, 모션 캡처 장치 등이 필요했지만, 에고제로는 스마트 글래스 하나만으로도 인간의 행동을 정밀하게 3D로 재현할 수 있다. 

논문 공동 제1저자인 아데미 아데니지는 “기존 연구와 달리, 에고제로는 스마트 글래스만으로 3D 표현을 추출할 수 있으며, 로봇이 단 20분의 인간 시연만으로도 새로운 작업을 학습할 수 있다”고 설명했다. 사람이 로봇을 원격에서 조작하는 과정은 필요 없다.

에고제로는 실제 환경에서 수집된 '자기중심적(egocentric)' 인간 시연으로부터 로봇이 실행할 수 있는 완전한 조작 행동을 추출할 수 있다. 또한 인간의 시각 정보를 로봇 형태에 관계없는 '상태 표현(state representation)'으로 압축하고,  로봇의 형태, 공간, 의미 수준에서 일반화가 가능한 트랜스포머 기반의 폐루프(closed-loop) 정책 학습을  수행한다.

연구팀은 실제 집 환경에서 오븐 열기, 칠판지우기, 수건 접기, 책꼽기 등 일상적인 작업을 시연한 영상을 수집해 로봇에게  머신러닝 알고리즘으로 훈련시켰고, 총 7개의 작업을 로봇 팔 ‘프랑카 판다(Franka Panda)’에 적용했다. 실험 결과 약 70%의 작업 성공률을 달성했으며, 작업당 단 20분의 데이터 수집만으로도 제로샷(zero-shot) 전이가 가능함을 입증했다. 

연구팀은 “에고제로의 핵심적인 기여는 로봇 학습에 별도의 로봇 데이터가 필요 없고, 인간의 시연만으로도 학습이 가능하다는 점”이라며, “이 기술은 향후 로봇의 대규모 도입과 실생활 활용에 기여할 것”이라고 밝혔다.

이번 연구는 사전 논문 공개 사이트 ‘아카이브(arXiv)’를 통해 발표됐다.(논문 제목:Robot Learning from Smart Glasses)이다.

저작권자 © 로봇신문 무단전재 및 재배포 금지