확산 기반 슬롯버프 파지 프레임워크 ‘그래스프젠’ 공개
6 자유도 슬롯버프 조작의 새로운 전환점

▲ 확산 노이즈 예측 네트워크를 위한 아키텍처
▲ 확산 노이즈 예측 네트워크를 위한 아키텍처

엔비디아가 다양한 물체를 정밀하게 파지(grasping)할 수 있는 인공지능 프레임워크인 '그래스프젠(GraspGen)'을 공개했다.

이 프레임워크는 복잡하고 예측 불가능한 환경에서도 6자유도를 기반으로 정밀한 물체 파지동작을 실현할 수 있다.  처음보는 물건도 똑똑하게 집을 수 있는 로봇 손 기술이다. 

6자유도 물체 파지는 특정한 공간에서 물체를 조작하는 데 필요한 3가지 위치 이동(앞/뒤, 좌/우, 위/아래)과 3가지 회전(롤, 피치, 요) 동작 등 총 6가지 축 방향의 움직임을 의미한다. 6자유도가 가능해야 로봇은 공간 내에서 물체를 원하는 자세로 정확하게 잡고 조작할 수 있다. 특히 사람처럼 손과 팔을 자유자재로 움직여야 하는 휴머노이드 로봇은 6자유도 파지 동작 없이는 복잡한 일상 작업 수행이 어렵다.

로봇 파지는 산업 자동화, 물류, 서비스 로봇, 휴머노이드 등 다양한 분야에서 기본적이면서도 결정적인 기술이다. 하지만 수십 년간의 연구에도 불구하고 미지의 환경이나 복잡한 조건 하에서 유연하고 신뢰할 수 있는 6 자유도 파지 기술 구현은 여전히 난제로 남아 있다.

▲ 연구팀은 다양하고 복잡한 시뮬레이션 환경에서 슬롯버프 손을 테스트했다.  
▲ 연구팀은 다양하고 복잡한 시뮬레이션 환경에서 로봇 손을 테스트했다.  

엔비디아의 그래스프젠은 이 같은 문제를 해결하기 위해 '확산 기반 생성 모델(diffusion-based generative model)'을 도입한 프레임워크다. 이 모델은 물체의 3D 포인트 클라우드를 기반으로 가능한 물체 파지 자세를 점진적으로 생성하며, 복잡한 객체와 다양한 제약 조건 하에서도 다중의 유효한 파지 후보를 제시한다. 

기존 파지 플래너들이 정밀한 객체의 자세 추정이나 복수 시점 스캔에 의존했던 반면, 그래스프젠은 시뮬레이션에서 생성된 방대한 합성 데이터를 활용해 학습한다. 엔비디아는 대규모 3D 객체 데이터셋(8000개 이상의 객체)과 약 5300만 개의 시뮬레이션 기반 파지 사례를 활용해 모델을 훈련시켰다. 그리고 실제 환경에서의 일반화 가능성과 신뢰성을 확보했다.

그래스프젠은 확산 기반 트랜스포머와 함께 '온-제너레이터 파지 평가 기법(on-generator discriminator)'을 도입해 파지의 품질을 실시간으로 판별하고, 모델 오류를 효과적으로 필터링할수 있도록 했다. 이를 통해 생성된 파지 자세는 시뮬레이션뿐 아니라 실제 로봇 작업에서도 높은 성공률을 기록했으며, 다양한 그리퍼 유형 및 복잡한 장면에서도 뛰어난 확장성과 견고성을 보였다.

특히, 기존 로봇 파지 기술의 한계였던 고비용의 실제 데이터 수집 및 도메인 튜닝에 대한 의존도 또한 대폭 낮췄다는 평가다. 그래스프젠은 대규모 합성 데이터 기반 학습을 통해 새로운 환경이나 그리퍼로의 전환도 용이하며, 더 빠르고 저렴한 방식으로 높은 성능을 실현할 수 있다는게 연구팀 설명이다.

엔비디아는 이번에 그래스프젠 데이터셋과 코드를 오픈소스로 공개했다. 이번 발표로 엔비디아는 범용 로봇 조작 기술 분야에서 기술력을 확보하고, 동시에, 로봇 커뮤니티가 이를 기반으로 더욱 혁신적인 응용을 실현할 수 있도록 했다. 그래스프젠은 시뮬레이션, 학습, 모듈형 로봇 구성요소들을 하나의 통합된 턴키 솔루션으로 제공된다.  

이번 연구 성과는 '아카이브'에 공개됐다. (논문 제목:GraspGen: A Diffusion-based Framework for 6-DOF Grasping with On-Generator Training)

 

저작권자 © 로봇신문 무단전재 및 재배포 금지