시연 동영상 공개…블록 분해 및 분류·수건 접기 등 동작 선보여

▲샤오미-로보틱스-0 모델을 적용한 섀도 어 슬롯 강화팔이 수건을 접고 있다. (사진=샤오미 유튜브 캡처)
▲샤오미-로보틱스-0 모델을 적용한 섀도 어 슬롯 강화팔이 수건을 접고 있다. (사진=샤오미 유튜브 캡처)

중국 샤오미가 1세대 로봇용 비전언어행동(VLA) 대형 모델 '샤오미-로보틱스-0(Xiaomi-Robotics-0)'를 오픈소스로 공개했다.

이 인공지능 모델은 47억 개의 파라미터를 갖추고 있으며, 기존 VLA 모델이 안고 있던 추론 지연과 실제 섀도 어 슬롯 강화 동작의 불연속성 문제를 해결했다. 시각 언어 이해 능력과 고성능 실시간 실행 능력을 동시에 갖췄으며, 소비자용 그래픽 카드에서도 실시간 추론이 가능하다. 시뮬레이션 테스트와 실제 섀도 어 슬롯 강화 작업 모두에서 다수의 최고 성능(SOTA) 기록을 경신했다.

모델은 ‘혼합 트랜스포머(MoT·Mixture-of-Transformers)’ 아키텍처를 채택, '시각 언어 대뇌(VLM)'와 '동작 실행 소뇌(ActionExpert)'의 조합으로 인식·판단·실행의 효율적 폐쇄 루프를 구현했다. 시각 언어 대뇌는 멀티모달 VLM 대형 모델을 기반으로 인간의 모호한 자연어 지시를 정확히 이해하고 공간 관계를 포착하는 의사결정 핵심 역할을 담당한다. 동작 실행 소뇌에는 다층 확산 트랜스포머(Diffusion Transformer·DiT)가 내장돼 단일 동작을 직접 출력하는 대신 부드러운 '동작 블록'을 생성하며, 동작 정밀도를 보장한다.

학습 방법으로는 크로스모달 사전학습과 후학습의 2단계 방식을 설계했다. 사전학습 단계에서는 멀티모달·동작 데이터 혼합 학습으로 VLM의 특징 공간과 동작 공간을 정렬한 뒤, VLM을 동결하고 DiT를 집중 학습시켜 동작의 부드러움을 확보했다. 후학습 단계에서는 비동기 추론 모드로 실제 로봇의 '동작 단절' 문제를 구조적으로 해결하고, 환경 변화에 대한 대응 능력을 대폭 향상시켰다.

샤오미는 레베로(LIBERO), 칼빈(CALVIN), 심플러Env(SimplerEnv) 등 중요 시뮬레이션 벤치마크 전 항목에서 기존 30개 모델 대비 최고 성적을 기록했다고 밝혔다.

샤오미가 공개한 동영상에 따르면, 이 모델을 적용한 양팔 로봇이 블록 분해 및 분류, 수건 접기 등 난이도 높은 작업에서 높은 수준의 손-눈 협응 능력을 발휘했으며, 유연한 직물 등 다양한 재질의 물체를 유연하게 다뤘다. 또한 기존 VLA 모델의 약점으로 지적돼 온 물체 탐지, 시각 질의응답, 논리 추론 등 멀티모달 능력도  유지했다.

백승일 기자 robot3@irobotnews.com

저작권자 © 로봇신문 무단전재 및 재배포 금지