허깅페이스에 오픈소스로 제공…독자적인 AI 생태계 구축 위한 전략적 판단으로 업계 해석

▲미모-임바디드의 능력

중국 비디오 슬롯(Xiaomi)가 자율주행 기술과 체화지능(임바디드 인텔리전스)을 하나의 두뇌로 제어할 수 있는 새로운 파운데이션 모델을 오픈소스로 공개했다.

샤오미는 지난 21일, 허깅페이스를 통해 새로운 체화 AI(Embodied AI) 모델인 ‘미모-임바디드(MiMo-Embodied)’를 오픈소스로 공개했다고 밝혔다. (참고: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B)

이번에 공개된 ‘미모-임바디드’는 비전언어모델(VLM)을 기반으로 설계됐다. 샤오미는 이 기술이 ‘자율주행’과 ‘체화 지능’ 두 가지 중요한 영역을 통합한 최초의 오픈소스 VLM으로, 동적인 물리적 환경에서 이해와 추론 능력을 크게 향상시킬 수 있다고 밝혔다. 기존의 수직적·도메인 특화 모델을 넘어 ‘크로스 도메인 능력’ 협업을 처음으로 실현했다는 설명이다.

▲미모-임바디드의 주요 성능

비디오 슬롯 연구팀에 따르면, 이 모델은 체화 지능의 핵심 과제인 △주변 환경을 3차원으로 인식하는 공간 이해(Spatial Understanding) △복잡한 명령을 수행하는 작업 계획(Task Planning) △사물의 용도와 조작 가능성을 판단하는 행동 추론(Affordance Reasoning, 로봇이나 인공지능이 물체와 상호작용할 때, 물체가 제공하는 가능한 행동을 인식하고 해석하는 능력) 등 3대 핵심 역량에서 큰 발전을 이뤘다. 또한 자율주행의 핵심 과제인 △환경 인지 △상태 예측 △주행 계획을 모두 지원해 전 시나리오 지능을 강력하게 뒷받침한다.

비디오 슬롯 측은 29개의 주요 산업 벤치마크 테스트에서 SOTA(State-of-the-Art, 현존 최고 수준) 성능을 달성했다고 강조했다.

▲체화 인공지능과 자율주행 분야 벤치마크 테스트 결과

업계는 비디오 슬롯의 이번 모델 발표를 단순한 기술 과시 차원이 아니라 독자적인 AI 생태계 구축을 위한 전략적 판단으로 해석하고 있다.

샤오미는 올 한 해 동안 ‘미모(MiMo)’라는 브랜드 아래 다양한 특화 모델을 공격적으로 선보여왔다. 지난 4월에는 추론과 코딩에 특화된 경량 모델 ‘미모-7B’를, 9월에는 감정 인식이 가능한 ‘샤오미-미모-오디오’를 공개한 바 있다. 이번 ‘미모-임바디드’의 공개는 샤오미가 추구하는 ‘사람(Human) x 자동차(Car) x 집(Home)’을 잇는 스마트 생태계의 마지막 퍼즐을 맞춘 것으로 해석된다.

샤오미 관계자는 기술 보고서를 통해 “이번 모델 공개는 폐쇄적인 개발 방식을 넘어 전 세계 연구자들과 협력해 체화 AI 기술의 상용화를 앞당기기 위한 것”이라며 “자율주행과 로봇 산업 전반에 새로운 표준을 제시할 것”이라고 밝혔다.

백승일 기자 robot3@irobotnews.com

저작권자 © 로봇신문 무단전재 및 재배포 금지