하나의 AI로 수백 가지 작업 학습, 훈련 데이터 80% 절약 효과

도요타연구소(TRI)가 범용 모바일 슬롯 머신 개발의 핵심 기술인 '대규모 행동 모델(LBMㆍLarge Behavior Model)'을 개발했다고 발표했다.
이 기술은 하나의 AI 모델이 수백 가지 작업을 학습할 수 있으며, 새로운 기술 습득 시 필요한 훈련 데이터를 최대 80%까지 줄일 수 있다. 이 기술은 생성형 AI를 활용하여 로봇이 실제 세계를 이해하고 조작하도록 훈련시키는 것을 목표로 한다. 여기서 LBM은 광범위한 작업을 수행할 수 있는 단일 신경망이다.
11일 더로봇리포트 보도에 따르면, TRI는 약 1700시간의 로봇 조작 행동 데이터를 활용해 '확산 기반 LBM(diffusion-based LBMs)'을 개발했다. 연구진은 이 모델을 실제 환경에서 1800회, 시뮬레이션 환경에서 4만 7000회 테스트하여 성능을 검증했다.
총 29개 작업에 대해 4200회의 엄격한 성능 테스트를 실시한 결과, LBM은 기존 제어 정책 대비 일관된 성능 향상을 보였다. 특히 어려운 환경에서도 기존 방식보다 3~5배 적은 데이터로 새로운 작업을 학습할 수 있다는 것을 확인했다.


연구 결과, 사전 훈련 데이터가 많을수록 성능이 점진적으로 개선되는 것으로 나타났다. 수백 시간 수준의 데이터와 수백 개의 행동 시연만으로도 의미 있는 향상을 보여, 모바일 슬롯 머신공학에서 데이터 수집과 성능 간의 선순환 구조가 가능함을 시사했다.
연구팀은 단일 네트워크가 여러 작업을 동시에 학습할 수 있음을 확인했지만, 미세조정되지 않은 상태에선 일관된 성능 우위를 확보하지 못했다고 밝혔다.
TRI는 이번 연구 결과가 모바일 슬롯 머신공학에서의 AI 확장성과 사전 훈련 모델의 가능성을 실증적으로 뒷받침한다고 평가했다. 향후 가정과 직장에서 사람을 보조하는 범용 모바일 슬롯 머신의 실현 가능성을 높이는 계기가 될 것이라고 전망했다.
TRI에 따르면, LBM은 아직 초기 단계에 있지만, 모바일 슬롯 머신 움직임의 부드러움과 회복 능력 등에서 기존 방식 대비 질적 향상을 보이며 AI 모바일 슬롯 머신 기술의 차세대 패러다임으로 주목받고 있다. 모바일 슬롯 머신공학 커뮤니티에서는 LBM이 실제로 제공하는 가능성과 한계에 대한 이해가 아직 제한적이었으나, 이번 연구를 통해 알고리즘 및 데이터셋 설계에 대한 최신 통찰이 제공될 것으로 기대된다고 TRI는 밝혔다.
수백 가지 작업을 사전 훈련하면 로봇 정책이 더욱 견고해지고 새로운 복잡한 작업을 더 적은 데이터로 더 빠르게 학습할 수 있다는 설명이다. 특히 LBM으로 훈련된 로봇은 움직임이 더욱 부드러워지며, 궁극적으로 가정과 직장에서 인간을 보조하는 범용 로봇의 길을 제시할 것으로 기대된다.