- 2025년 2월 15일 오전 2:55
- 조회수: 223
REFERENCES
INFORMATION
- 2025년 2월 14일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

이번 세미나는 Robot Learning에 대한 내용을 다루고 있다. 최근 Robot Learning은 인공지능이 발전하면서 풀어야 하는 과제로 점점 떠오르고 있다. 이미지나 자연어 처리 분야에서Foundation Model을 활용해 높은 성과를 나타낸 것처럼, 로봇 학습에서도 사전 학습된 대규모 Foundation Model을 적용하여 다양한 로봇 과제에 범용적으로 활용하려는 시도가 이루어지고 있다. 이번 세미나에서는 Robot Learning에서 사용하는 Foundation Model에 대한 연구를 소개하였다.
1. Robotics Transformer 1(RT-1)
RT-1은 Foundation Model을 활용하여 Robot Learning을 효과적으로 수행할 수 있음을 입증한 연구이다. 로봇 학습에서는 로봇이 실시간으로 움직이며 문제를 해결해야 하기 때문에 추론 속도가 매우 중요하다. RT-1은 이미지 기반 Foundation Model을 활용하여 로봇의 행동을 트랜스포머 모델을 통해 제어한다. 트랜스포머 모델은 연속적인 값을 생성하는 데 어려움이 있어, 이를 이산적인 값들로 변환하여 처리하는 방식으로 성능을 향상시켰다. 또한, 로봇의 형태는 다양하기 때문에 각각 개별적으로 학습하는 것은 비효율적이다. 하지만 Foundation Model을 활용하면 다양한 형태의 로봇에서도 과제 수행 성능이 향상될 수 있음을 보였다. 이를 통해 로봇 학습에서 범용 Foundation Model의 가능성을 제시하였다.
2. PaLM-E
PaLM-E는 사전학습된 언어모델 PaLM을 사용하여 제어 관련 데이터가 거대하지 않더라도
제어 모델의 일반화 성능을 대폭 향상할 수 있음을 보여준다. PaLM-E는 로봇이 수행해 주어야 하는 과제에 대한 Sub Goal을 만들도록 한다. RT-1은 PaLM-E가 만든 Sub Goal들을 참조하여 로봇 제어를 더욱 효과적으로 할 수 있도록 한다. 이미지와 텍스트 데이터를 함께 활용하는 멀티모달 학습을 적용하면 각각 개별적으로 학습하는 것보다 더 높은 성능을 발휘할 수 있음을 입증하였다.
3.RT-2
RT-2는 기존 Multimodal Model과 Robotics Transformer을 별도로 사용하는 것이 아니라, Multimodal Vision-Language Model 자체가 직접 로봇을 제어하도록 구성한 연구이다. 이 모델에서는 Vision-Language Model을 적절히 Fine-tuning하여 로봇 제어에 특화된 형태로 학습함으로써, 적은 파라미터로도 로봇의 행동을 효과적으로 조정할 수 있음을 보였다. 이를 통해 Multimodal Model을 활용한 로봇 제어의 가능성을 확장하는 연구 결과를 제시하였다.
4.pi0
pi0는 성능향상을 위해 최신 방법론을 robot learning에 알맞게 조합하여 높은 성능을 나타낸 연구이다. 여러개의 행동을 동시에 예측하도록 하여 추론시간을 줄였으며 duffision의 변형 모델인 flow match 방식을 사용하여 성능을 향상시켰다. 또한, Attention 메커니즘을 조정하여 사전 학습된 모델의 의미를 유지하면서 행동을 추정하는 방식을 도입하였다. 이를 통해 로봇이 행동을 결정할 때, 기존에 학습된 지식을 최대한 활용하면서도, 행동 생성 과정에서 사전 학습된 의미를 잃지 않도록 하였다.
이번 세미나를 통해 Robot Learning에서도 Foundation Model을 활용한 연구가 활발히 진행되고 있음을 알 수 있었으며, 앞으로의 발전을 통해 실제 산업에서 폭넓게 활용될 가능성을 기대하게 되었다. 개인적으로 궁금증을 가지고 있었던 Robot Learning 분야의 연구들을 이해하기 쉽게 설명해 주신 재훈이 형께 감사의 말씀을 전하고 싶다.

로봇은 종류 및 환경 따라 형태와 동작 방식이 다르기 때문에 변수가 많은 분야이다. 인공지능을 로봇에 적용하는 방법인 robot learning은 이미지와 지시(자연어)를 함께 활용해서 multimodal learning을 하는 방식으로 발전하고 있다. 변수가 많고 현실 상황에 적용하기 위해서는 일반적인 성능과 추론 시간 등을 고려해야 한다. 오늘 세미나에서는 모방 학습을 활용한 모델에 대해서 설명해주었다.
RT-1은 이미지 사전학습 모델인 EfficientNet-B3에 지시 사항을 FiLM을 통해 multimodal 방식으로 feature를 생성한다. 이후 토큰화 시켜 Transformer 학습을 통해 이산적인 값으로 표현한다. PaLM-E는 LLM 모델을 활용하여 일반화 성능을 개선, RT-2 모델은 vision language model을 활용해 로봇을 직접 제어할 수 있도록 변환, π0은 RT-2 대비 사전학습 모델의 크기를 줄여도 잘 작동 할 수 있도록 아키텍처를 개선 하였다.
요즘 로봇을 통해 커피 매장을 운영하거나 서빙을 하는 등 조금씩 접할 수 있는 기회가 있었는데, 학습 방법에 대해서 알 수 있어서 좋았다. 개인적으로는 로봇의 형태나 환경이 달라졌을 때 적용이 잘 되도록 하는 방식에 대해서 생각해 볼 수 있는 시간이었다. 흥미로운 분야를 잘 설명해준 재훈이형에게 고맙다는 말 전하고 싶다.

딥러닝을 활용한 로봇 제어에 대한 세미나를 청취하였다. 딥러닝 기반 로봇 제어 분야의 foundation model에 대한 내용들을 주로 청취하였는데, 현재 어느 수준의 task까지 수행할 수 있는지를 여러 영상들을 통해 재미와 함께 확인해 볼 수 있었고, 일반화 성능과 추론 속도가 가장 중요한 요소임을 알 수 있었다. 재미있었던 점은 일반화 성능을 어떻게 확인하는지였는데, 중간에 사람이 task를 방해한다거나 데이터셋에 포함되어 있지 않은 skill을 해보라 한다던가 여러가지 요소들이 있었다. 또 다른 흥미 요소로는 데이터셋 구축 과정에 있어 형태가 다른 로봇들을 이용해서도 괜찮다라는 점이었는데, 이는 RT-1 모델을 연구한 논문에서 이종 로봇간 데이터셋 학습이 더 효과적임을 밝혀냈기 때문이다. 로봇 제어를 위한 데이터셋 구축 과정이나 기존 LLM, VLM 모델들을 어떻게 활용하고 있는지도 자세하게 소개되어 있다. 세미나를 청취하고 보니 딥러닝 기반 로봇 제어는 산업공학과에 참 적합한 연구 주제라고 생각하였는데, 왜냐하면 기존 딥러닝 기술들을 전반적으로 잘 이해하고 있어야 하고 결합(활용) 과정이 핵심이었다고 생각했기 때문이다.

이번 세미나는 Robot Learning에서 Foundation Model을 활용한 최신 연구들을 다루었다. 최근 로봇 학습 분야에서는 이미지·자연어 처리에서 성공한 대규모 사전학습 모델을 로봇 제어에 맞게 변형하거나 Fine-tuning하여 적용하려는 시도가 이루어지고 있으며, 이를 통해 다양한 로봇 과제에서 보다 범용적으로 활용할 가능성을 탐색하고 있다.
세미나에서는 대표적인 연구 사례로 RT-1, RT-2, PaLM-E, π0 등의 모델이 소개되었다.
- RT-1은 이미지 기반 Transformer 모델을 활용하여 로봇의 행동을 이산적인 값으로 변환, 실시간 제어 성능을 높였다.
- PaLM-E는 LLM을 활용한 일반화 성능 개선을 목표로, 로봇이 수행해야 할 과제를 Sub Goal로 나누어 보다 효과적인 학습을 가능하게 했다.
- RT-2는 기존의 Vision-Language Model(VLM)을 그대로 로봇 제어에 적용하여 추가적인 별도 모델 없이도 로봇이 직접 동작을 수행할 수 있도록 설계되었다.
- π0는 추론 속도와 성능을 동시에 향상시키기 위해 Flow Match, Attention, MoE, Transfusion을 결합하여 로봇 행동 예측 성능을 최적화했다.
이번 세미나를 통해 멀티모달 학습과 사전학습 모델이 로봇 제어에서 어떻게 활용되는지를 이해할 수 있었으며, 앞으로 이 기술이 실제 산업에서 폭넓게 활용될 가능성에 대해 생각해보는 계기가 되었다. 또한, 다양한 로봇 형태와 환경에서도 일관된 성능을 유지하는 것이 핵심 과제임을 확인할 수 있었다. 평소 Robot Learning에 대해 궁금했던 점들을 명확하게 설명해준 덕분에 더욱 유익한 시간이었다.