고려대학교 DMQA 연구실

Plasticity in Deep Reinforcement Learning

2025년 5월 30일 오전 5:18
조회수: 217

REFERENCES

Plasticity in Deep Reinforcement Learning.pdf

INFORMATION

2025년 5월 30일
오전 10시 ~
온라인 비디오 시청 (YouTube)

발표자:

이준범

TOPIC

Plasticity in Deep Reinforcement Learning

On-Line Video

OVERVIEW

신경망은 비정상(non-stationary)한 목표를 학습한 후 새로운 과제에 적응하는 능력, 즉 가소성(plasticity)이 저하되는 현상을 보인다. 이는 특히 입력과 출력 간의 관계가 변화하고, 이전 예측을 덮어써야 하는 강화학습에서 두드러지게 나타난다.

이로 인해 에이전트는 새로운 환경에 빠르게 적응하지 못하고, 학습 효율이 저하되는 문제가 발생한다. 심층강화학습에서는 이러한 plasticity 문제가 빈번하게 발생하며, 본 세미나에서는 이를 개선하기 위한 방법론들을 소개한다.

참고자료:

[1] Lyle, C., Zheng, Z., Nikishin, E., Pires, B. A., Pascanu, R., & Dabney, W. (2023, July). Understanding plasticity in neural networks. In International Conference on Machine Learning (pp. 23190-23211). PMLR.

[2] Nikishin, E., Schwarzer, M., D’Oro, P., Bacon, P. L., & Courville, A. (2022, June). The primacy bias in deep reinforcement learning. In International conference on machine learning (pp. 16828-16847). PMLR.

[3] Sokar, G., Agarwal, R., Castro, P. S., & Evci, U. (2023, July). The dormant neuron phenomenon in deep reinforcement learning. In International Conference on Machine Learning (pp. 32145-32168). PMLR.

[4] Nikishin, E., Oh, J., Ostrovski, G., Lyle, C., Pascanu, R., Dabney, W., & Barreto, A. (2023). Deep reinforcement learning with plasticity injection. Advances in Neural Information Processing Systems, 36, 37142-37159.

청취자 후기

허종국

강화학습은 일반적인 지도학습, 비지도학습과 달리 네트워크 크기와 성능이 절대적으로 비례하지 않고, 동일 데이터에 대한 학습 횟수(replay ratio)를 추가해도 오히려 성능이 하락하는 경우가 다반사며, 학습을 추가 진행할수록 성능이 정체되는 경우가 많다. 이러한 원인들에 대한 규명은 현재까지도 완전히 이루어지지 않았지만, 최근 강화학습 연구에서는 이러한 문제들에 대한 원인 중에 하나로 Plasticity Loss를 지목한다. Plasticity Loss는 쉽게 말해, 새로운 지식(데이터)가 들어왔을 때 거기에 맞추어 모델이 빠르게 적응(학습)하지 못하는 현상을 말하며, Capacity Loss와 Primacy Bias라는 비슷한 현상들과도 자주 언급된다. 심지어 강화학습과 유사하게 새로운 도메인이나 클래스의 데이터가 스트리밍으로 들어오는 지속 학습(Continual Learning)에서도 자주 언급되니, 해당 분야를 연구하는 사람도 이번 세미나가 도움이 될것이라고 생각한다. 참고로 일반적으로 지속학습에서는 1. 초기 데이터로 인한 편향과 2. 입력 데이터 분포 변화로 인해 Plasticity Loss가 발생한다. 강화학습에서는 추가적으로 3. 동일 입력에 대한 타겟값의 변화라는 치명적인 문제가 있어 더욱 심각하다. 동일한 상태-행동이라도 이후 정책 변화나 네트워크 업데이트에 따라 TD target인 y값이 바뀐다는 것이다. 예로, a라는 문제에 대한 정답이 처음엔 b라고 했다가 나중에는 c라고 알려주어서 모델이 올바른 학습을 하기에 어려워 한다는 것이다. 본 세미나에서는 이러한 Plasticity Loss, 혹은 이와 비슷한 현상에 대한 원인과 해결책을 제시한다.

1. The Primacy Bias in Deep Reinforcement Learning
* 참고로 해당 논문에서는 Plasticity Loss라는 워딩이 존재하지 않는다. 해당 논문 이후 다른 연구들에서 Plasticity Loss가 등장하며, 관련 연구로 주로 지목되는 논문이다.
해당 연구에서는 강화학습 에이전트가 '초기 데이터에 과적합'되어 새로운 데이터에 대한 학습 능력이 저하(최근에는 Plasiticity Loss로 용어가 통일)된다고 주장한다. 강화학습 에이전트는 일반적으로 환경과 상호작용하며 데이터를 수집하고, 이렇게 수집된 데이터들을 메모리에 저장한 후 랜덤 샘플링하여 업데이트하기 때문에, 학습 초기 데이터가 확률적으로 더 많이 뽑혀 업데이트에 기여하게 된다. 따라서 해당 논문에서는 주기적으로 파라미터를 리셋하여 초기 데이터 과적합을 방지함으로써 빠르게 성능을 펌핑시킴을 보여주었다. 굉장히 방법론은 단순하지만, Primacy Bias라는 현상을 규명하고 문제의 원인이 데이터 문제가 아니라 학습 가중치의 과적합에 있다는 것을 굉장히 탄탄하게 실험적으로 보여준 논문이다.

2.The Dormant Neuron Phenomenon in Deep Reinforcement Learning
* 참고로 해당 논문도 직접적으로 plasticity loss라는 워딩은 Related Works에만 나오지만, Plasticity Loss가 논문에서 주장하는 Dormant Neuron 현상과 관련있다고 얘기한다.
1번 논문 이후, SR-SAC 등 어느 시점에 어떻게 리셋을 하는 것이 효율적일까라는 논문들이 다수 등장했다. 본 논문에서는 강화학습에서 학습이 진행될수록 일부 뉴런들이 0과 가까운 값을 내뱉어 비활성화/휴면 상태가 되는 Dormant Neuron 현상을 발견하고, 이러한 0과 가까운 값들은 실제로 모델 출력이나 성능에 영향이 없다는 것을 보여주었다. 즉, 학습이 진행될수록 네트워크가 가진 가중치 중 일부는 아무런 역할을 수행하지 않는다는 것이다. 해당 연구에서는 주기적으로 네트워크의 휴면 상태인 뉴런을 체크한 후, 해당 뉴런들만 선별적으로 리셋하는 방법을 제안하였다. 네트워크 전체 리셋보다 안정성을 유지하면서, 네트워크의 plasticity를 효율적으로 잘 유지시키는 방법으로 평가받는다.

3. Deep Reinforcement Learning with Plasticity Injection
1번 논문의 저자가 쓴 후속 연구 중 하나로, 1번 논문 이후 리셋을 포함하여 다양한 방법론들이 plasticity loss를 해결하기 위해 나왔으나, 급격한 네트워크 변화를 일으키거나 추가적인 학습 비용이 크다라는등 문제점이 존재하였다. 본 연구에서는 특정 시점에 기존 모델을 고정한 후 추가적인 residual 값만 예측하는 것으로 Plasticity Loss를 극복했다. 즉 기존 모델의 지식은 유지하되, 최소한의 비용으로 additional training만 진행하는 것이다. ResNet의 Residual Connection에서 영감받았다고 할 수 있다. 다만 아쉬운점은 injection을 두 번 이상 진행하는 등 확장성이 필요한 경우 어떻게 변형할 수 있을지에 대한 가이드라인은 없었던 것으로 기억한다.

좋은 세미나를 만드느라 고생한 준범이에게 감사의 말을 전한다.

이정민

이번 세미나는 강화학습에서의 큰 문제점 중 하나인 plasticity problem에 대해서 소개해주었다. 강화학습은 입력 분포가 비정상성을 가지며, target 값이 변화하기 때문에 plasticity problem이 발생하게 된다.
Reset은 매우 간단한 아이디어로, 특정 주기 또는 특정 임계점 도달 시 마지막 일부 레이어의 파라미터를 초기화 시켜주는 방법론이다. 이 방식은 강화학습 연구들에서 아직도 종종 사용되는 테크닉으로 알고있다. Reset 이후 성능이 순간적으로 저하되는 경향이 있지만 핵심 지식은 남아있기 때문에 빠르게 성능을 회복하며 지속적으로 향상되는 모습을 확인할 수 있다. Redo는 reset을 어떻게 잘 할까의 느낌으로 이해하였다. 비활성 정도를 정량화하여, 특정 임계 값을 넘는 뉴런을 초기화함으로써 reset을 개선하였다. 비활성 정도에 따른 다양한 실험들이 있을 것 같아 한 번 원 논문을 찾아보면 좋을 것 같다. (ex. 반대로 비활성 정도가 낮은 뉴런을 초기화 할 때는 어떤 경향을 보이는지) Plasticity injection 방법은 학습 가능한 새로운 네트워크와 초기 상태 고정 네트워크를 추가하여 학습된 정보는 유지하면서 새로운 정보만 선택적으로 학습이 가능하도록 설계되었다. 이를 통해, 일부 네트워크를 초기화 할 때 성능이 순간적으로 급감하는 것을 방지하였다.
이번 세미나를 통해 강화학습에서 plasticity problem을 해결하고자 한 방법론들에 대해 공부해 볼 수 있었다. 비교적 복잡하지 않은 아이디어로도 개선이 계속 일어나는 것 같고, 이 후 방법론들은 어떻게 개선되었는지도 궁금해졌다. 좋은 세미나를 준비하느라 고생한 준범이에게 고맙다는 말을 전하며, 본 세미나 후기를 마친다.

Seminar