- 2022년 12월 31일 오후 2:40
- 조회수: 13757
REFERENCES
INFORMATION
- 2022년 12월 30일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
강화학습은 행동의 주체인 에이전트(agent)가 주어진 상황에서 선택한 행동을 통해 최대한의 보상을 받을 수 있도록 학습하는 방법론이다. 정책 기반 강화학습은 강화학습의 큰 갈래 중 하나로 에이전트의 행동 결정을 주어지는 보상을 통해서 직접적으로 학습하며 다른 방법론과 달리 행동 공간이 연속적인 상황에서도 활용할 수 있는 방법론이다. 이번 세미나에서는 정책 기반 강화학습의 기초에 대하여 소개하고자 한다.
청취자 후기

금일 세미나는 Introduction to Policy Gradient로 재훈이가 발표했다. 강화학습은 환경과 상호작용하며 일련의 (상태, 행동, 보상, 다음 상태)를 활용하여 연속적인 의사결정을 통해 에이전트의 정책을 최적화하는 것이 목표이다. 에이전트를 학습하기 위한 강화학습에서의 핵심은 Bellman 방정식으로 Bellman 방정식은 크게 가치 방정식과 행동가치 방정식이 있다. Bellman 방정식은 Value-Based, Policy-Based 방법에서 학습할 때 목적 함수로 사용된다. 특히 이번 세미나에서 중점적으로 다룬 Policy-Based는 Bellman 방정식을 활용하며 Policy 함수에 대해 미분 가능하도록 증명되어 있다. 전반적으로 고전적인 강화학습부터 현재의 강화학습까지 문제점을 해결해가며 발전되고 있는 강화학습의 기초를 잘 전달했다고 생각한다. 많은 연구원들이 말하기를 강화학습은 진입 장벽이 높다고 한다. 나도 처음 강화학습을 시작할 때 장벽이 높다고 생각했었다. 하지만 장벽의 높이는 자기 자신만이 조절할 수 있는 것 같다. 강화학습에 대한 마음 가짐에 따라 장벽의 높이는 낮아질 것이라고 나는 확신한다. 나는 지금 강화학습이 허들 수준 같다(ㅋㅋㅋㅋㅋㅋㅋ농담ㅋ). 많은 연구원들이 강화학습을 정말 배워보고 싶다면 앞 뒤 따지지 말고 일단 해봤으면 좋겠다.

이번 세미나는 'Introduction to Policy Gradient'를 주제로 진행되었다. 강화학습은 순차적인 의사결정 문제에서 시행착오를 거쳐서 누적 보상을 최대화하기 위한 행동 정책을 학습하는 것이 목표이다. 심층 강화학습 이전에 테이블 기반 강화학습은 각 상태가 가지는 가치를 테이블에 기록해야 하는데, 단점으로는 상태의 수가 매우 많거나 무한에 가깝다면 모든 가치를 저장하기 어렵거나 모든 상태를 방문하기 어렵다는 문제가 존재한다. 이러한 한계를 개선한 것이 함수 기반 강화학습이며 인공신경망을 접목한 방법론이 바로 심층 강화학습이다. 심층 강화학습은 가치 기반과 정책 기반 강화학습으로 분류될 수 있고 본 세미나에서는 정책 기반 강화학습과 정책함수와 가치함수를 함께 사용하는 방법론인 Actor-Critic에 대한 설명이 주를 이루고 있다.
정책 기반 강화학습의 정의와 Policy Gradient Theorem 증명에 관한 수식 설명을 시작으로 Actor-Critic에 대한 설명까지 정책 기반 강화학습의 기초에 대한 핵심이 잘 설명되어 있었다. 개인 연구로 강화학습을 하고 있지만 아직 갈 길이 멀다는 것을 깨닫게 된 세미나였다. 깨달음을 준 김재훈 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 Policy Gradient라는 주제로 진행되었다. 22년도 2학기에 강화학습과 수학이라는 코스웍을 수강하였고 굉장히 재밌게 수업을 들었었기 때문에 이번 세미나를 기대하면서 청취할 수 있었다. 강화학습이란 Action, State, Reward를 통하여 Agent의 최적 선택을 통해 최대의 누적 Reward를 얻는것이 목표이다. 강화학습의 발전과정에 대하여 테이블 기반의 강화학습부터 시작하여 각 방법의 단점과 이를 극복하기 위한 다음 방법론을 설명해주어 지난 수업 내용이 Remind 되어 쉽게 이해하며 들을 수 있었다. 복잡한 증명과정도 각 과정마다 설명을 해주어 다음에 강화학습에 대한 설명이 필요하면 참고할 수 있는 좋은 자료라는 생각이 들었다. 배우면 배울수록 흥미롭고 관련 주제로 도전해보고 싶다는 생각이 드는 분야인것 같다. 한 학기동안 강화학습 수업을 들으면서 너무 어렵다고 생각했던 것들인데 이렇게 이해하기 쉽고 간략하게 빠트림 없이 전달하기 위해서 많은 노력을 하였을 김재훈 연구원님께 감사의 인사를 전하며 이상으로 세미나 후기를 마친다.

개인적으로 강화 학습은 처음 입문하기에 굉장히 어려운 분야라고 생각한다. 컴퓨터 비전에는 Classification, Object Detection, Localization, Segmentation 등 다양한 태스크가 있고 자연어 처리 또한 Classification, Machine Translation, Summarization 등 다양한 태스크가 있다. 이렇듯 지도 학습은 태스크에 따라 모델의 구조, 결과 산출 과정, 학습 과정이 다양하다. 하지만 강화 학습은 오로지 하나의 태스크(보상의 최대화)밖에 없는데도 공부하기엔 문턱이 높다.
그 이유는 지도학습과 달리 강화학습은 1. 타겟(정답 레이블)이 존재하지 않는 상황에서 모델을 학습시켜야하며, 2. 순차적인 의사 결정을 여러번 수행해야하기 때문이다. 1. 타겟이 존재하지 않는 상황에서 모델을 학습시키기 위해 TD와 MC 등의 학습 방식이 고안되었다. 또한 2. 순차적인 의사 결정을 결정론적으로 할지, 확률론적으로 할지에 따라 Value-based와 Policy-based 등으로 나뉜다(결정론적의 여부에 따른 분류는 완벽한 분류 기준은 아니기 때문에 예외가 존재하지만 간편상)
지난 번의 김재훈 연구원의 세미나에서는 강화학습의 기초(어떻게 학습하는지)를 공부하였다면, 이번 세미나는 확률론적 순차적 의사결정을 수행하는 에이전트를 어떻게 학습시킬지에 대해 공부할 수 있었다. 가치 기반 강화학습(결정론적)의 기초는 매우 미흡하지만 이전에 필자가 진행한 적이 있다. 금일 세미나를 포함해 세 개의 세미나를 모두 본다면 강화학습을 처음 배우는 사람이 매우 빨리 감을 잡을 수 있을 것이라고 생각한다.
세미나를 준비하느라 고생하신 재훈이형께 감사의 말씀을 드린다.

이번 세미나는 Policy Gradient을 주제로 진행되었다. Deep reinforcement learning에는 가치 기반 방법론과 정책 기반 방법론 그리고 액터-크리틱 방법론이 있다. 가치 기반 방법론은 인공신경망으로 가치함수를 표현하며, 각 상태와 행동에 대해 올바르게 가치를 출력하도록 학습한다. 따라서 정답 가치와 가치 함수로 추정한 가치의 차이를 줄이기 위해 gradient descent 방법으로 가치함수를 업데이트 한다.
반면에 정책 기반 방법론은 인공신경망으로 정책함수를 표현한다. 정책 함수는 각 상태에서 어떤 행동을 선택할지 정해주는 함수로, 누적 보상이 최대가 되게 하는 정책함수를 학습하는 것이 목표가 된다. 정책 함수는 확률적으로 행동을 선택하기 때문에 행동 공간이 연속적인 경우에도 사용이 가능하며, 가치 기반 방법론에 비해 더 유연한 정책을 가질 수 있다는 장점이 있다. 가치 기반 방법론에서 정답 가치와 추정 가치의 차이를 계산한 것과 달리 정책 함수의 정답을 구하는 것은 막연하다. 따라서 손실함수를 줄이는 방법이 아닌 정책을 평가하는 기준을 세워서 그 값을 증가시키도록 gradient를 업데이트하게 된다. 즉 누적 보상이 최대화되는 방향으로 학습을 진행한다. 그런데 이때 환경에 대한 정보가 없어 목적함수의 gradient를 구하는 것이 쉽지 않기 때문에 policy gradient theorem을 통해 식을 변형하여 gradient를 구하게 된다.
마지막으로 액터-크리틱 방법론은 정책함수(액터)와 가치함수(크리틱)을 함께 학습하는 방법론이다. 따라서 주어진 상태에서 행동을 선택하면서 선택한 행동의 가치를 평가하게 된다. 해당 방법론은 에피소드가 끝날 때까지 얻었던 경험을 통해 학습하는 몬테카를로 기법이 아닌 미래의 추측으로 과거의 추측을 업데이트 해가는 temporal-difference 학습법을 사용할 수 있기 때문에 종료하지 않는 MDP에서도 학습을 할 수 있다는 장점이 있다. 액터-크리틱 방법론에는 Q 액터-크리틱과 advantage 액터-크리틱 그리고 TD 액터-크리틱의 방법론이 존재한다. 먼저 Q 액터-크리틱은 서로 다른 파라미터로 구성된 정책함수와 가치함수의 신경망에 대해 각각 학습을 진행한다. 그리고 advantage 액터-크리틱은 추정한 행동 가치에서 추정한 상태 가치를 제거하여 상대적인 가치를 판단하는데, 이는 해당 상태에 있는 것보다 해당 행동을 취함으로써 ‘추가로’ 얼마의 가치를 얻게되는 지를 추정하는 것이다. 이렇게 추정한 상태 가치라는 베이스라인 도입을 통해(advantage function을 곱함으로써) gradient 추정치의 변동성이 감소하게 된다. 그런데 이 방법에는 정책함수 신경망의 파라미터와 가치함수 신경망의 파라미터 그리고 액션-가치 함수의 파라미터까지 세 가지의 파라미터를 업데이트 해야하므로 비용이 많이 든다는 단점이 존재한다. 이에 TD 액터-크리틱 방법론은 TD error의 기댓값이 advantage function이 불편추정량이라는 점을 이용해 목적함수를 변경하는데, 효과는 동일하게 유지하면서 파라미터는 줄어들게 된다.
이번 세미나를 통해 정책 기반 강화학습과 액터-크리틱 방법론에 대해 공부할 수 있었다. 나는 운이 좋게도 강화학습이라는 분야를 재훈 오빠와의 멘토링, 재훈 오빠의 지난 ‘Basics of Reinforcement Learning’ 세미나 그리고 이번 세미나까지 재훈 오빠를 통해 접하고 배웠다. 덕분에 정말 진입 장벽이 높다고 생각했던 강화학습의 전반적인 기초를 좀 더 쉽고 탄탄하게 배울 수 있었던 거 같다! (정말 어느 교수님의 코스웍 부럽지 않다ㅎㅎ) 좋은 세미나를 준비해주신 재훈 오빠께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 'Introduction to Policy Gradient'를 주제로 진행되었다. 강화학습은 순차적인 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 거쳐서 상황에 따른 행동 정책을 학습하는 것이다. 강화학습의 테이블 기반에 대한 설명부터 가치 기반, 정책 기반 그리고 actor-critic방법(정책함수와 가치함수을 함께 학습하는 방법)까지 설명을 상세하게 해주었다. 복잡한 증명 과정을 최대한 단순화하였지만 상세하게 설명을 해주어서 내용을 이해하는데 많은 도움이 되었다. 이번 세미나를 꼭 시청해보고 증명 과정을 따라가 보았으면 한다. 이번 세미나 덕분에 Actor-critic에 대해서 다시 한번 학습할 수 있었고, 이전에 수업에서 들었던 A2C와 A3C를 상기시킬 수 있었다. 개인적으로 어떤 수업과 비교하더라도 명쾌하고 뛰어난 세미나였다고 생각된다. 좋은 세미나를 준비해주신 김재훈 연구원께 감사 인사를 드리며 이상으로 세미나 후기를 마친다.

재훈이 형이 진행한 정책 기반 강화학습 세미나를 청취하였다. 테이블 기반 강화학습과 함수(딥러닝) 기반 강화학습의 차이점 설명을 시작으로 세미나가 명쾌하게 진행되었다. 딥러닝 기반 강화학습에 대해 익숙하지 않은 분들에게 많이 유용하다고 느껴졌다. 이후로도 가치함수, 정책함수, 그리고 액터-크리틱 방법론에 대한 전반적인 설명을 쭉 들을 수 있었는데, 쉽고 핵심적인 부분 위주로 설명하려는 재훈이 형 노력이 많이 느껴졌다. 개인적으로는 정책함수, 액터크리틱 기반 강화학습 쪽을 잘 모르고 있었는데 많은 도움이 되었다. 수식적인 부분도 정말 잘 정리되어 있기 때문에 강화학습 입문자들에게 많은 도움이 될 것으로 생각한다. 좋은 세미나를 준비하느라 고생하셨을 재훈이 형에게 감사의 말씀을 전하며, 세미나 후기를 마치도록 한다.

이번 세미나는 정책기반 강화학습에 대해 진행되었다. 정책기반 강화학습은 가치기반 강화학습의 한계인 연속적인 공간에서 학습을 극복한 방법론이다. 이는 Gradient Ascent를 통해 누적보상을 최대화하는 방식으로 학습된다는 특징을 가지며, 대표적인 알고리즘으로는 REINFORCE가 존재한다. 세미나 후반부에는 가치기반 강화학습과 정책기반 강화학습을 모두 활용하는 Actor-critic에 대해서도 소개가 이루어진다. 이에 대한 대표적인 방법론으로 Temporal-Difference를 활용하는 Q-Actor-critic, 행동가치를 임의로 조정하는 특징을 갖는 Advantage Actor-critic, 그리고 Computation cost를 개선한 TD Actor-critic 등이 존재한다. 자세한 설명은 본 세미나에서 소개한다. 이번 세미나를 계기로 강화학습을 접할 수 있었다. 여태 공부한 인공지능 모델들 중 가장 안 친한 알고리즘이라고 생각하는데, 오늘을 계기로 한걸음 다가갈 수 있었다. 본 세미나는 꼼꼼하고 알기 쉽게 수식 및 알고리즘에 대한 설명이 수록 되어있기에, 강화학습에 관심있는 연구원들에게 추천해주고 싶다. 유익한 세미나를 준비해주신 김재훈 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 강화학습의 Policy Gradient을 주제로 진행되었다. 강화학습은 순차적인 의사결정 문제에서 누적 보상을 최대화 하기 위해 행동 정책을 학습하는 것을 말한다. 이전에 주로 사용되었던 테이블 기반 강화학습은 각 상태의 가치를 테이블에 기록하는 방법으로 모든 가치에 대해 테이블에 저장이 필요하고 모든 상태에 대한 방문이 필요한 한계점을 가진다. 이후 발전된 함수 기반 강화학습은 상태 정보와 보상 값을 활용하여 실제 가치를 근사하는 함수를 학습하는 방법으로 상태 개수가 무한할 수 있다는 장점을 가지고 있어 딥러닝에 적용하기 좋은 방법론이다. 함수 기반 강화학습 + 인공신경망 = 심층 강화학습이라고 부르며 가치 함수, 정책 함수, 액터-크리틱으로 방법론 종류를 구분할 수 있다.
가치기반 강화학습은 행동-상태 가치에 기반하여 행동을 선택하는 방법론으로 가장 높은 가치를 갖는 행동을 선택하여 가치함수에 의존한다. 이때 정답 가치와 추정 가치의 차이를 줄이는 방향인 gradient descent로 신경망의 파라미터를 업데이트 한다.
정책기반 강화학습은 가치함수를 쓰지 않으며 상태에 대해 정책함수가 확률분포에 기반하여 행동을 직접 선택하여 누적 보상이 최대화되는 방향인 gradient ascent로 학습된다. 하지만 현실적으로 모든 상태를 방문하기 어려워 기울기를 구하기 위한 정보가 없기 때문에 샘플을 통한 기대 값의 평균값을 사용하며 이를 Policy Gradient Theorem으로 부른다. 정책에는 이산적인 값을 행동으로 취할 때 사용하는 Softmax Policy와 연속적인 값을 행동으로 취할 때 사용하는 Gaussian Policy가 있다. 정책 기반을 활용하는 모델에는 가장 기본적인 RIENFORCE로 Monte-Carlo 방식을 통해 에피소드 단위의 경험을 통해 정책을 학습한다.
액터-크리틱기반 강화학습은 정책과 가치를 함께 학습하는 방법론이다. 첫 번째 모델은 실제 리턴 대신 정책함수에서 선택한 행동 가치를 추정하는 가치함수의 값을 사용하는 Q Actor-Critic이 소개되었다. 정책함수와 가치함수 각각에 대한 신경망을 갖는 모델이며 가치함수 평가에 따라 정책함수가 행동을 선택하는 학습 방향이 결정된다. Monte-Carlo 방식만 아니라 Temporal-Difference 방식도 사용 가능하다는 장점이 있다. 두 번째 모델은 Advantage Actor-Critic 모델로 추정한 행동가치에서 추정한 상태 가치를 제거함으로써 상대적인 가치를 판단하는 구조로 추정한 상태 가치라는 baseline이 도입되어 정책함수, 행동 가치함수, 상태 가치 총 3개의 신경망이 존재하여 파라미터를 학습한다. 세 번째 모델인 TD Actor-Critic 두 번째 모델이 3가지 신경망을 가져 학습 비용이 많이 드는 한계를 보완하기 위해 행동 가치 신경망을 제거하고 상태 가치 신경망을 활용하여 학습하는 방법론이다.
강화학습 수업을 작년 2학기에 들으면서 어려운 분야라고 느꼈었는데 한번 공부한 뒤 해당 세미나를 들으니 용어에 대해 알고 있어서 공부한 부분을 정리할 수 있는 세미나여서 무척 좋았다. 최대한 쉬운 이해를 돕기 위해 한글로 최대한 자료를 정리한 점이 매우 인상적이었으며 사실 식을 전개하는 부분은 아직도 어렵게 생각하지만 컨셉을 이해하는 것만으로도 개인적인 성취감이 느껴진 세미나이다. 좋은 자료로 세미나 진행해준 김재훈 연구원님께 수고했다는 얘기를 전하며 세미나 후기를 마친다.