- 2021년 7월 15일 오후 3:39
- 조회수: 2382
REFERENCES
INFORMATION
- 2021년 7월 16일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
발표자 후기
강화학습에 대한 기본적인 이론과 가치기반 학습의 두 가지 논문 DQN과 DRQN 에 대해 소개하였다. 이외에도 가치기반 학습에는 Dueling DQN, Double DQN, NoisyNet, Rainbow 등 여러가지 알고리즘이 존재한다. 이외에도 정책기반 알고리즘인 REINFORCE 에 가치기반학습을 합친 액터-크리틱(Actor-Critic) 방식, 에이전트가 둘 이상인 Multi-Agent 방식 등 강화학습의 연구분야는 무궁무진하다. 오늘은 첫 세미나로써 상기 연구들에 대한 첫 리뷰를 선보였다고 생각한다. 첫 세미나라 다소 서툴렀지만 앞으로 더 나은 내용과 설명을 통해 개선할 것이다.
청취자 후기
금일 세미나는 종국이가 강화학습에 대한 개념을 설명해주었다. 강화학습은 현재 상황에서 가장 효과적인 액션을 실시간으로 선택해주는 인공지능 분야이다. 강화학습을 이해하는데 필요로한 핵심적인 개념과 알고리즘에 대해 종국이가 야무지게 설명해주었다. MDP는 강화학습을 학습하는데 있어 필요로한 '데이터' 개념이다. MDP는 현재 주어진 상황을 설명할 수 있고 취할 수 있는 액션, 이에 따른 보상값 등을 의미하며, 강화학습은 MDP를 통해 똑똑한 에이젼트로 학습되게 된다. 벨만 방정식은 강화학습 분야에서 레이블 역할과 비슷한 개념을 유도하는데 큰 근거를 준 중요한 방정식이다. 이를 근거하여 두 가지 관점의 학습 방식이 존재하게 되는데, 깊게 설명하지 않고 핵심 부분만 알려주어 좋았다. 또한, 강화학습에 사용되는 여러 가지 학습 방식과 이에 해당하는 특징들을 잘 종합하여 설명해주었다. 중간 중간 재밌는 짤을 이용해서 친근하게 설명하려 한 노력이 많이 보였다. 세미나 마지막 부분에는, DQN과 DRQN에 대해 설명해주었다. DQN는 앞에서 설명한 학습 방식 중 Q-learning이라는 방식을 딥러닝으로 처음 제안한 방법론이다. TD error를 줄이기 위한 메커니즘이 핵심인데, TD target이 중간에 불안전해질 수 있는 단점을 타켓 네트워크라는 개념을 활용하여 극복하였다. DRQN은 state의 시계열성을 LSTM에 녹여 DQN을 구현한 논문이다. (DQN은 단순하게 concat하여 학습).
첫 세미나인만큼 많이 고민하고 고생한 흔적이 군데군데 보였다. 종국이 성격엔 쉽지 않았을 것 같은데, 최대한 천천히 쉽게 설명하려고 많이 노력한 것 같았다. 다음 세미나에도 멋진 설명 기대하며, 세미나 후기를 마치도록 한다.
강화학습이란 주어진 환경의 현재 상황에 대해서 가장 높은 점수를 얻기 위한 전략을 에이전트가 학습하며 이러한 전략을 policy로 정의한다. 이러한 강화 학습은 Markov Decision Process(MDP)를 기반으로 에이전트와 환경이 상호작용하며 작동한다. 이 상호작용을 자세히 써보면 다음과 같다.
에이전트가 환경에서 현재 상태인 state를 부여 받으면 에이전트는 policy를 통해 적절한 action을 결정하고 이 action이 환경에 영향을 주어 다음 state와 보상을 결정하게 된다.
이번 세미나에서는 최초로 강화학습에 Deep learning을 적용한 DQN과 DRQN을 설명했다.
DQN은 상태/행동에 대한 가치함수 추정치를 예측하는 value-based learning으로 인공신경망(CNN)을 추정 함수로 사용하여 가치 함수를 추정한다. 또한, DQN은 Replay Buffer를 도입하여 과거의 데이터(experience)를 사용할 수 있도록 하여 데이터의 효율성을 상승시키고 샘플 간의 상관성을 제거해 독립성을 보장했다. 그리고 다양한 학습 테크닉을 통해서 Q-learning의 단점을 극복하였다.
DRQN은 POMDP(Partially Obeservable MDP)를 가정하고 이 가정에서 DQN을 사용하기 위해 인공신경망을 CNN에서 LSTM으로 바꾼 논문이다. 여기서 POMDP는 실제로 우리가 보는 것은 산태가 아니라 관측치라는 것이고 상태와 관측치의 차이는 크기의 차이(시간적으로든 공간적으로든)로 관측치가 상태에 포함되는 관계라고 생각하면 된다. 즉, 관측치 여러 개가 하나의 상태를 표현하기 때문에 이를 반영하기 위해 LSTM을 사용한다.(기존 DQN에서는 여러 관측치를 쌓아서 CNN에 사용한다.)
이번 세미나를 통해서 강화학습에 대한 기본적인 개념을 다시 볼 수 있게 되었고, 강화학습과 Deep learning을 최초로 결합하고 그를 발전시킨 기초적이면서 중요한 논문을 이해 할 수 있었다. 세미나를 준비한 종국이에게 감사를 전하며 세미나 후기를 마친다.
이번 세미나는 'Value-based Algorithms'에 대한 주제로 진행되었다.
강화학습의 기초 원리에는 Markov Decision Process(MDP)와 가치함수가 있다. 가치함수는 각 상태 및 행동이 얼마나 가치 있는지를 판단하기 위해 누적 보상값을 예측을 정의한 것이며, 상태 가치 함수와 행동 가치 함수로 나뉜다. 상태 가치 함수는 현재 상태에서 얼마나 점수를 더 잘 받을 수 있을까에 대한 부분이며, 행동 가치 함수는 현재 상태에서 이 행동을 취하면 얼마나 점수를 더 잘 받을 수 있을까에 대한 부분이다.
이를 바탕으로 아웃풋에 따라 Value-based Learning 과 Policy-based Learning 으로 추가 분류할 수 있고, 본 세미나는 Values-base Learning에 대해 소개한다. 여기서 업데이트 주기에 따라 Monte-Carlo(MC) 와 Temporal-difference(TD) learning으로 나눠진다. 지금 스텝에서 한 단계 나은 추정치를 향해 학습하는 방식이 TD 방식이다. 또한, 업데이트 방식에 따라 On-Policy 및 Off-Policy로 나누어진다.
이제 Value-base- Algorithms의 대표적인 방법론인 DQN과 DRQN까지 소개한다. 사실 두가지 방법론에 대한 이해가 짧아 추가적인 학습이 필요할 듯하다. 강화학습에 관해 몇 차례의 세미나를 접했지만, 늘 강화학습에 대한 기본 이해가 부족하여 세미나의 메인 방법론에 대해 이해도가 낮은데, 다음 강화학습 관련 세미나를 앞두고는 반드시 강화학습에 대한 기본 메커니즘 공부하고, 청취해야겠다는 생각이다. 어려운 내용을 최대한 쉬운 설명으로 세미나를 준비해준 종국이에게 감사의 마음을 전한다.
이번 세미나는 "Value-based Learning"을 주제로 강화학습 중 가치기반 학습에 대하여 알아보았다. 강화학습이란 주어진 상황을 인식하고, 더 많은 점수를 얻을 수 있을 상황으로 학습하는 것을 의미한다. 즉, 환경과 agent가 상호작용하며 상황을 결정하며 이러한 조건을 기반으로 행동을 결정하며, 이는 Markov Decision Process(MDP) 를 활용하여 학습하게 된다. 아웃풋으로 추정되는 값에 따라서 Value-based Learning과 Policy-based Learning으로 구분할 수 있으며, 학습 진행 과정에서 업데이트 주기에 따라 Monte-Carlo Method와 Temporal-Difference Method으로 구분한다. 이 외에도 업데이트 방식에 따라 On-Policy, Off-Policy 등으로 구분됨을 알 수 있었다. DQN은 강화학습을 딥러닝에 접목한 최초의 논문으로, Q-Learning을 활용하는 방법이다. 데이터를 저장하고 반복적으로 학습하기 위하여, 그리고 데이터 샘플 간의 상관성을 제거하여 독립을 보장하기 위하여 Experience Replay Mechanism을 추가적으로 도입하였다. 또한, DRQN은 실제 우리가 집중하는 것은 상태가 아닌 관측치라는 Partially Observable MDP (POMDP)의 가정에 DQN을 사용하기 위하여 LSTM을 도입한 방법론이다. 이번 세미나를 통하여 강화학습을 전반적인 개념부터 딥러닝에 강화학습을 적용한 구체적인 논문들까지 살펴볼 수 있었다. 강화학습에 대하여 정확하게 알지 못하여 충분히 이해하기 어려웠지만, 이번 세미나를 기반으로 강화학습이라는 분야도 조금 더 관심을 갖고 공부해보아야겠다는 생각이 들었다.
이번 세미나는 "Value-based Learning"이라는 주제로 진행됐다. 강화학습은 agent가 environment와 상호작용하며 얻는 미래의 누적 보상을 최대화하는 방향으로 학습을 진행하는 것을 의미한다. 간단한 환경의 경우 모든 action과 state에 대해 누적 보상에 대해 계산할 수 있지만, 실생활에서 활용되는 환경은 매우 복잡하기 때문에 모든 누적 보상에 대해 계산하는 것이 불가능하다. 따라서 현재 상태를 줬을 때 누적 보상을 추정할 수 있는 네트워크를 학습하여 누적 보상을 계산하게 된다. 누적 보상을 추정하는 네트워크를 학습하는 방식은 하나의 에피소드가 끝났을 때 업데이트하는 Monte-Carlo 방식과 일정 time step이 지난 이후 업데이트하는 Temporal-Difference 방식이 존재한다. 또한 업데이트 방식에 따라 현재의 policy에 대해서만 업데이트하는 On-Policy 방식과 서로 다른 정책에 대해서도 업데이트할 수 있는 Off-Policy 방식으로 구분할 수도 있다. 이번 세미나에서 소개된 논문은 DQN으로 강화학습에 딥러닝을 최초로 적용한 논문이다. 해당 논문에서는 게임 화면은 4개의 연속적 프레임을 인풋으로 받아 CNN을 통해 누적 보상에 대해 추정하고 누적 보상이 가장 높은 액션을 취하게 된다. 학습 과정에서 누적 보상이 높은 액션만을 취하게 되면 해당 액션만을 업데이트한다는 단점이 존재하기 때문에 임의의 확률로 랜덤한 액션을 취하게 하여 다양한 행동을 선택해 학습할 수 있도록 한다. 또한 네트워크의 파라미터가 바뀌면 타깃값이 변화하여 학습이 불안정하다는 단점을 극복하기 위해 별도의 target network를 통해 학습을 진행하게 된다. DQN은 단순히 4개의 연속적 프레임을 합쳐서 인풋으로 활용했던데 반해 DRQN은 RNN을 통해서 4개의 프레임을 순차적으로 받아 학습을 진행하게 된다. 두 모델의 성능은 각 환경의 특성에 따라 다르지만 DRQN은 DQN에 비해 프레임의 손실이 존재해도 더 좋은 성능을 유지할 수 있다는 장점이 있다. 이번 세미나를 통해 강화학습의 기초적인 개념들에 대해 정리하고 Value-based Learning의 기본 방법론들을 익힐 수 있어 의미 있는 세미나였다. 세미나를 위해 고생해준 종국이에게 감사의 뜻을 전한다.
이번 세미나는 강화학습에 대한 기본 개념과 Value-based learning 방식에 대해 알아보았다. 강화학습에 대한 기초 개념부터 설명해주었는데, 강화학습은 Markov Decision Process(MDP)를 기반으로 하며 Agent가 Environment로부터 State를 인지하고 Action을 하여 Reward를 받는 과정을 반복하는 학습방식이다. 이 때 Policy는 State가 주어졌을 때 어떤 Action을 취할지에 대한 확률분포를 나타내고, Transition Probability는 State와 그에 대한 Action을 취했을 때 다음 State로 전이될 확률을 나타낸다. 강화학습의 목적은 결국 Reward를 최대로 하는 것인데, 이를 누적 보상값으로 정의한 것이 벨만 방정식이고, 이를 추정하기 위해 상태 가치 함수와 행동 가치 함수를 적용할 수 있다. 강화학습의 여러 분류에 대해 설명해주었는데, 그동안 강화학습 분야에서 잘 개념이 안잡히던 용어들을 이번 기회에 깔끔하게 이해할 수 있게 해줘서 좋았다. 즉, 아웃풋에 따라서는 Value-based learning과 Policy-based learning으로 나눌 수 있고, 업데이트 주기에 따라서는 Monte-Carlo와 Temporal-difference로 나눌 수 있으며, 업데이트 방식에 따라서는 On-policy와 Off-policy 방식으로 나눌 수 있다. 그 중 Value-based 방식에 대한 논문으로 DQN과 DRQN이 소개되었다. DQN은 가치 함수를 추정하기 위해 딥러닝의 인공신경망을 추정함수로 사용하였으며, 데이터를 저장하고 반복 학습하기 위해 Experience Replay Mechanism을 도입한 것이 특징이다. DRQN은 Partially Observable MDP, 즉 실제 우리가 보는 것은 상태가 아니라 관측치라는 POMDP 가정하에서 DQN을 사용하기 위해 LSTM을 도입한 것이 특징이다. 강화학습을 실제로 구현해보지 않아서 정확하게 모든 내용을 이해하기에는 어려움이 있었지만, 그래도 강화학습의 기초적인 개념부터 적절한 예시들을 들어줘서 도움이 많이 되었다. 강화학습에 대한 내용을 쉽게 전달해주기 위해 수고해준 허종국 연구원에게 감사의 말을 전한다.
이번 세미나는 "Value-Based Reinforcement Learning"을 주제로 진행되었다.
강화학습은 게임을 통해 많은 발전을 거듭하고 있는데, 보상을 기준으로 현재 상황에서 가장 큰 보상을 받을 수 있는 방향으로 학습이 되는 방식이다. 가치 함수는 한번의 보상을 이용하여 계산이 되기 때문에 이를 누적 연산하여 기간으로 보상을 줄 수 있도록 해주는 방식이다. 이러한 방식으로 벨만 방정식은 얼마나 점수를 더 받을 수 있을지를 나타냈는데, 상태 가치 함수는 현재 상태에서 얼마나 점수를 더 받을 수 있을지와 행동 가치 함수는 현재 상태에서 이 행동을 취하면 얼마나 점수를 더 받을 수 있을까를 알게 해주게 되는 것이다. 이를 에이전트가 환경이 상호작용하며 정책을 업데이트하는데, 정보가 계속 바뀌게 되어 어려움도 존재한다. 이러한 어려움을 극복하기 위한 Deep learning을 적용한 DQN과 추가적으로 LSTM 방법론을 적용한 DRQN에 대해서도 알 수 있었다.
단순하게만 이해하고 이었던 강화학습이었는데, 한계점이 어떤 것이었는지 알 수 있었고 이를 극복하기 위한 DQN과 DRQN에 대해서 알 수 있어서 좋은 세미나였던 것 같다.
끝으로 좋은 세미나를 준비해준 종국이에게 감사의 말을 전한다.
오늘은 강화학습에 대한 주제로 세미나가 진행되었다. agent가 주어진 상황에서 점수를 최대화시키기 위한 방법을 학습해나가는 것으로, 머신러닝의 꽃이라고도 불릴정도로 매우 뜨거운 관심을 받고 있는 분야다.
가장 핵심적인 개념으로 Markv Decision Process(MDP)는 상황에서 작동하는 행동에 따른 보상을 높여가는 방향으로 학습하게 된다. 이 때 시점 t에서의 각 행동이 앞으로 얻을 수 있는 누적 보상을 계산하여, 좋은 학습방향인지 평가할 수 있도록 지표를 구해야하는데, 이는 가치 함수를 통해 구할 수 있다.
강화학습은 output, update 주기,update 방식 등에 따라 분류해볼 수 있다. ouput에 따라서는 value-based/policy-based로 나눌 수 있고, update 주기에 따라서 마지막에 한번에 update하면 Monte-Carlo(MC) 방식, 시점마다 update해나가면 Temporal-difference(TD) 방식으로, update 방식에 따라서는 on-policy/off-policy 로 나뉜다.
강화학습의 기본적인 개념이후에 value-based의 deep learning을 사용한 주요 모델들에 대해 설명되었는데, DQN은 최초의 deep learning 알고리즘을 사용한 강화학습 모델로 현재 상태를 t-3~t의 여러시점의 집합으로 사용한다는 점과 강화학습에서의 각종 문제를 효과적으로 정리한 토대가 된다는 점에서 인상 깊었다. DRQN은 상태와 관측치를 분리해서 설명하면서, 앞서 DQN에서 상태에 대해 여러시점을 쌓아서 넣었던 것을 각각 시점들을 LSTM을 이용해서 넣어주는 점에서 차이가 있었다. 쌓아서 넣는건과 LSTM의 차이점은 시점에 따른 움직이는 속도나 순서정보 같은 것들이 잘 반영되는 것으로, 일부 task에서는 DQN보다 훨씬 좋은 성능을 보였으나, 몇몇 게임에서는 DQN보다도 못한 성적을 내는 경우가 있었다. 이런건 모델 구조상의 inductive bias에 의해 차이나는 부분이겠구나 생각이 들었다.
강화학습은 모델의 구조가 마치 생물처럼 행동에 대한 보상을 통해 학습하기때문에 볼 때 마다 굉장히 흥미로운데, 막상 모델 속에 반영되는 각종 방식과 함수들은 상당히 난해하다. 설명하기에도 어려운 부분들을 아주 이해하기 쉽고 재밌게 잘 들었던 것 같다. 세미나를 준비해준 종국이에게 감사함을 전한다.
이번 세미나는 'Value-based Learning'이라는 주제로 진행되었다. 강화학습의 목표는 보상 함수를 최대화하는 것으로, Markov Decision Process를 기반으로 한다. 이에 적용되는 가치함수는 앞으로 받을 수 있는 누적 보상을 수학적으로 정의한 것으로, 미래에 대한 기대치를 나타낸다. 가치함수에는 상태 가치 함수와 행동 가치 함수 두 가지 종류가 있다. 상태 가치 함수는 현재 상태가 주어졌을 때 앞으로 얼마나 더 점수를 받을 수 있을 것인가를 나타내며, 행동 가치 함수는 현재 상태에서 특정 행동을 취했을 때 얼마나 더 점수를 받을 수 있을 것인가를 나타낸다. 강화학습의 학습 방식은 아웃풋에 따른 분류에 따라 Value-based learning과 Policy-based learning로 나뉜다. 상태를 인풋으로 했을 때, 상태 혹은 행동에 대한 가치함수가 아웃풋으로 나오는 경우 value-based learning에 해당하며, 이와 달리 어떠한 상태 혹은 행동을 취할 것인지에 대한 확률분포가 아웃풋으로 나오는 경우 policy-based learning에 해당한다. 본 세미나는 value-based learning에 초점을 맞추어 진행되었으며, 이는 업데이트 주기에 따라 Monte-Carlo(MC) learning과 Temporal-difference(TD) learning으로 나뉜다. 이때, TD learning은 현재 상태의 가치함수를 한 스텝 뒤에 추정한 가치함수로 업데이트 한다. 이와 함께 대표적인 Value-based Learning 방법론으로 DQN과 DRQN까지 소개해주었다. 강화학습은 접할 때마다 매번 알 수 없는 어려움에 늘 공부하기 주저하던 분야였는데, 이번 세미나를 통해 기본 개념부터 세부 방법론까지 하나의 흐름으로 이해할 수 있어 매우 유의미한 시간이었다. 세미나를 준비하느라 고생한 종국오빠에게 감사의 말을 전하고 싶다.