- 2020년 1월 10일 오후 5:15
- 조회수: 2481
INFORMATION
- 2020년 1월 17일
- 오후 1시 ~
- 고려대학교 신공학관 218호
TOPIC
OVERVIEW
청취자 후기
금일 세미나는 강화학습 기초와 이를 주식시장에서 단기 매도, 매수를 통한 주식거래에 적용한 사례로 억형이 진행해주셨다. 세미나 내용은 강화학습 기초의 경우 Multi Armed Bandit 부터 Deep Q Network까지의 범위을 grid example과 수식으로 설명해주셨고, 이론을 바탕으로 주식시장에서 RL 환경을 어떻게 구성하고 DQN을 어떻게 구현했는지 쭉 설명해주셨다. 강화학습에 관심이 있는 연구원들이 있어 RL을 컨셉츄얼하게만 알고 있었는데, 수식과 시뮬레이션 사례를 통해 좀 더 쉽게 이해할 수 있어 좋은 세미나였다. 최근 어텐션을 공부하면서 soft attention의 loss를 강화학습으로 최적화한 내용이 있어 이해를 못하고 있었는데 오늘 세미나 내용 중 하나인 Monte-carlo sampling 기반 MDP와 유사한 프로세스라는 것을 알 수 있었다. 주식시장의 예시도 마찬가지겠지만, 이처럼 강화학습은 최근 게임 분야 이외에도 텍스트나 비전의 다양한 영역에 적용할 수 있는 방법론이라는 것을 다시한번 느꼈다. 그리고 다양한 문제상황에 대해서 강화학습 환경으로 대입할 수 있는 참신한 아이디어만 있다면 다양한 연구를 해볼 수 있을 것이라는 생각도 들었다. 방대한 범위의 내용을 쉽게 이해시켜주시기 위해 핵심을 콕콕 잘 집어서 설명해주신 억형에게 감사드린다.
금일 세미나는 Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading에 대한 주제로 억이형이 발표했다. 금일 발표에서는 강화학습의 전반적인 개념과 주식 시장에 State, Action, Reward를 정의하여 멀티 에이전트 강화학습을 적용한 사례를 보였다. 억이 형과는 자주 강화학습에 대해 많은 이야기를 하지만 오늘 강화학습의 개념을 다시 리마인드할 수 있었던 유익한 시간이었다. 특히 인상깊었던 부분은 강화학습을 적용하기 위한 시뮬레이터를 직접 구현한 사례를 보이며 환경 구축 부분에서 배울점이 생겼다. 현재 연구하고 싶은 분야는 화학의 분자구조 및 분자식 데이터를 이용하여 강화학습을 적용해보고 싶었는데 환경 구축 부분에 대해 억이형과 얘기를 하면 돌파구가 생길 수도 있을 것 같다. 연구 분야는 좀 더 공부하여 억이 형에게 많은 조언을 구해보고 진행하면 좋을 것 같다.
이번주 세미나는 "RL Fundamental + Cooperative Multi-Agent RL Framework for Scalping Trading"에 관한 주제로 진행 되었다. 강화학습이라는 것이 많이 어렵기에 기초 개념부터 실제로 구현한 것을 보여주었다. 먼저 기초 개념을 MAB(multi Armed Bandit) 부터 Sequential Decision Problem, Markov Decision Process and Bellman Equation, Dynamic Programming, Q Learning 순서대로 진행 해 주었다. 각 용어들의 의미(환경, 액션, 에이전트, 에피소드, 보상, 패널티, 정책)등을 이해가 되도록 설명을 해 주었고, 어떻게 발전 해 갔는지 하나씩 설명을 해 주었다. 특히 Dynamic Programming(Model Based_모든 경우 수를 고려), Temporal-difference(Model Free_바로 뒤의 미래만 보고 고려), Monte-Carlo(Model Free_에피소드 하나 모두 진행 해보고 고려) 에 대한 비교를 잘 해주어서 조금이나마 이해 할 수 있었다. 그리고 TD 와 MC 의 비교를 하여 좋은 예측은 작은 분산으로 예측이 가능해야 한다는 점에서 볼때 TD가 더 많은 아이템을 가지고 기대값을 구할수 있으므로 더 좋음을 설명해 주었다. 그리고 이런 기본 내용에서 어떻게 실제로 주식에 사용을 해보았는지 DQN을 어떻게 구현 했는지 설명을 해주어 신기했다. 이렇게 방대하고 어려운 내용을 잘 설명해 주어서 좋았다.
금일 세미나는 억이오빠가 ‘Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading’에 대한 주제로 세미나를 진행해주셨다. 전반적인 강화학습에 개념들, 용어들과 multi armed bandit부터 Q learning 알고리즘까지 수식과 예시로 설명해주셨다. 강화학습 개념에 매번 등장하는 environment, action, agent, episode, reward, penalty을 쉬운 예시로 설명해주신 덕분에 시간 들여 정리하지 못한 개념들을 쉽게 이해할 수 있었다. 또한, 직접 적용하신 주식시장에 대해 RL환경을 정의하고, 구현하는 과정과 실제 발생하는 주식 데이터의 수익에 관한 실험결과까지 공유해 주셨다. 강화학습에서는 state, action, reward를 적절히 정의하는 것이 핵심이라고 하셨는데, 현실상황을 고려하셔서 이점을 구현하셨다는 점이 놀라웠다. 평소에 관심있는 continual learning쪽 논문들을 살펴보면 reinforce learning에 적용하고자 하는 연구들이 굉장히 각광받고 있고, 대부분의 논문의 future works에서 다루고 있을 만큼 앞으로 더욱 활발해질 분야라고 생각한다. 억이오빠가 학교에서 함께 생활하는 기간동안 나도 관심을 갖고 많은 토의를 가지면 좋을 것 같다. 오늘 전반적인 강화학습 이론에 대해 다루어주신 억이오빠에게 감사한 마음을 전한다.
금일 세미나 주제는 Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading였고, 강화학습에 대한 구체적인 내용을 처음 듣게 된 세미나였다. 강화학습 기초를 잘 모르는 사람들도 이해할 수 있게 One Armed Bandit 예제에서 environment(환경), action, agent, episode, reward, Policy에 대한 기초 용어들을 소개하고 강화학습 필요성까지 전반적으로 설명해준 흥미로운 세미나였다. 발표자는 Optimal policy를 선정하는 흐름을 이해하기 위해 필요한 개념 Markov decision Process, Return, Value Function, Q-function을 설명한 후, Dynamic programming에서 Optimal policy를 찾아가는 과정을 해주셨는데, 기초적인 개념부터 마지막까지 핵심적인 줄거리를 전달하고자 하는 발표자 태도에 많은 감사함을 느꼈다. 마지막으로 주식시장에서 강화학습 application까지 생생한 느낀 점을 공유하며 세미나를 마무리 지었다. 매번 다양한 기계학습 분야를 주제로 다루는 세미나 덕분에, 신입생 입장에서 다양한 안목과 연구 의지를 다질 수 있었다.
금일 세미나는 Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading 을 주제로 하는 발표였다. 평소 강화 학습에 대하여 관심을 가지고 공부를 하던 시기에 세미나를 듣게 되었다. 혼자 공부했을 때 의문을 가졌던 부분은 에피소드마다 특정 state에서 취한 action에 따른 다음 state의 상황이 매번 다를 경우는 어떻게 적용되어야하는지였다. 세미나에서 주식거래를 적용한 강화학습 설명 이전에 기초적인 이론과 사전 필요 지식에 대하여 설명을 듣다보니 내가 가졌던 의문을 해결할 수 있었고 내가 의문을 가졌던 알 수 없는 state를 가지고 있는 환경의 문제를 Model-free 문제라는 것을 알 수 있었고, 이는 DQN 알고리즘을 통하여 해결할 수 있음을 배울 수 있었다. 이렇게 강화학습에 대하여 많은 이야기를 듣고 배울 수 있는 자리여서 너무나 좋았고, 향후 연구하고 싶었던 개인차량 내비게이션 알고리즘 개선 부분에 강화학습을 적용할 수 있지 않을까라는 희망을 볼 수 있었다. 이번 세미나를 통해 왜 요즘 추세에 강화학습이 많은 주목을 받고 있는지 알 수 있었던 세미나였다.
금일 세미나는 "RL Fundamental + Cooperative Multi-Agent RL Framework for Scalping Trading"에 관한 주제로 조억 연구원님께서 진행해 주셨다. 우리는 현실 세계에서 수많은 선택의 기로에 서있다. 그리고 그 때마다 최선의 결과를 기대하며 선택을 이어간다. 강화학습은 이러한 인간의 선택 과정을 모사하여 기계적으로 빠른 계산을 이용해 최적의 선택을 만들어내는 인공지능 학문이다. 때문에 강화학습은 (환경, 액션, 에이전트, 에피소드, 보상, 패널티, 정책 등) 다양한 매개체를 활용하여 각 상황과 이후의 상황을 판단하고 최적의 결과를 제시하도록 복잡한 계산을 한다. 지금까지 강화학습 관련하여 몇 번의 세미나가 있었고, 수업도 들었는데 오늘처럼 개념과 예시를 잘 들어 이해가 쉽게 진행하였던 세미나는 아직 없었던 것 같다. 어려운 학문이지만, 앞으로 자동화를 이끌어 갈 많은 분야에서 가장 유용하게 사용될 연구분야인 만큼 좀 더 관심을 갖고 연구해 볼 용기를 얻을 수 있었다. 복잡한 개념을 주식 수익률 및 여러 대의 엘리베이터를 가장 효과적으로 운영하는 방법 등 적절한 예시를 만들기 위해 노력한 발표자의 정성 느껴지는 세미나 자료였고 바쁜 와중에도 더 이해시키겠다는 열정이 느껴지는 진심 어린 세미나였다. 멋진 세미나를 해준 조억 연구원님께 감사한 마음을 전하고 싶다.
금일 세미나는 ‘RL Fundamental + Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading’ 라는 주제를 가지고 진행하였다. 이번 세미나는 강화 학습에 대한 전반적인 내용을 다루었다. 먼저 강화 학습은 이상적인 학습 과정을 거쳐 환경에 대한 반응(보상, 패널티)으로부터 최적의 목표에 찾아가는 것이다. 이번 세미나에서는 강화 학습에서 한번쯤 들어 봤을 만한 에피소드, 환경, 액션, 에이전트, 보상, 패널티, 정책 등 어렴풋이 알고 있었던 용어들을 자세히 설명해 주었다. 가장 기본적인 One Armed Bandit을 시작으로 Multi Armed Bandit, Markov Decision Process , Deep Q Network 순으로 예시를 들어가며 개념을 정리해서 강화 학습의 흐름을 좀 더 잘 정리할 수 있었다. 또한 이를 이용하여 게임이 아닌 주식의 초단타 매매에 적용하여 0.39%라는 수익율을 얻었다. 세미나를 듣고 강화 학습이 꼭 게임에만 적용되는 것이 아닌 최적의 결정을 내려야하는 모든 분야에 적용 할 수 있을 거라는 생각이 들었다. 평소 잘 알지 못했던 강화 학습에 대해 자세히 설명해준 억이 형에게 감사한 마음을 전하고 싶다.
금일 세미나 주제는 "Cooperative Multi-Agent Reinforcement Learning Framework for Scalping Trading"였고, 억이형이 발표를 진행하였다. 억이형은 연구실에서 함께 연구를 하기 이전부터 강화학습에 관심이 많았던 것으로 알고 있었다. 그런데 실제로 강화학습과 관련해 논문을 쓰고, 실험을 하기위한 시뮬레이터 구축까지 진행했던 과정을 듣고 다시 한번 대단하다는 생각을 했다. 주식 시장의 비전문가이지만 실제 주식 Trader과의 협업을 통해 시뮬레이터를 구축하고, 강화학습을 시도한 사례가 매우 인상적이었다. 또한 기본적인 강화학습의 용어들을 알기 쉽게 노력하고자 했다. 이전에 잠깐 공부했었던 강화학습에 대한 관심을 불러일으키기 충분한 세미나였다. 발표를 진행해준 억이형에게 감사를 표한다.
오늘 세미나는 강화학습의 기초와 이를 주식투자 상황에 적용한 조억 오빠의 논문이 다뤄졌다. 너무나 방대한 내용이었지만 이해가 용이하게 요약되어서 큰 도움이 되었다. 내가 신입생이었을 몇 년전 기존에 전통적 머신러닝 기법을 사용하여 풀던 문제들을 딥러닝을 사용하여 문제해결을 원하는 프로젝트를 원하는 경우를 많이 보았다. 현재는 그런 경우가 강화학습으로 넘어가는 추세를 보이는 것 같다. 내 연구분야는 아니지만 꼭 한번 깊이 공부해보고 싶다는 생각이 분야여서 그런지 세미나가 기대되었다. 이번 세미나는 강화학습이 언제 어떠한 문제를 푸는데 적합한지, 문제 정의를 어떻게 해야하며 알고리즘의 발전은 크게 어떠한 방향들로 이루어졌는지 정리할 수 있는 기회가 되었다. 가장 인상 깊던 장표는 TD와 MC의 차이가 설명된 장표였다. Unbiased, High Variance의 알고리즘에서 조금 bias를 허용하더라도 variance를 줄이는 Biased, Low Variance의 알고리즘으로 발전되는 큰 흐름이 강화학습에서도 반영되었던 것 같다. 이런 큰 흐름을 잘 캐치하여 연구에 반영할 수 있는 사람이 되어야겠다고 생각했다. 그 어떤 세미나보다도 조억 오빠의 세미나는 자신이 하는 일과 연구에 열정과 확신, 애정이 보이는 발표였다. 또 진행중인 Elavator RL이 꽤나 흥미롭게 느껴졌다. 다음 세미나에 기회가 된다면 꼭 결과를 들어보고 싶다.
오늘 세미나에서는 조억 연구원이 전통적인 강화학습에 대한 이론과 함께 주식 트레이딩에 강화학습을 적용한 개인 연구 결과를 공유하는 시간을 가졌다. 강화학습 원서를 꺼내 열면 등장하는 Multi Armed Bandit 문제부터 시작하여 강화학습의 주요 개념들을 간단한 Grid World 예제와 함께 설명해주어 각 방법론들의 장단점을 이해하기 수월하였다. 주식 트레이딩에 적용한 개인 연구 내용은 세미나의 시간 관계상 자세한 설명을 듣지 못했지만 단순한 시뮬레이터를 넘어 실제 트레이딩 환경에서 실험을 진행하고 평가했다는 점에서 대단하다고 생각한다. 아주 알차게 만들어진 세미나 자료는 추후 주요 개념을 다시 꺼내볼 때 큰 도움이 될 것 같다.