고려대학교 DMQA 연구실

2018 BI Conference - 박영준

2018년 4월 16일 오전 11:34
조회수: 1829

Reviewed by

박영준

[학회후기]

코엑스에서 열린 한국 BI 데이터마이닝 학회에 참석했다. 'AI로 진화하는 BI의 미래'라는 주제로 진행되었고, 나는 학술세션에서 강화학습을 이용한 스타크래프트 유닛 컨트롤을 주제로 발표했다. 학회의 주제를 구성하는 다양한 발표 중 청자의 입장에서 좋은 컨텐츠가 될 수 있기를 희망하며 발표에 임했다.

[발표후기]

발표제목은 ‘강화학습을 이용한 스타크래프트 유닛 컨트롤’이다. 알파고 이후 구글이 다음 도전 목표를 스타크래프로 천명한 이후 페이스북, 알리바바 등의 대형 IT 기업을 중심으로 활발히 연구되고 있는 주제다. 본 연구에서는 전체 게임을 수행하는 강화학습 모델을 수행하기 전 단계로 여러개의 유닛을 잘 컨트롤 하는 task에 집중했다. 이를 위해 멀티에이전트 강화학습 모델을 구성했고, 이를 DQN, Policy Gradient 등 다양한 알고리즘으로 학습을 했다. 이때 상대적으로 쉬운 난이도의 미니게임은 잘 해결 할 수 있었지만, 어려운 난이도는 해결할 수 없었다. 짧지만 지금까지 스타크래프트 연구를 수행한 경험으로 비춰봤을 때, 좋은 알고리즘 보다 문제정의 단계 즉, state, action, reward를 잘 정의하는 것이 솔루션이 될 것 같다. 우선은 현재의 간단한 action에서 target을 선별할 수 있는 action을 정의해야 강화학습 모델이 보다 복잡한 움직임을 수행할 수 있을 것으로 보인다. 발표장의 여건상 준비한 모두를 전달하지는 못했지만 무엇을 했는지 어떤 성과가 있었는지는 잘 전달했다고 생각한다.

질문: 강화학습의 상대가 되는 인공지능은 어떤 것인지?

답변: 상대방은 스타크래프트 기본 인공지능으로 설정했다.

연구를 수행하는 데 있어 기술적인 부분을 질문한 것으로 있는 그대로 답변했다.

질문: 사람을 이길 수 있는 수준의 강화학습을 개발하기 위해서는 어떤것이 필요하며 언제쯤 가능할까?

답변: 개인적으로 스타크래프트의 action 계층적 구조를 가질 수 있으며, 이는 hierarchical reinforcement learning으로 해결 할 수 있을 것으로 보인다. 언제쯤 가능할지는 답변드리기 힘든것 같다.

평소 연구를 수행하면서 갖고있던 생각이어서 답변했다. 어디까지나 개인적인 생각이기 때문에 내가 답변한 것 이외의 영역에서 무언가 더 필요할 수 도 있다고 생각한다.

[청취후기]

‘Emotion Recognition from Text Using Deep Neural Networks’

텍스트의 감정을 인식하는 주제로 여러 뉴럴네트워크 계열의 모델을 적용하여 비교실험을 진행한 연구내용이었다. 관측치가 텍스트이며, 레이블은 감정이다. 감정은 긍정과 부정으로 나눌 수 있고, 화남, 불쾌함, 즐거움, 슬픔 등으로 세분화할 수 있다. 제안하는 연구에서는 총 7가지 감정을 분류해내는 multi-class sentiment analysis 문제를 정의하고 풀려고 시도하였다. 이때 각 범주는 완전히 배타적 관계에 있지 않기 때문에 이런 감정 간 관계를 반영하기 위하여 cross entropy loss에 적절한 가중치를 부여하여 문제를 해결했다. 감성분석의 경우 감성을 레이블링 하는 것으로 부터 발생하는 오류가 크며, 모든 감성을 표현할 수 없다고 생각한다. 때문에 unsupervised learning의 관점에서 문제를 해결하려는 시도가 있는데 장기적인 관점에서 국문에 대해서도 관련연구가 활발히 진행되었으면 한다.