[학회 후기]
2025년 서울에서 열린 2025 ICIEA 학회에 참가하였다.  처음 참가하는 외국 학회라 설레는 마음 반 떨리는 마음 반으로 참가하였다.  영어로 발표해야 하는 학회이기 때문에 기존에 다른 학회들에 비해 발표 연습에 더 많은 준비를 하였고 연습한 만큼 잘 발표할 수 있어 의미가 있던 학회였다. 또한 영어로 외국 연구원들과 소통하고 이야기하는 좋은 경험을 할 수 있었던 시간이였다.

[발표 후기]
이번 학회에서는 Super Mario Map Generation Using Large Language Models with Human Feedback라는 주제로 발표를 진행했다. 게임 개발 과정에서 레벨을 설계하는 일은 굉장히 많은 시간과 노력을 필요로 하는 작업이다. 이를 해결하기 위해 요즘은 심층 신경망을 이용해서 자동으로 맵을 생성하는 방법들이 활발히 연구되고 있다. 다만, 이런 연구를 제대로 하려면 훈련에 쓸 수 있는 양질의 게임 레벨 데이터가 필요한데, 실제로는 데이터 자체가 부족하거나 게임 규칙을 지키지 못하는 오류가 있어서 제대로 된 플레이가 불가능한 경우도 많다. 이런 문제를 해결하고자, 이번 연구에서는 MarioPref라는 새로운 프레임워크를 제안했다. MarioPref는 품질이 낮은 슈퍼 마리오 브라더스 레벨 데이터와 조건 프롬프트를 활용해서, 주어진 조건을 만족하는 플레이 가능한 맵을 생성하는 것이 목표이다. 마스킹된 레벨 요소를 복원하는 과정을 거친다. 이후, 인간 피드백을 활용한 강화학습(RLHF)을 적용해 플레이 가능성과 조건 충족률을 높인다. 실험을 통해 확인한 결과, 비록 데이터 품질은 낮았지만 입력된 프롬프트 조건을 잘 만족하면서도 플레이 가능한 맵을 충분히 만들어낼 수 있었다. 이번 연구를 통해 데이터가 부족한 상황에서도 인간 피드백을 잘 활용하면 콘텐츠 품질을 끌어올릴 수 있다는 걸 실증할 수 있었고, 앞으로 다른 다양한 게임 장르에서도 충분히 적용 가능한 가능성을 확인할 수 있었다. 발표를 준비하면서 처음으로 하는 영어 발표이기 때문에 준비를 열심히 했던거 같다. 다행히 슈퍼마리오라는 친숙한 게임을 소재로 발표를 진행하여 많은 사람들이 관심있게 연구를 들어 주었다. 해외 학회에서 발표할 수 있었던 정말 좋은 경험이였다.

질문1. 해당하는 슈퍼마리오 맵 생성 연구에서의 한계점은 무엇인가?
답변1. 해당 연구에서는 슈퍼마리오 맵의 데이터의 제한이 존재하기 때문에 휴먼 피드백을 주어 제한된 데이터에서도 좋은 성능을 달성하였다. 그러나 휴먼 피드백을 주어 맵을 수정하는 과정에서 시간이 많이들고 비용이 많이 드는 문제가 발생한다. 이러한 한계점이 존재하고 문제를 해결하기 위해서는 다른 간접적인 방법의 휴먼 피드백을 줄 수 있는 방법론들을 사용해 볼 계획이 있다.
 
질문2. 이런 맵 생성이 실제 다른 게임에도 적용 가능한가?
답변2. 현재는 연구 목적으로 연구가 가장 많이 이루어지고 있는 슈퍼마리오 맵을 생성하는 연구를 진행하였고 추후에 다른 실제 게임에 적용할 계획을 가지고 있다. 다른 게임에서도 마찬가지로 좋은 성능을 나타내서 맵을 잘 생성할 것으로 예상된다.

[청취 후기]
Exploration in Reinforcement Learning Through Semi-Supervised Learning with Unlabeled Prior Data.
해당 연구는 기존의 강화학습 패러다임인 오프라인 강화학습과 온라인 강화학습의 한계를 극복하고자, semi-supervised learning 기법을 접목하여 성능을 향상시키는 방법을 제안한 것이 핵심이었다.일반적으로 강화학습은 에이전트가 환경과 직접 상호작용하며 학습하는 온라인 강화학습과, 과거의 상호작용 데이터를 활용하여 학습하는 오프라인 강화학습으로 구분된다. 각각의 방법론은 장단점이 명확하게 존재하는데, 온라인 강화학습은 상호작용이 가능하여 정책 학습에 뛰어나지만 초기에는 매우 비효율적일 수 있으며, 오프라인 강화학습은 안정적으로 빠르게 학습할 수 있으나, 상호작용이 불가능한 데이터에 내재된 한계로 인해 일반화 성능이 떨어지거나 오버피팅될 위험이 있다.
이러한 배경에서, 이번 연구는 미리 수집된 오프라인 데이터를 단순히 사용하는 기존 접근법을 넘어, semi supervised learning 을 통해 라벨이 없는 대규모 데이터를 적극적으로 활용하면 온라인 상호작용을 보다 효과적으로 이끌어낼 수 있지 않을까라는 문제의식에서 출발했다. 특히, 오프라인 데이터에 있는 구조적 정보를 더욱 풍부하게 활용함으로써, 에이전트가 실제 환경과의 상호작용에서 더 높은 성능을 달성할 수 있음을 보여주었다.전반적으로, 기존 강화학습 연구의 한계를 창의적인 방식으로 극복하려는 매우 흥미로운 시도였으며, 앞으로의 연구 방향 설정에도 많은 영감을 준 유익한 발표였다.