2024 한국데이터마이닝학회 추계학술대회 - 김재훈
- 2024년 11월 25일 오후 3:42
- 조회수: 324
Reviewed by
김재훈

[학회 후기]
올해 한국데이터마이닝학회 추계학술대회는 경주 화백컨벤션센터에서 개최되었다. 정말 오랜만에 다수의 연구실 인원들과 함께 참석한 학회였고 또한 포스트 발표는 처음 해보는터라 많이 기대되기도 하였다. 이번에는 학생이 구두 발표하는 것이 아닌 교수님들께서 구두 발표를 하시고 학생들이 포스터 발표를 하는 구성이었다. 처음 경험해보는 구성이라서 신선했고 또 더욱 유익했던 것 같다.
[발표 후기]
주제: 온라인과 오프라인 데이터를 활용한 준지도학습 기반의 혼합 심층 강화학습
이번 학회에서 처음 포스터 발표를 해보면서 구두 발표와 분위기나 진행 방식이 많이 다르다는 것을 느꼈다. 우선 구두 발표는 정해진 시간 안에만 발표를 마치면 끝이난다. 하지만 포스터 발표는 사람들이 계속 온다는 점과 설명하는 시간이 구두 발표보다는 현저하게 적어야 효과적이라는 것을 새삼 느꼈다. 원래 목이 약한편이긴 하지만 주변 환경이 시끄러워서 목소리를 크게 내다보니 연달아 두 번 설명하고 목이 쉬어버렸다. 뒤 이어 오는 사람들에게는 쇳소리로 설명을 해야해서 좀 아쉬웠다. 그리고 설명이 좀 길어지면 지루해하는 모습이 보이는 경우가 있어서 다음에 포스터를 할 때에는 좀 더 간결하게 설명을 준비해야겠다고 느꼈다.
- 질문 1: 실험한 환경에 대해서 좀 더 자세히 설명해주세요.
- 답변: 현재 총 6개의 실험 환경을 사용하였습니다. Adroit는 로봇의 손을 조작하는 환경인데요, 여기서는 펜 돌리기, 문 닫기, 그리고 물건을 지정된 위치로 옮기는 문제가 주어집니다. 해당 환경에서는 상태가 벡터 형태로 주어집니다. 반면 COG는 로봇팔과 집게를 조작하는 환경인데요, 여기서는 물건 집어 옮기기, 막고 있는 서랍 닫아서 물건 집기, 막고 있는 서랍 닫고 그 아래 서랍 열어서 물건 집기가 있습니다. 해당 환경에서는 상태가 이미지로 주어집니다.
[청취 후기]
이번 학회는 교수님들께서 구두 발표를 진행하였고 내용 하나하나가 매우 유익하였다. 특히 LLM 세션을 재밌게 들었는데 최근에 관련해서 연구를 하기도 하였고 다양한 주제로 연구가 세분화되는 분야이기도 하기 때문입니다. 마침 최근에 multi-agent debate 쪽으로 관심을 갖고 있었는데 관련 주제를 발표하신 교수님이 계셔서 재밌게 들었다. 또한 물리방정식 기반의 머신러닝은 존재한다 정도만 알고 있었는데 이번 기회에 개념을 확실하게 알게되어서 좋았다.
[PREDICT: Multi-Agent-based Debate Simulation for Generalized Hate Speech Detection (한양대학교 데이터사이언스학과 한경식 교수님)]
기본적으로 LLM의 답변은 편향성을 가질 수밖에 없다. 이는 어떤 데이터를 학습하는가에 따라서 성향이 나오는데 이를 기반으로 언어모델 별로 어떤 정치적 성향을 보이는지에 대한 연구가 있을 정도이다. 따라서 편향되지 않은 답변을 얻기 위한 연구들이 진행이 되었는데 그 중 하나가 multi-agent debate 프레임워크이다. PREDICT는 그 중에서 혐오발언 탐지에 해당 프레임워크를 사용한 연구이다. 혐오발언이라는 레이블은 상당히 주관적일 수밖에 없다. 누군가에게는 일반적인 표현이지만 또 다른 누군가에게는 혐오 표현이 될 수 있기 때문이다. 따라서 데이터셋마다도 그 기준이 달라 비슷한 텍스트이지만 레이블이 다르다고 한다. 따라서 PREDICT에는 에이전트간의 토론을 통해서 주어진 텍스트가 혐오표현에 해당하는지를 각자의 주장과 반박을 통해서 논의를 한다. 그리고 마지막에는 이 논의된 내용을 기반으로 심판을 맡고 있는 에이전트가 최종 결정을 내리는 구조이다. 개인적으로 이러한 구조는 추후 해석 가능한 모델링으로도 발전할 여지가 있다고 생각을 했다. 왜냐하면 판단과 그 근거가 명확하게 출력 값으로 드러나기 때문이다.
[Physics-informed Machine Learning for Engineering Applications (한국공학대학교 경영학과 강지훈 교수님)]
머신러닝의 한계점 중 하나는 학습한 데이터 안에서만 패턴을 찾기(interpolation) 때문에 그 이상의 패턴을 찾는(extrapolation)데에는 한계점이 있다. 특히 자연현상에 대한 모델링이 그러한데 간단한 진자운동의 경우 물리방정식을 적용하면 정확한 패턴을 찾을 수 있는 반면 머신러닝은 데이터로 알 수 있는 패턴까지만 찾을 수 있다. 한편 물리방정식은 굉장히 제한된 환경에서만 적용할 수 있기 때문에 해당 환경을 벗어났을 때에는 잘 안 맞을 수도 있다는 단점이 있다. 따라서 이 두 장점을 취하고 단점을 완화한 방법론이 physics-informed ML이다. 일반적으로는 머신러닝의 손실함수에 물리방정식을 추가하여 학습하는 방식을 쓴다.