2024 한국데이터마이닝학회 추계학술대회 - 최지형
- 2024년 11월 25일 오후 8:40
- 조회수: 543
Reviewed by
최지형
2024년 11월 22일부터 23일까지 경주 화백컨벤션센터에서 열린 한국데이터마이닝학회 추계학술대회에 포스터 발표자로 참석하였습니다. 연구실에 들어와 처음으로 포스터 발표를 하게 되어 기대와 걱정이 공존하는 마음으로 준비했던 시간이었습니다. 먼 거리의 학회였지만, 연구실 동료들과 함께 연구를 준비하고 토의하면서 생소함은 금세 익숙함으로 바뀌었습니다.
이번 학회는 교수님들이 구두 발표를, 학생들이 포스터 발표를 맡는 새로운 구성이 매우 신선하고 유익하게 다가왔습니다. 특히 학생들 간에 서로의 포스터를 평가하고 투표하는 시스템 덕분에 포스터 세션에 활기가 더해졌고, 그 덕에 많은 참여와 발표가 이루어졌습니다. 이 과정에서 다양한 연구 주제에 대해 자유롭게 질문하고 의견을 교환할 수 있었던 점이 가장 뜻깊게 느껴졌습니다.
아래는 포스터 발표와 청취 중 인상 깊었던 대화를 요약한 것입니다.
포스터 발표 중 대화
Q1. 정형 데이터 대표 증강 기법인 SMOTE를 두고, CiFRUS 기법과 비교한 이유가 있을까요?
A1. 본 방법론은 증강 데이터와 원본 데이터 간 분포 차이가 클수록 뛰어난 성능을 보입니다. 클래스 내 보간을 통해 증강을 수행하는 SMOTE와 달리 CiFRUS는 클래스와 무관한 증강을 수행하므로 이러한 분포 차이가 더 큽니다. 이러한 대비를 명확히 하고자 SMOTE 대신 CiFRUS와 우선 비교하였습니다. 추후 SMOTE와 비교해 이를 보완하고자 합니다.
Q2. 특정 모델에서는 제안 방법론보다 CiFRUS가 우수한 성능을 보이는데, 이에 대한 고찰이 있나요?
A2. 현재 제안 방법론은 클래스 불균형 문제를 완전히 해결하지 못합니다. 증강 데이터와 원본 데이터 간 분포 차이가 크지 않을 경우, 클래스 불균형 문제를 해결하는 CiFRUS가 더 높은 성능을 보이는 것으로 분석했습니다. 다만 이는 특정 데이터셋이 아닌 특정 모델에서 CiFRUS가 우수한 성능을 보이는 이유는 설명하지 못합니다. 이에 대해서 추후 더 고찰해 보고자 합니다.
포스터 청취 중 대화
광운대학교 장유나 연구원의 'S3D-NAS: Self-Distilled Dirichlet Distribution Neural Architecture Search in Medical Image Segmentation' 발표 중 나누었던 대화입니다.
Q1. 네트워크 구조를 간략화하는 방법론으로 이해했습니다. 다만 이는 medical image segmentation에 대해서만 적용되는 방법론은 아닌 것 같습니다. 다른 태스크나 데이터셋에 대해서 실험해 볼 생각은 없으신가요?
A1. 말씀하신 대로 일반적인 영상 데이터셋을 분할하는 모델 간략화에도 적용을 해보았고, 어느 정도 성능 향상을 보였다. 추후 보완해 나가고자 한다.
Q2. 노드와 그 연결 관계를 달리하여 여러 네트워크를 만든 후 Dirichlet distribution을 바탕으로 최적 네트워크를 결정하는 것으로 이해하였습니다. 이때 노드 종류는 일종의 하이퍼 파라미터로 결정하나요?
A2. 네 맞습니다. 여러 종류의 레이어를 노드로 두고 이를 동일 확률 분포로부터 추출해 네트워크를 구성합니다.