[학회 후기]
양재에서 열린 데이터마이닝학회에 참석하였다. 작년 강릉에서 참석한 이후, 2번째 참석이다. (1) 늘 발표자로만 참석했던 것과 다르게, 이번 학회는 스태프로 참가하였다. 4개 세션의 조교로 참석했으며, 좌장 보좌 및 세션 진행에 도움을 주었다. 단순하게 청취자 입장이 아닌 스태프 역할에 집중하면서 좌장님들과 다양한 대화를 나눌 수 있었고, 색다른 관점에서 학회를 경험할 수 있었다. (2) 데이터마이닝학회의 내용은 정말로 풍성했다. 생성형AI 시대에 걸맞게 디퓨전 등 다양한 생성 모델에 대한 발표가 진행되었고, 굉장히 흥미롭게 청취할 수 있었다. 개인적으로 여러 국내 학회 중에서는 데이터마이닝 학회가 가장 들을만한 발표가 많다고 생각한다. (3) 특히, 이번 학회는 우리 연구실이 주관하여 개최한 학회라는 점에서 더 인상 깊다. 교수님/세진누나/민성이를 필두로 하여 학회 프로그램이 구성되었고, 계획했던 것을 모두 실행한 완벽한 학회였다고 생각한다. (4) 이번 학회에서는 정인이형과 민지누나가 수상하였다. 훌륭한 발표가 많았던 학회에서 이렇게 큰 상을 수상한 두 사람을 통해 우리 연구실의 경쟁력을 다시 한번 느낄 수 있었다.

[청취후기]
[1] 노이즈 레이블 데이터셋에서의 클래스 불균형을 고려한 클린 샘플 선택 방법 (최치현, 동국대학교)
노이즈 데이터를 필터링하는 기법은 최근 노이즈 레이블 Learning분야에서 가장 좋은 성능을 보이고 있다.  본 연구도 기존 연구들의 흐름에 맞추어 필터링 기법을 새롭게 제안하였다. 기존 연구들은 배치 내에서 필터링하기에, 데이터가 불균형하다면 Major Sample들에 대해서만 잘 학습이 되었다. 하지만, 본 연구는 Class 단위로 Loss가 작은 데이터를 선별함으로써 데이터가 불균형한 상황에서도 우수한 성능을 달성할 수 있었다. “Simple is Best”라는 말이 있듯이, 굉장히 직관적이면서 효과적인 방법론이었다. 다만, 본 방법론은 그저 Class별로 Loss가 작은 Sample들만을 선별하기에, 학습에 유의미한 올바른 Sample들이 학습에 반영되지 못할 것 같다는 생각이 들었다.

[2] 오픈셋 능동 학습에서 학습 분포 외 데이터 탐지를 위한 사전 훈련된 시각-언어 모델을 활용 (허재혁, 고려대학교)
OOD 데이터가 존재하는 상황에서 OOD를 효과적으로 필터링하면서 능동 학습(Active Learning)을 할 수 있는 방법론을 제안한다. 이때, Vision-Language 사전학습 모델인 CLIPN을 활용하였으며, 별도의 훈련과정 없이 낮은 비용으로 우수한 성능을 달성할 수 있었다. 다만 Language가 전혀 필요 없는 Task인데, Vision-Language 사전학습 모델을 사용한 이유와 좋은 성능을 보인 이유에 대해서는 아직까지 명쾌하게 이해하지 못했다.

[3] Heterogeneous Random Forests (김예은, 연세대학교)
기존에 익숙한 딥러닝 모델이 아닌, 머신러닝 모델을 개선한 발표였다. Random Forest는 여러 Tree를 앙상블한 모델로, 각 Tree의 다양성과 각 성능이 중요하다. 이때, 본 연구는 개별 Tree의 다양성을 개선하고자 하였다. Root에 가까운 분리 변수가 가장 Tree 성능에 유의미한 영향을 끼친다는 것을 기반으로 하여, Root에 다양한 변수가 적용되도록 통계적인 샘플링 기법을 기반으로 모델을 설계하였다. 실험적으로 우수한 성능을 보였지만, 데이터셋 별로 큰 차이가 났던 것은 다소 아쉬운 포인트였다.