2024 한국데이터마이닝학회 춘계학술대회 - 정구진
- 2024년 6월 2일 오전 12:33
- 조회수: 11045
Reviewed by
정구진

[학회 후기]
2024년 5월 30일 양재에서 열린 한국데이터마이닝학회에 청취자로 참석하였다. 개인적으로 데이터마이닝 학회 참관은 처음이였고, 모든 연구실 인원이 다 같이 참석하여 의미가 있었다. 학회장이 접근성이 좋아서 참관하기엔 더욱 더 좋은 환경이었다. 산업인공지능 응용, 이미지/영상 데이터 마이닝, 경영공학 및 공공서비스 데이터마이닝 등 다양한 세션이 열렸고, 다양한 연구분야의 동향에 대해서 간접적으로나마 들을 수 있어서 의미 있었다. 6층을 제외하고는 홀이 가까워서 중간에 듣고 싶은 발표를 듣기 위해 옮겨다니기 수월해서 듣고 싶은 발표를 참관하는 부분에서도 좋았다. 우리 연구실의 발표 내용을 제외한 몇 가지 내용에 대해서 감상을 남긴다.
[발표 후기]
- Shorcut3-ResNet과 Geated Attention BiLSTM을 통합한 웨이퍼 결함 분류 알고리즘
반도체 웨이퍼 제조 과정의 결함 패턴을 식별하고 분류하기 위한 방법론을 제안하였다. 기존 성능의 향상을 위해 이미지 및 시계열 데이터를 통합하여 활용하였다. Shorcut3-ResNetBlock과 MaxPool2d의 조합을 통해 이미지 데이터를 저차원으로 변환하고, 이 특성들은 Gated Attention BiLSTM을 통해 시퀀스 데이터와 결합하여 이들의 중요 특성을 통합하여 정밀한 결함 판별을 수행한다. 결과적으로 94.71%라는 비교적 높은 분류 정확도를 달성한다. 개인적으로는 웨이퍼의 bin map을 flatten하게 만들어서 시계열 데이터로 변환하는 것이 어떤 의미를 가지는지 잘 이해하지 못했다. Bin map은 공간적 정보가 중요한데 그런 부분이 소실되는 점이 아쉬운 부분이 될 수 있겠다는 생각이 들었다.
- MRI data augmentation via Denoising Diffusion Probabilistic Model
MRI 데이터 활용이 제한되고 있는 상황에서 데이터 증강을 목표로 diffusion 모델을 접목한 연구이다. MRI와 같은 이미지를 비슷하게 생성해내기 위해 rician noise를 적용하여 MRI에 특화된 이미지를 생성하는 diffusion 프로세스를 구축하고, rician 노이즈의 진폭과 표준편차에 대한 hyper-parameter tuning을 수행하여 다른 노이즈 대비 우수성을 입증하였다. Diffusion 모델들을 공부하면서 노이즈 스케쥴링에 대한 중요성을 언급하는 연구는 많이 접했는데, 노이즈 자체를 바꾸는 것은 잘 보지 못하였다. 그러한 관점에서 새로운 insight를 얻을 수 있었던 발표였다.
- 노이즈 레이블 데이터셋에서의 클래스 불균형을 고려한 클린 샘플 선택 방법
노이즈 레이블은 모델의 일반화 성능을 하락시킨다. 해당 연구는 노이즈 레이블이 포함된 클래스 불균형 데이터셋에 대해 다수 클래스 뿐 아니라 소수 클래스에서도 클린 샘플을 성공적으로 선택할 수 있는 샘플 선택 방법을 제안하였다. 클래스 단위로 loss가 작은 데이터를 선별하였고, 결과적으로 모든 클래스에서 클린 샘플을 효과적으로 선택할 수 있었다. DMQA 오픈세미나에서도 클래스 불균형 문제는 자주 접할 수 있는데, 그 중에서도 노이즈 레이블에 대해서 접근하는 연구도 있다는 것을 알았다. 또한 굉장히 직관적인거 같으면서도 더 다양한 테스트 결과에서도 모두 잘 작동할 것인가 하는 의문은 들었다.
짧은 시간안에 다른 사람의 연구를 이해한다는 것은 쉽지 않은 일이다. 그런 측면에서 어느 정도 내가 아는 만큼 더 잘 이해한다고 생각한다. 더 폭 넓은 이해를 위해 나 또한 평소에 다양한 분야에 관심을 가지고 이해할 수 있는 연구자가 되어야겠다는 생각을 하였다.