2024 한국데이터마이닝학회 추계학술대회 - 이영환
- 2024년 11월 25일 오전 11:41
- 조회수: 175
Reviewed by
이영환

2024년 11월 22일부터 23일까지 경주에서 개최된 2024 한국데이터마이닝학회 추계 학술대회에 참석하였습니다. 기존의 학회 포맷과는 다르게, 구두발표는 교수님들과 각 기업체 직원들의 발표로 진행되어 짧은시간 안에 다양한 분야에서 진행된 양질의 연구들을 접할 수 있는 소중한 시간이었습니다. 또한, 대학원생들의 연구는 포스터세션에서 다루어졌으며, 관심있는 연구에 더 가깝게 다가갈 수 있었으며 다양한 질문을 주고받으며 의견을 교류할 수 있는 뜻깊은 시간이었습니다.
[포스터 발표 후기]
# 반도체 제조용 주사 전자 현미경 이미지의 약지도학습 기반 결함 분할
반도체 제조공정의 검사과정에서 획득된 불량 이미지를 원인 분석에 의미있게 활용하기 위해 진행한 연구입니다. 대량 양산공정에서 딥러닝 학습을 위한 레이블 데이터 획득이 어려운 점을 해결하기 위한 방법을 제시하였습니다. 아무래도 처음 보는 분들에게는 생소한 데이터이다보니 도입부에서 배경지식과 문제상황을 명확하게 전달하는 것이 무엇보다 중요하다는 것을 느꼈고, 그 과정에서 부족한점도 많다는 것을 느껴 좀 더 보완이 필요하다고 생각했습니다.
질문 1 - 학습 단계에서 pixel label이 사용되는건가?
답변 1 - 연구단계에서 데이터셋을 구성할 때에는 pixel-level label이 포함되어 있으나 이는 분할 성능을 평가하기 위한 목적으로만 사용되었다. 실제 모델의 학습 시에는 데이터 특성을 반영해 직접 생성한 Pseudo label을 통해 학습하고, 후처리 과정을 통해 정제된 레이블을 다음 라운드의 학습에 사용하는 방식을 사용하기 때문에 Pixel-level label은 학습에 직접적으로 사용되지 않는다.
질문 2 - 다른 형태의 결함 유형에는 어떤 식으로 확장 적용이 가능한가?
답변 2 - 이 연구에서는 특정 유형의 결함을 다루었으나, 현장에서는 훨씬 다양한 결함들이 존재한다. 분석이 필요한 결함의 특징을 잘 반영할 수 있는 컴퓨터 비전 알고리즘을 활용하여 Pseudo Label 생성 알고리즘을 재정립하는것이 중요하다.
[세션 청취 후기]
# 약지도학습(weakly-supervised learning)의 산업응용 사례 - 성균관대학교 강석호 교수님
나의 개인 연구분야와 정확하게 일치하는 발표 제목이어서 더욱 집중해서 청취하였습니다. 산업현장에서 딥러닝의 확산성을 제한하는 가장 큰 요소 중 하나인 '높은 labeling cost'는 반드시 해결해야 하는 문제입니다. 발표 도입부에서는 weakly supervised learning의 정의와 필요성에 대해 다뤄주셨으며, 특히 weak supervision을 크게 세가지 기준으로 정의해 주셨습니다. 이후에는 세가지 연구(태양광 모듈의 불량 셀 탐지, NMR 스펙트럼 예측, 위성관측 기반의 서리 예측)를 하나씩 소개해주셨습니다.
가장 인상적이었던 부분은 각 산업에서의 응용을 위해 레이블을 구성하는 과정에서 적극적으로 도메인 지식을 활용한 점 입니다. 연구를 처음 시작할 땐 모든 문제를 알고리즘, 모델의 관점에서만 해결해야 하고 모든 케이스에 대해 범용성을 가져야만 잘 된 연구인가 라는 생각에 사로잡혀있었습니다. 하지만 연구를 진행하면서, 산업현장의 응용과 확장성을 고민하는 단계에서는 특화된 문제상황에 유연하게 대처할 수 있는 것이 더 필요할 수 있으며 그 과정에는 도메인 지식의 적극적인 활용이 중요하다는 나만의 결론을 낼 수 있었습니다다. 그리고 이 세션의 발표를 통해 비슷한 접근을 한 연구들을 접하며 그 동안의 고민이 그리 틀리지 않았으며 비슷한 고민을 하는 연구자들도 있구나 라는 생각에 힘이 났습니다. 앞으로 현장에서 만나는 다양한 문제에 대해서도 도메인지식과 딥러닝 방법론의 효과적인 융합을 위해 많은 고민을 해야할 것 같습니다.
끝으로, 효율적인 학회를 위해 정말 치밀하게 고민하셨다 라는 느낌을 곳곳에서 느낄 수 있었으며, 이런 값진 경험을 할 수 있게 해준 교수님과 운영진께감사의 말을 전하고 싶습니다.