- 2024년 11월 25일 오후 3:11
- 조회수: 193

2024년 11월 22일~23일에 진행된 2024 한국데이터마이닝학회
추계 학술 대회에 참석하였습니다. 이번 학회에서는 1개의
키노트 튜토리얼과 26개의 초청 구두 발표, 128개의 포스터
발표가 진행되었습니다. 특히 이번에는 연구실 인원 전체가 포스터 발표에 참여하는 뜻깊은 학회였습니다. 1박 2일로 진행되는 학회는 처음 참석하게 되어 조금은 설레는 마음으로
다녀왔습니다. 특히 포스터 세션에서 여러 대학원생들의 연구 사례를 알아보고 질의 응답을 통해 의견을
교류할 수 있었던 부분이 가장 좋았습니다.
[포스터 발표 후기]
“시계열 및 이미지 멀티모달 입력 데이터를 활용한 반도체 공정 소재
이상치 탐지”
본 연구는 반도체 제조공정에서 발생하는 소재 품질 데이터의 양불판정을 위해 이상치를 탐지하는 딥러닝 모델 방법론을
제안했습니다. 현재 상황에 대한 문제점을 제시하고 그에 따라 문제를 해결하고, 성능을 향상시킬 수 있는 방법에 대해 설명하였고, 설명하는 과정에서
반도체 도메인 지식을 잘 이해할 수 있게 하는 것과 왜 멀티 모달을 사용했는지 설명하는 부분이 중요점이었습니다.
생각보다 많은 분들이 관심을 가져주셨고, 특히 데이터를 변환하는 부분과 싱글모달로 하면
어떤지에 대한 질문들도 해주셨습니다. 실험결과를 토대로 답변을 잘 하였고, 또 어떤 분들은 반도체 데이터에 대한 질문들도 해주셨습니다. 제가
가진 현업 경험을 토대로 좋은 답변을 드릴 수 있어서 보람이 있었습니다.
질문 1: 데이터를 이미지로 변환한 이유와 왜 MTF 이미지 변환 방식을 이용하였는지?
-
답변: 시계열 데이터가 가지고 있는 시계열 정보
외에 공간적 정보를 통해 데이터 간의 연관 정보를 더 풍부하게 활용하기 위해서 사용하였고, 또 MTF 이미지 인코딩 방식을 사용한 이유는 주로 시계열 데이터를 이미지 데이터로 변환하는 여러 방법들을 다 실험해보고
그 중 가장 높은 성능의 인코딩 방식을 채택하였습니다. 데이터마다 적합한 인코딩 방식이 다를 수 있기
때문에 직접 실험해보는 방법으로 진행했습니다.
질문 2: 멀티 모달 입력으로 하지 않고 하나의 모달만 써도 성능이
충분한가요?
- 답변: 하나의 모달 입력 대비 멀티 모달 입력이 성능에 얼마나 더 효과적인지 확인하기 위해, 제안방법론에서 하나의 모달리티를 제거하는 실험을 진행하였고, 그 결과 시계열 데이터만 사용했을 때는 4.1%정도 성능이 저하되었고, 이미지 데이터만 사용했을 때는 7.5%정도 성능이 저하됨을 알 수 있었습니다. 따라서 하나의 모달을 사용하는 것보다 멀티 모달을 사용하는 것이 성능을 향상시키는 데 훨씬 도움이 됨을 입증할 수 있었습니다.
[초청 구두 발표 후기]
이번 학회는 포맷이 완전히 다른 특별한 학회였습니다. 학생들이 구두 발표를 하는 것이 아니라 교수님들께서 직접 구두 발표를 해주셨다는 점에서 굉장히 특별했습니다. 교수님들께서 진행중인 여러 연구에 대해 청취하며 영감을 받을 수 있었던 점과 평소에 가질 수 없는 소중한 기회였기 때문에 더더욱 열심히 세션을 들었던 것 같습니다. 저는 첫째날에 “[A-1] 기업 AI 활용 사례 및 산학협력-1” 세션과 둘째날에는 “[B-3] Real-World Applications of AI-2”세션을 청취하였습니다. 그 중 가장 인상깊었던 두 발표에 대해 작성해보겠습니다.
#[A-2] 유태선 교수님, 항만
및 조선 분야 운영 모델링 및 최적화 산학협력 사례: 산업 및 데이터 특성 분석
해당 연구는 부경대학교 유태선 교수님께서 항만 및 조선 분야에 대한 연구들을 소개해주셨습니다. 그동안 들어보지 못했던 영역의 데이터여서 조금 더 관심이 갔었습니다. 항만에서는 컨테이너 터미널 야드를 잘 운영하기 위한 이슈를 해결하기 위한 데이터 활용이 중요했습니다. 특히 효율적인 적재를 위한 크레인 스케쥴링과 그리고 공간활용을 위한 적재 위치 지정 등을 잘 해결하기 위해서 최단거리 최적화와 교통 컨디션의 데이터를 활용하여 실시간으로 하역장에 적양하를 잘 할수 있도록 예측하는 연구를 진행하셨습니다. 일단 굉장히 신선한 데이터였고, 또 항만에서 다뤄지는 데이터의 현실 크기가 반도체와는 다르게 엄청 크다보니 그럼 부피와 무게에 대해서도 고려해야할 부분이 크다는 것을 알 수 있었습니다. 특히 시뮬레이션이 무엇보다도 중요한 역할을 할 것 같습니다.
#[B-3] 강석호 교수님, 약지도학습의 산업 응용 사례
강석호 교수님께서는 약지도학습을 이용한 여러 산업 분야에서 진행중인 연구에 대해 소개해 주셨습니다. 먼저 태양광 모듈의 불량 셀 탐지라는 연구에서는 약지도학습을 개별 셀 단위 레이블링 대신 모듈 단위의 레이블링을 사용하여 더 쉽고 레이블 비용을 줄일 수 있었습니다. 또 물질의 NMR 스펙트럼을 예측하는 연구에서는 NMR 기반의 물질 구조를 규명하기 위해 연구하셨는데, 대규모 후보 물질 DB에 대한 화학적 Shift를 모두 실험적으로 얻기 어렵다는 문제가 있기 때문에 GNN 기반으로 예측모델을 만들어 해결하셨습니다. 바로 원자단위가 아닌 분자단위로 레이블링된 학습데이터를 약지도학습으로 사용하는 것인데, 대부분의 문제를 해결해주었지만 대신 스펙트럼의 shift 값이 어떤 원자에 직접 대응되는지는 알 수 없다는 점이 아쉬웠습니다. 만약 이부분까지 해결된다면, 많은 제조업에서는 화학물질을 사용하기 때문에 이 약지도학습을 이용한 NMR 스펙트럼 예측 연구가 중요한 도움을 줄 수 있을 것 같습니다.