[학회 후기]

4/9~12일 일본 교토에서 열린 2026 ICIEA에 참가하였다. 2년전에 첫 해외 학회였던 ICIEA를 다시 참가하게 되어서 감회가 새로웠었다. 2년전에는 영어 발표 준비에 대한 부담감만을 학회 가기 전에 느꼈었다. 하지만 이번 준비에서는 이전보다 노벨티 있는 연구를 현장에서 발표하고 싶어서 자료를 좀 더 완성도 있게 만들고 자연스러운 영어발음을 연습했었다. 학회 기간동안 낮에는 따사로운 햇살과 교토에 있는 고즈넉한 정취를 느끼면서도 저녁만 되면 발표가 불안해 혼자 칵테일바에 가서 휴대폰에 PPT를 띄워 놓고 혼자 중얼중얼 연습한 것이 특히 잊지못할 추억으로 남을 것 같다. 그리고 여러 명의 연구실 인원과 함께 가는 해외 학회라 너무 즐거운 추억도 쌓을 수 있었다. 갔던 가게나 명소도 너무 좋았지만, 연구실 인원들 덕분에 여러 발표 세션도 경청하고 더욱 다양한 산업공학 연구들을 들을 수 있는 계기가 된 것 같다. 그리고 이번 학회는 개인적으로 2년전과 대비했을 때 영어로 질문을 많이 시도해보았는데, 아직도 영어가 부족하지만 내 의견을 전달하고 상대방의 의견을 들을 수 있는 소통을 여러 번 시도한 게 뿌듯했던 것 같다. 마지막으로 이렇게 많은 인원을 통솔하고 지도해주시고 좋은 기회 주신 교수님께 감사하다는 말씀을 전한다.

 

[발표후기]

이번 학회의 발표 주제는 "One-Shot Semi-Supervised Federated Regression with Diffusion Model"로 연합 학습이란 데이터가 분산된 상황에서 개별 클라이언트에서 모델을 학습한 뒤 서버로 업로드하여 파라미터를 공유하는 문제 상황이다. 이때, 클라이언트들이 자신의 데이터에 레이블을 붙일 동기가 부족할 수 있기에, 서버만 소량의 레이블 데이터를 보유하고 클라이언트는 레이블이 없는 준지도 연합 학습 상황을 가정할 수 있다. 기존의 준지도 연합 학습 연구는 분류 문제에만 집중되어 있어 회귀 문제에는 적용할 수 없었지만 제조, 의료 등 실제 산업 현장에서는 회귀 문제가 빈번히 등장하기 때문에, 회귀를 위한 준지도 연합 학습 방법론이 필요하며, 최근 디퓨전을 활용한 원샷 연합학습 방법은 클라이언트의 특징을 서버와 공유하는 방식을 사용했는데, 이 경우 원본 데이터가 복원될 수 있는 프라이버시 위험이 존재한다. 이에 우리는 클라이언트 특징을 공유하지 않는 대신, CLIP 기반의 텍스트 유도 구간 할당과 도메인 적응 이미지 생성을 통해 각 클라이언트의 도메인 스타일에 맞는 이미지를 생성하고, 이를 학습 데이터로 활용하는 회귀를 위한 프레임워크를 제안한다. 실험을 위해 CLIP 특징 공간에서 도메인 간 분리가 명확한 두 가지 새로운 다중 도메인 회귀 데이터셋도 새롭게 제안했으며 실험 결과, 극단적인 Non-IID 환경에서도 기존 비교 방법 대비 가장 높은 성능을 달성했으며, 모든 데이터 및 클라이언트 도메인에서 Upper bound에 근접한 결과를 보였다.

 

질문 1) 각 중요 모듈에 대한 제거 실험 결과는 있는지?

답변 1) 해당 부분은 Future works로 해당 성능도 곧 산출 예정이다.

 

질문 2) 테스트 데이터셋 개수가 몇 개정도 되는지?

답변 2) 데이터셋 마다 조금 다르지만 최소 만개로 이뤄져 있다.

 

질문 3) 회귀 데이터셋 인데 특히 성능이 안나오는 구간 y가 있는지?

질문 3) 아무래도 데이터 개수가 적고 나이 예측에서 맞추기 어렵다고 알려져 있는 1~10, 90~100 구간의 성능이 낮고 중간 정도인 30~40의 성능은 비교적 높은 편이다. 해당 부분도 추후 장표에 추가하겠다.

 

이번 내 발표 세선에는 주로 real value(실수)를 예측하는 방법론들이 소개되었다. 나 또한 회귀 예측이라서 해당 세션에 포함된 것 같으며, 첫 번째 발표였는데 짧은 시간안에 방법론을 전부 소개하려다 보니 조금 여유가 없이 빠른 템포로 발표를 한 것 같아서 아쉬움이 남았다. 그래도 세 번째 개인연구를 해당 학회를 통해 최대한 발전시켜서 발표했다는 것이 스스로 뿌듯한 지점이 있었다. 그리고 동일 세션의 다른 연구들은 주로 LSTM과 같은 순환 신경망이나 CatBoost, xgboost와 같은 머신러닝 모델을 주로 사용하였다. 최근에는 table 데이터로 사전 학습된 파운데이션 모델들이 좋은 성능을 보이고 있어서 해당 모델들을 사용한 결과도 있었으면 하는 나만의 바램이 있었지만 너무 참견을 하나? 라는 고민을 해서 해당 의견은 전달하지 못해 좀 아쉬움이 남는다. 영어 발표는 항상 어렵고 준비를 여러 번 해도 특정 단어에 대한 발음 등 확신이 아직은 좀 부족한 부분이 있는 것 같다. 영어는 기세다! 다음에는 더 열심히 기세를 펼쳐야겠다.

 

[청취후기]

Rethinking the Foundation Model for Wafer Map Pattern Recognition

기존 반도체를 위한 자가지도학습 방법론은 Masked AE(MAE)를 주로 많이 사용해 왔다. 하지만 기존 방법론은 일반 이미지를 위해 제안되었으며, 반도체 이미지는 특유의 특징을 가지고 있기에 이를 그대로 적용하는 것은 맞지 않다. 그래서 이를 해결하기 위해 다양한 반도체 특화 모듈을 적용한 자기지도 학습 방법론을 제안한다.

질문 1-) 해당 방법론은 반도체 이미지를 위해 특화된 방법론인 것 같다. 그러면 현실 제조 상황에 적용되기 위해 기존 방법론 대비 학습 속도나 복잡도에 대한 성능이 있는지?

답변 1-발표자) 해당 부분은 아직 확인하지 못했다. 나중에 확인해보겠다.

 

Hybrid Multi-Task Learning for Rare-Event Prediction of Scrap Rates in Golf Club Head Manufacturing

골프 클럽 헤드 제조 공정에서의 불량률 예측 연구로 실제 현업 데이터를 사용했으며 불량이 발생하는 빈도가 낮은 불균형 문제와 데이터 개수가 매우 적은 상황을 머신러닝 모델을 통해 해결했다. 다양한 머신러닝 모델 중 특히 CatBoost에서 높은 성능을 보였다.

질문 2-) 해당 데이터셋만 가지고 있는 변수에 대한 특이점이 있는지?

답변 2-발표자) 해당 변수는 회사 데이터로 오픈이 불가해서 어떤 변수인지를 얘기해줄 수 없다.