Conference

Conference

Number of entries: 737 (필터 적용됨)
29
2026.04

2026 International Conference on Learning Representations (ICLR) - 허종국

2026년 4월23일부터 열린 ICLR 학회에 참석하고자 브라질 리우 데 자네이루에 방문하였다. 연구실 생활하면서 "AI 연구자로써 한번 쯤 나도 저런 학회가서 발표하고 청취하고 싶다"라고 계속 꿈꿔왔는데, 이번에 poster session을 통해 여러 연구자들과 커뮤니케이션하면서 연구 아이디어도 교류하는 기회를 가질 수 있어서 너무 좋았다. 학회에는 oral presentation 및 poster presentation 합쳐 약 5300편의 논문이 발표되었으며, 다양한 논문들에 대한 청취를 한 후 전반적인 후기를 남긴다. [학회 후기]1. Physical AI 관련 연구 증가최근 5년 내에 Google의 RT series부터 시작하여, Physical Intelligence 의 Pi-series 등 vision-language-action model (VLA) 연구가 대두되고 있다. 내가 강화학습 및 로봇에 관심을 가지고 연구하고 있어서 이 분야 연구 수요가 증가한다는 것을 어느 정도 느끼고는 있었으나, 이번 ICLR에서 그 수요를 가히 피부로 느낄 수 있었다. 지금으로부터 약 5년전 Google이 RT1과 RT2를 처음 소개하였을 때는 vision-language-model (VLM)에 action을 예측하는 모듈을 붙여 로봇에 실행하는 연구가 태동하였다. 이때까지만 하더라도, 구글이나 굉장히 큰 기업에서 시도해볼만한 프로토타입에 불과하였다. 그리고 약 2~3년전부터는 flow-matching이나 diffusion policy를 통해 long-term sequence를 예측하도록 모델 자체를 고도화하는 연구 + 관절의 개수가 다르거나 다른 모터를 가진 기계(embodiment)에도 범용적으로 적용할 수 있는 cross-embodiment 연구가 대두되었다. 그렇다면 현재 로봇 연구는 어디를 향해 달려가고 있을까? 내가 이번 학회를 통해 살펴본 바로는 크게 Physical AI 쪽 연구는 크게 3갈래가 보였다. 각 분야에 대한 간단한 소개 + 이에 대한 대표 연구를 참조하였다. 1-1. 장기 행동 수행을 위한 memory module [1, 2]: 기존 연구들은 VLA가 입력 이미지와 센서값을 입력받아 단기 행동을 출력하는 것이었다. 허나 이런 방법론들은 과거에 무슨 행동을 하였는지에 대한 정보를 잊어버리기 쉽기 때문에, 장기적인 플랜을 가진 태스크를 풀기가 어렵다. 즉 순차적인 행동 순서를 요구하는 태스크를 실행할 때 있어, 내가 앞서  어떠한 행동을 하였는지 기억하지 못하기 때문에 과거 순서를 반복적으로 행동한다던가, 또는 과거 sub-task를 실패(failure)하였을 때, 이를 복구하지 않고 다음 태스크로 넘어간다던가의 문제가 존재한다. 따라서 인지 모듈 및 행동 모듈 뿐만 아니라 과거 행동에 대한 기억을 retrieval 할 수 있는 memory module을 추가하여 장기 태스크를 극복하자는 연구가 등장하였다. 1-2. CoT 및 reasoning 기반 행동 수행 [3]: Chain-of-thought (CoT) 프롬프트는 LLM 및 VLA에서 태스크 성능을 비약적으로 올려주었다. VLA에서도 마찬가지로 CoT를 활용하여 로봇이 단순히 “인지-행동” 하지 않고, “인지-추론-행동”하도록하여 태스크 성능을 비약적으로 올리는 연구가 대두되었다. 또한 이러한 추론 테크닉은 달성하고자 하는 태스크를 잘게 쪼개어 sub-task에 대한 planning을 구성함으로써 1-1에 소개하였던 장기 태스크를 수행하는 또 다른 테크닉으로도 쓰일 수 있다. 다만 실제 환경과 상호 작용이 없어 추론과정 추가로 인한 속도 저하와 크게 상관없는 VLM과 달리 VLA는 실제 변화하는 환경에 대응해야하기 때문에 모든 step마다 reasoning을 하는 것이 어렵다. 이러한 문제를 타파하기 위해 think module과 action module을 별개로 두어서, reasoning은 일정 스텝마다 갱신하되, action은 reasoning된 결과를 함께 넣어 식의적절한 행동을 추론하는 방식으로 수행한다. 1-3. 데이터 효율성 증가를 위한 사전 학습 방법론 [4, 5, 6]: 대부분의 VLA는 사전학습을 하기 위해 로봇의 행동에 대한 비디오 뿐만 아니라 각 프레임 별 어떠한 행동을 했는지에 대한 action label또한 필요하다. 하지만 이러한 robot demonstration 데이터는 수집하기 어렵다. 이러한 data inefficiency를 해결하기 위해 현재 상태 및 다음 상태를 입력하여 그 사이에 어떠한 행동이 있었는지 예측하는 inverse dynamics model을 학습하여 각 프레임별 action을 예측하는 시도가 등장하였다. 또한 일부 연구에서는 model-based RL처럼 다음 상태까지 예측하는 world model을 도입하여 추가 상호작용 없이 VLA를 학습하고자 하는 시도 또한 존재한다. 또 흥미로웠던 연구는 bi-manual (dual arm) 태스크에 대한 학습 데이터의 부족을 해결하기 위해, 우선 데이터가 많은 개별 single-arm을 학습 시킨 후, 2개를 결합하여 소수의 bi-manual data로 학습하는 시도, 그리고 게임 데이터를 활용하여 로봇을 학습하는 방법론도 등장하였다. 즉 데이터 효율성을 해결하기 위한 연구는 기존의 semi-/self-supervised 방법론보다 훨씬 더 고차원적이고 다양화되었다. 2. 기타 학회 주요 트렌드VLA뿐만 아니라, VLM의 복잡한 수학 문제 해결을 위한 reasoning 기법 [7], diffusion 기반 강화학습에서의 sub-goal 생성 [8], 3D-aware RL [9], 그리고 웹 에이전트의 OOD 문제 해결 [10] 등 다양한 분야에서 활발한 연구가 진행되고 있다. 이러한 연구들은 겉보기에는 서로 다른 개별 분야처럼 보이지만, 궁극적으로는 하나의 공통된 목표를 지향한다. 즉, 특정 문제를 해결하기 위한 좁은 범위의 기술 개발을 넘어서, 실제 인간과 상호작용할 수 있는 고도의 사용자 친화적 AI를 어떻게 구축할 것인가에 대한 고민이다. 이러한 흐름은 ICLR의 첫 번째 기조연설에서도 잘 드러난다. 해당 연설은 인간 중심 AI를 주제로, 단순히 기능적으로 뛰어난 시스템을 넘어서 인간과 감정적으로 교류하고 지속적으로 상호작용할 수 있는 AI를 만들기 위한 철학과 방향성을 제시하였다. 특히 이 논의는 VLA에 국한되지 않고, 다양한 세부 연구 분야를 아우르는 공통된 문제의식을 보여주었다. 따라서 특정 연구 분야에 집중하더라도, 다른 분야에 대한 탐색을 소홀히 해서는 안 된다는 점을 깨달았다. 한 분야에서 개발된 기법은 다른 분야에 자연스럽게 확장·응용될 수 있으며, 이러한 융합적 접근이야말로 보다 범용적이고 인간 친화적인 AI를 구현하는 데 필수적이다 (일례로, 강화학습 및 VLA를 공부하기 위해서는 최근 CoT, diffusion을 알아두어야 고도화할 수 있는 부분이 많다). [1] Shi, H., Xie, B., Liu, Y., Sun, L., Liu, F., Wang, T., Zhou, E., Fan, H., Zhang, X., & Huang, G. (2026). MemoryVLA: Perceptual-cognitive memory in vision-language-action models for robotic manipulation. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=54U3XHf7qq[2] Sridhar, A., Pan, J., Sharma, S., & Finn, C. (2026). Scaling up memory for robotic control via experience retrieval. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=1dH4ARGdwD[3] Mazzaglia, P., Sancaktar, C., Peschl, M., & Dijkman, D. (2026). Hybrid training for vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=IBJtOltTbx[4] Chen, X., Wei, H., Zhang, P., Zhang, C., Wang, K., Guo, Y., Yang, R., Wang, Y., Xiao, X., Zhao, L., Chen, J., & Bian, J. (2026). Villa-X: Enhancing latent action modeling in vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=y5CaJb17Fn[5] Im, H., Jeong, E., Kolobov, A., Fu, J., & Lee, Y. (2026). TwinVLA: Data-efficient bimanual manipulation with twin single-arm vision-language-action models. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=jG9W6nAwVz[6] Choi, S., Jung, J., Seong, H., Kim, M., Kim, M., Cho, Y., Kim, Y., Park, Y. B., Yu, Y., & Lee, Y. (2026). D2E: Scaling vision-action pretraining on desktop data for transfer to embodied AI. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=TRwQND3xpt[7] She, S., Bao, Y., Lu, Y., Xu, L., Li, T., Zhu, W., Zhang, J., Huang, S., Cheng, S., Lu, L., & Wang, Y. (2026). DuPO: Enabling reliable self-verification via dual preference optimization. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=SD8Z231C45[8] Haramati, D., Qi, C., Daniel, T., Zhang, A., Tamar, A., & Konidaris, G. (2026). Hierarchical entity-centric reinforcement learning with factored subgoal diffusion. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=TimC6hxVHj[9] Mun, S., Lee, Y., Min, C.-H., Hong, M., & Kim, Y. M. (2026). 3D-aware disentangled representation for compositional reinforcement learning. In Proceedings of the Fourteenth International Conference on Learning Representations (ICLR 2026). https://openreview.net/forum?id=GE0IFoDx8a[10] Zadeh, F. P., Choi, S., Lü, X. H., Reddy, S., & Kim, G. (2026). Weasel: Out-of-domain generalization for web agents via importance-diversity data selection. In ICLR 2026 Workshop on Lifelong Agents: Learning, Aligning, Evolving. https://openreview.net/forum?id=ixNDssFCkd
Reviewed by 허종국 허종국
2026.04.29
Read More
27
2026.04

2026 International Conference on Learning Representations (ICLR) - 김성범 교수님

1. 2026년 ICLR학회는 브라질 리우데자네이루에서 열렸다. 남미에서 열리는 학회는 흔치 않은 데다, 나 역시 아직 남미를 한 번도 가보지 못했기에 오랜 전부터 기대가 컸다.   2. 이번 학회에는 총 19,525편의 논문이 제출되었고, 그중 27%만이 채택되었다. 우리 연구실에서는 강화학습 분야로 한편의 논문을 발표하였다. 3. 학회장인 Riocentro 컨벤션 센터는 규모가 매우 컸다. 다른 학회에서는 포스터 세션 공간이 늘 다소 비좁게 느껴졌는데, 이번에는 여유 공간이 충분해 훨씬 쾌적하게 포스터를 둘러볼 수 있었다. 4. 2024년 ICLR의 주요 키워드가 LLM이었다면, 2년이 지난 이번 학회의 키워드는 단연 agent인 것 같다. 아마 내년이나 후년쯤에는 physical AI가 새로운 중심 키워드로 떠오르지 않을까 예상해 본다. 5. 물리 모델의 한계를 극복하기 위해 등장한 AI가 이제는 물리 모델과의 협력 없이는 더 이상 충분하지 않다는 사실을 깨닫고 있는 듯하다. Physics-based AI에 대한 연구도 더욱 활발해지고 있다. 6. 알파고 이후 강화학습이 다시 제2의 전성기를 맞이하는 것 같다. 그도 그럴 것이 강화학습은 LLM, agent, physical AI 모두에 필수적인 요소다. 이와 더불어 diffusion models, domain adaptation/generalization, vision-language models, time-series models 등 우리 연구실에서 활발히 연구하고 있는 분야에서 많이 발표 되었다. 7. On-line 강화학습의 가장 큰 걸림돌은 늘 시뮬레이터의 확보였는데, 이제는 이를 world model로 대체하려는 시도가 본격화되고 있다. 이것이 가능해진다면 강화학습 연구는 한층 더 큰 동력을 얻게 될 것이다. 8. 현재 AI가 주로 정적인 데이터셋으로부터 학습한다면, 앞으로의 AI는 현실을 흉내 낸 환경으로부터 학습하게 될 것이다. 9. 결국 AI 연구의 궁극적인 목표는 진정한 foundation model을 만드는 데 있지 않을까 싶다. 현재는 vision, language, vision-language, time series 등 각 영역 별 foundation model이 활발히 연구되고 있지만, 머지않아 이 모든 것을 하나의 모델로 해결하는 날이 올지도 모른다. ChatGPT, Claude, Gemini 등 주요 모델들이 선두를 엎치락뒤치락하며 빠른 속도로 그 목표에 다가가고 있다. 10. 이번 학회를 통해 우리 연구실뿐 아니라 내가 가르쳤던 학부생들 가운데 적지 않은 이들이 학계에 진출해 활발히 활동하고 있었다. 이제 나의 역할도 조금씩 달라져야 할 것 같다. 나 자신의 성장보다는, 이들이 더 잘 성장할 수 있도록 최대한 돕는 것이 앞으로의 중요한 나의 역할이 아닐까 생각한다.
Reviewed by 김성범 교수님 김성범 교수님
2026.04.27
Read More
15
2026.04

2026 IEEE-13th ICIEA - 이혜승

[학회 후기]4/9~12일 일본 교토에서 열린 2026년 ICIEA에 참가하였다. 이번 학회에서는 스마트 팜, 제조 시스템, AI 기반 예측 모델 등 다양한 산업공학 및 인공지능 연구를 접할 수 있었으며, 특히 실제 산업 현장과 연결된 연구들이 많아 흥미롭게 들을 수 있었다. 학회 기간 동안 여러 세션을 들으며 기존에 관심 있던 분야뿐 아니라 새로운 연구 흐름도 접할 수 있었고, 이를 통해 연구 주제에 대한 시야를 넓힐 수 있었다. 또한 해외 연구자들의 발표를 직접 듣고 질의응답을 지켜보면서, 연구 내용을 효과적으로 전달하는 방식과 발표 구조에 대해서도 많은 인사이트를 얻을 수 있었다.특히 이번 학회는 나에게 첫 해외 학회 발표라는 점에서 더욱 의미가 컸다. 처음에는 많이 떨렸지만, 그만큼 발표를 위해 철저히 준비한 덕분에 무사히 잘 마무리할 수 있었다. 발표를 통해 스스로의 연구를 다시 한 번 정리해볼 수 있었고, 앞으로 더 발전시켜 나가야 할 방향에 대해서도 고민해볼 수 있는 계기가 되었다. 이번 학회는 단순한 발표 경험을 넘어, 앞으로의 연구 방향을 고민해볼 수 있었던 의미 있는 시간이었다.[발표 후기]이번 학회에서는 “Radial Loss: Enabling Few-Shot Instance Segmentation for Crop Images”라는 주제로 발표를 진행하였다.본 연구는 스마트 팜 환경에서 작물 이미지를 인스턴스 단위로 분할하는 문제를 다루며, 특히 작물 간 간격이 좁고 경계가 모호한 환경에서 발생하는 segmentation 성능 저하 문제를 해결하고자 하였다. 기존에는 IoU loss나 Star-shape prior와 같은 방식이 사용되었지만, 이는 여러 개의 작물이 겹쳐 있는 상황에서 경계를 명확하게 구분하는 데 한계가 있었다. 이에 본 연구에서는 작물의 형태적 특성(대체로 중심에서 바깥으로 퍼지는 구조)에 착안하여, 중심점으로부터 방사형으로 샘플링을 수행하는 Radial Loss를 제안하였다. 또한 boundary 영역에 더 집중적으로 학습이 이루어지도록 Dynamic Search 기법을 함께 적용하였으며, 실험 결과 few-shot 환경에서도 기존 방법 대비 일관된 성능 향상을 확인할 수 있었다.발표 이후에는 몇 가지 의미 있는 질문을 받을 수 있었다.질문1) 상추와 같이 원형 구조가 아닌 작물에도 적용 가능한가요? 답변1) 제안한 방법은 다른 작물에도 적용 가능하지만, 본 연구에서 가정한 형태적 특성과 다를 경우 성능 향상의 정도는 달라질 수 있습니다.질문2) IoU loss를 완전히 대체할 수 있나요? 답변2) 이론적으로는 가능하지만, 현재 연구에서는 IoU loss와 함께 사용하는 것이 더 안정적인 성능을 보일것으로 예상되며 추가 실험을 통해 더 검증해보겠습니다.질문3) 사용한 데이터셋은 기존 벤치마크와 어떤 차이가 있나요? 답변3) 기존 데이터셋은 이미지당 단일 객체가 포함된 경우가 많은 반면, 본 연구의 데이터셋은 한 이미지에 최대 20개 이상의 작물이 포함되어 있어 훨씬 더 복잡하고 challenging한 환경입니다.질문4) segmentation 결과에서 마스크가 조각처럼 깨지는 이유는 무엇인가요? 답변4) FastSAM이 YOLOv8-seg 기반으로 bounding box를 먼저 예측한 뒤 threshold를 통해 mask를 생성하는 구조이기 때문에, threshold 설정이 적절하지 않을 경우 사각형 형태의 artifact나 불완전한 segmentation이 발생할 수 있습니다. 이번 발표를 통해 연구 내용을 정리하고 전달하는 과정에서 스스로 이해를 더욱 깊게 할 수 있었으며, 질의응답을 통해 예상하지 못한 관점에서 연구를 다시 생각해볼 수 있었다는 점에서 의미 있는 경험이었다.[청취 후기]1. Queueing Theory as Operational Physics: Toward Foundation Models for Manufacturing and Service Systems이 발표에서는 제조 및 서비스 시스템을 위한 산업용 foundation model의 필요성과 방향성에 대해 다루었다. 단순한 데이터 기반 접근만으로는 실제 산업 환경의 복잡한 동적 특성을 충분히 반영하기 어렵다는 점을 지적하며, 이를 보완하기 위해 큐잉 이론과 같은 전통적인 이론을 함께 활용해야 한다는 점이 강조되었다.특히 제조 시스템을 flow 기반 시스템으로 해석하고 이를 물리적 관점에서 모델링하려는 접근이 인상적이었으며, 이러한 방식이 모델의 일반화 성능을 높이는 데 기여할 수 있을 것으로 느껴졌다.2. Surrogate TEM Imaging from Inline OCD with Conditional Generative Models해당 발표에서는 반도체 공정에서 inline OCD 데이터를 활용하여 TEM 이미지를 생성하는 conditional generative model 기반의 접근을 제안하였다. 일반적으로 TEM 이미지는 높은 해상도를 제공하지만 파괴적인 분석 방법이기 때문에 비용과 시간이 많이 소요된다는 한계가 있다. 이를 해결하기 위해 비파괴적으로 얻을 수 있는 OCD 데이터를 입력으로 활용하고, 이를 통해 TEM 이미지를 생성하는 surrogate 모델을 구축한 점이 흥미로웠다. 특히 OCD embedding과 noise를 함께 활용하여 조건부 생성 구조를 설계하고, 생성된 이미지와 실제 TEM 이미지를 discriminator를 통해 학습하는 방식이 인상적이었다. 실제 데이터 수집 과정에서도 동일 위치에서 OCD와 TEM 데이터를 매칭하여 학습 데이터를 구성한 점에서 현실적인 적용 가능성이 높아 보였으며, 반도체 공정에서 비용을 절감하면서도 정밀한 분석을 가능하게 할 수 있는 방향이라는 점에서 의미 있는 연구라고 느껴졌다.
Reviewed by 이혜승 이혜승
2026.04.15
Read More
13
2026.04

2026 IEEE-13th ICIEA - 이용우

[학회 후기]2026년 4월 9일(목)부터 4월 12일(일)까지 일본 교토에서 ICIEA 2026이 개최되었다. 이번 학회는 내가 처음으로 학회 발표를 진행한 자리이기도 해서 개인적으로 더욱 의미가 있었다. 학회 전체 분위기는 세션 분위기나 장소 분위기 모두 차분한 편이어서 좋았고, 발표를 듣고 준비하는 데에도 집중하기 좋은 환경이었다. 또한 다양한 발표를 들으면서 산업공학, 스마트 제조, 머신러닝 등 여러 주제들이 서로 연결되어 있다는 점도 인상적이었다. 다만 여러 발표에서 공통적으로 자주 등장하는 개념들이 있었는데, 그 개념들을 내가 정확히 알지 못해 발표에 대한 이해도가 떨어지는 순간들이 있었다. 이를 통해 아직 기본기가 많이 부족하다는 점을 느꼈고, 앞으로 더 탄탄하게 공부해야겠다는 생각이 들었다.  한편, 대부분의 발표 자료가 시각 자료보다는 텍스트 위주였고, 시선을 맞추지 않은 채 대본을 읽듯 발음을 신경쓰지 않고 발표하는 경우도 적지 않았는데, 이를 통해 발표에서는 연구 내용 자체도 중요하지만 청중이 이해할 수 있도록 자료를 구성하고 전달하는 것 역시 매우 중요하다고 느끼게 되었다.[발표 후기]주제 : Two-Stage Latent Space Learning Framework Using Displacement Vectors for Tire Profile Prediction본 연구에서는 타이어 몰드 형상으로부터 공기 주입 후 최종 타이어 프로파일을 예측하는 문제를 다루었다. 고차원 형상 데이터를 직접 예측하는 대신, 몰드 형상에서 타이어 형상으로 변환되는 displacement vector를 예측하는 방식으로 문제를 재구성하였고, 이를 보다 효율적으로 다루기 위해 2-stage latent space learning framework를 제안하였다. 먼저 displacement vector를 저차원 latent representation으로 압축한 뒤, 설계 및 실험 관련 tabular feature로부터 해당 latent representation을 예측하는 predictor를 학습하는 방식이다. 이를 통해 고차원 출력 예측의 복잡도를 줄이고, 최종적으로는 타이어 프로파일 예측에 활용하고자 하였다.발표를 준비하면서는 청중과의 교감을 가장 중요하게 생각했고, 청중이 이해할 수 있도록 자료를 마지막까지 계속 수정하며 준비하였다. 발표 중에도 청중과 최대한 시선을 맞추며 설명하려고 노력했는데, 이런 부분이 비교적 잘 작용했던 것 같다. 다만 멘트를 여러 번 더듬고, 다소 정확하지 않은 표현을 사용한 점은 아쉬웠다. 발표 영상을 다시 확인해보니 나도 모르게 헛기침을 자주 하고 있었던 점도 아쉬움으로 남았다.질문 1 : Predictor 모델 선정이 중요할 것 같은데, 왜 Predictor를 DNN 모델로 선정했는지?답변 1 : Tree Model의 대표로 XGBoost를, Deep Learning의 대표로 DNN 모델을 선택하여 비교 실험을 진행하였고, 그 결과 DNN 계열에서 가장 좋은 성능이 나왔기 때문에 DNN 모델을 선정하였다.질문 2-1 : 이 모델이 실제로 회사에서 사용될 수 있는지?답변 2-1 : 여전히 개선해야 할 부분은 있지만, 충분히 도움이 될 수 있는 수준이라고 생각한다.질문 2-2 : 그렇다면 경영적 관점에서, 어느 정도의 비용을 saving 할 수 있는 것인지가 궁금하다.답변 2-2 : (발표 이후 break time에서) 몰드 한 개당 약 20,000달러 수준이고 통계적으로 정리된 데이터는 없지만 경험적으로는 1년에 약 10개 정도의 몰드가 잘못된 설계로 인해 재제작되는 것으로 추정된다. 따라서 그 정도의 비용 절감 효과를 기대할 수 있을 것 같고, 단순한 비용 절감뿐 아니라 설계 제약이 줄어든다는 측면에서도 의미가 있을 것이다.[청취 후기]1. Surrogate TEM Imaging from Inline OCD with Conditional Generative Models이 발표는 반도체 단면 구조를 측정하기 위한 TEM 관측 방식이 파괴적이라는 문제를 다루고 있었고, 이를 해결하기 위해 비파괴 치수 측정 방식인 inline OCD 측정값으로부터 TEM 이미지를 예측 생성하는 방법을 제안하였다. 실제 반도체 산업에서 겪고 있는 실질적인 문제를 다루고 있다는 점에서 흥미로웠고, 무엇보다 발표자가 최대한 이해하기 쉽도록 자료를 준비하고 설명하여 끝까지 집중해서 들을 수 있었다. 산업 현장의 문제를 생성 모델과 연결하여 풀어낸다는 점에서 인상 깊었던 발표였다.2. Queueing Theory as Operational Physics: Toward Foundation Models for Manufacturing and Service Systems이 발표에서는 queueing theory를 제조 및 서비스 시스템의 operational physics로 바라보고, 이를 최근의 data-driven AI 및 manufacturing foundation models와 연결하는 방향을 제시하였다. 전통적인 수리적 이론과 최근의 인공지능 연구를 별개의 흐름으로 보지 않고 하나의 연구 방향으로 묶어 설명한다는 점이 인상적이었다. 아직 내가 관련 개념을 깊이 있게 이해하고 있는 것은 아니지만, 산업공학의 전통적인 기반 이론이 최신 AI 연구와 어떻게 연결될 수 있는지를 생각해보게 만든 발표였다.
Reviewed by 이용우 이용우
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 김수림

[학회 후기]2026년 4월 9일부터 12일 일본 교토에서 열린 ICIEA 학회에 참가하였다. 입학 후 처음으로 참가한 해외 학회였으며, 동시에 첫 영어 발표를 하게 되어 긴장과 설렘이 공존했다. 산업공학 학회인 만큼 application 중심의 연구가 많았는데, 각 나라마다 집중하고 있는 도메인이 다르고 또 이를 다양한 방식으로 해결해 나가는 점이 매우 흥미로웠다. 발표 당일에는 다소 긴장되었지만 준비한 내용을 차분히 전달하기 위해 노력하였다. 발표를 마치고 나서는 후련함과 동시에 보다 자연스럽고 유창하게 소통하지 못한 것에 대한 아쉬움도 있었다. 영어로 자신의 연구를 설명하는 능력의 중요성을 다시 한 번 실감할 수 있었고, 더욱 성장하고자 하는 동기를 얻는 뜻깊은 경험이었다.이번 학회를 통해 교수님과 연구원분들과 함께 화창하고 고즈넉한 분위기의 교토를 다같이 즐길 수 있어서 좋았다. 연구실 생활 중 잊지 못할 기억과 추억을 쌓을 수 있었으며, 이렇게 해외에서 발표할 수 있도록 지도해주시고 한층 더 성장할 수 있는 기회를 주신 교수님께 깊이 감사드린다.[발표 후기]이번 학회에서 발표한 주제는 "Personalized Federated Learning for Time Series Forecasting via VLM Description Agent"이었다. 시계열 모델을 만들기 위해서는 많은 양의 데이터가 필요하지만, 현실에서는 데이터가 여러 기관에 분산되어 있는 경우가 많다. 또한 시계열은 다른 모달에 비해 고유한 특성이 강해 이질성을 효과적으로 해결하는 것이 중요하다.본 연구에서는 이러한 한계를 해결하기 위해 언어 모델을 활용한 개인화 연합학습 방법을 제안하였다. 특히 개별 클라이언트의 고유 시계열 특성을 반영하기 위해 Vision Language Model을 활용하여 설명력을 강화하였다. 기존 연구에서는 시계열 데이터를 텍스트 형태로 변환하여 LLM에 직접 입력하는 방식이 주로 사용되었으나, 아직까지 LLM의 토크나이저는 정밀한 수치값을 처리하는 데 한계가 있어 정보 손실 및 부정확한 답변을 출력할 수 있다. 따라서 이를 해결하기 위해 클라이언트의 시계열을 STL 분해한 후  이를 figure로 시각화 하고, 해당 결과를 분석하도록 하는 텍스트 insturction과 함께 VLM에 입력하였다. 또한 언어 모델을 feature extractor로 활용하여 이질적인 시계열 데이터를 공통 표현 공간으로 정렬해주었다. 그 결과, 연합학습 환경에서 예측 성능을 향상시키며 텍스트 기반 설명력을 강화해 준 방식이 효과가 있었음을 확인할 수 있었다.질문: 향후 계획에서 m4 short term dataset이 무엇인가?답변: M4 데이터셋은 기존 실험에 사용한 데이터셋보다 길이가 매우 짧고, 데이터의 수집 주기가 서로 다른 특성을 가진다. 기존에는 도메인 간 이질성을 주로 고려하였다면, 해당 데이터셋은 주기적 이질성을 포함하고 있어 이를 향후 추가적으로 실험할 계획이다.[청취 후기]1. Queueing Theory as Operational Physics: Toward Foundation Models for Manufacturing and Service Systems해당 발표는 제조 및 서비스 시스템을 위한 산업용 foundation model의 필요성과 발전 방향에 대해 중심적으로 다루었다. 최근 개인적으로 관심을 가지고 있는 분야와 관련된 내용이어서 더욱 집중해서 들을 수 있었다. 특히, 기존의 데이터 기반 접근만으로는 산업 환경의 복잡한 동적 특성을 충분히 반영하기 어렵다는 한계를 지적하며 이를 보완하기 위해 큐잉 이론과 같은 전통적인 운영 이론을 함께 고려해야 한다는 관점이 제시되었다. 특히 제조 및 서비스 시스템을 flow-driven system으로 바라보고 용량, 열화 등을 설명하는 수학적 구조를 operational physics로 해석하여 모델에 반영하려는 접근이 인상적이었다. 이러한 물리적·구조적 특성을 함께 고려한 산업용 foundation model은 단순한 데이터 기반 학습을 넘어 더욱 안정적이고 일반화 가능한 방향으로 발전할 수 있다는 점에서 매우 흥미롭게 느껴졌다.2. A Multi-Modal BERT-Based Multi-Task Learning Framework for Predicting Emergency Department Patient Disposition and Length of Stay해당 발표에서는 응급실 환자의 disposition(입원 여부 등)과 재원 시간(Length of Stay)을 동시에 예측하기 위한 멀티모달 기반의 멀티태스크 학습 프레임워크가 제안되었다. 특히 병원 데이터에는 텍스트 형태로 이루어진 데이터가 많이 존재하는데, 이를 BERT 기반 모델을 활용하여 텍스트 데이터를 효과적으로 반영하면서 다양한 형태의 의료 데이터를 함께 통합한 점이 인상적이었다.
Reviewed by 김수림 김수림
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 최지형

[학회 후기]4/9~12일 일본 교토에서 열린 2026년 ICIEA에 참가하였다. 이번 학회 준비 과정에서는 발표 자료의 완성도를 높이는 데 이전보다 더 많은 시간을 투자하였으며, 현장에서의 질의응답에 대비하여 영어 표현도 충분히 숙지하고자 노력하였다. 학회 기간 동안 발표 세션에서는 제조 시스템, 스마트 생산, AI 응용 등 다양한 산업공학 연구들을 접할 수 있었고, 평소 관심 있던 분야 외에도 새로운 연구 흐름을 파악하는 좋은 기회가 되었다. 개인적으로는 이번 학회에서 영어로 질문하고 의견을 나누는 것을 적극적으로 시도해보았는데, 완벽하지는 않았지만 해외 연구자들과 실질적인 소통을 이어갔다는 점에서 스스로 의미 있게 느껴졌다. 교토라는 도시 자체도 학회의 여운을 더해주었으며, 이번 참가를 통해 연구자로서 한 걸음 더 성장할 수 있는 계기가 된 것 같다. 좋은 기회를 주신 교수님께 감사드린다.[발표후기]4/9~12일 일본 교토에서 열린 2026년 ICIEA에 참가하였다. 이번 학회에서 발표한 주제는 "Server Initiated Unlearning for Federated Large Language Models in Cross-silo Setting"으로, 연합 학습 환경에서 서버 주도로 저품질 데이터를 탐지하고 제거하는 LLM 언러닝 프레임워크에 관한 연구이다. 기존 연구들이 이미지 분류 태스크에만 집중되어 있어 LLM에 직접 적용하기 어렵다는 한계에서 출발하여, BLEU와 BERTScore를 결합한 이상 클라이언트 탐지 방법과 LoRA 업데이트 크기 기반의 이상 데이터 탐지 방법을 제안하였다. 실험 결과, 다양한 연합 학습 알고리즘 환경에서 언러닝을 적용하지 않은 경우 대비 일관된 성능 향상을 확인할 수 있었다. 발표 후 Q&A에서 이상 클라이언트 탐지 성능 개선 방향에 대한 질문을 받았으며, 이는 논문에서도 한계로 인식하고 있는 부분인 만큼 추후 연구 방향을 보다 명확히 고민하는 계기가 되었다. 이번 참가를 통해 관련 분야 해외 연구자들과 교류하고 연구의 완성도를 점검할 수 있었으며, 좋은 기회를 주신 교수님께 감사드린다.질문 1) 언러닝 방법으로는 무엇을 사용했는지?답변 1) 경사 상승법을 사용하였으며, 그 외 언러닝 방법도 테스트해보았으나 실험 환경에서는 경사 상승법이 가장 우수했다. 그러나 제안 방법론은 언러닝 방법에 대해서는 독립적으로, 상황에 맞춰 최적의 언러닝 방법을 선택해 사용하면 된다. 질문 2) 어느 정도의 이상 데이터가 존재할 때, 이상 클라이언트라고 말하는지?답변 2) 생각해 본 적 없으나, 중요한 포인트일 것 같다. 추후 고민해보겠다. 질문 2에 대해서 조금 더 고민해본 결과, 이상 클라이언트 정의에 이상 데이터의 양은 중요하지 않았다. 연구의 목표는 글로벌 모델 성능에 악영향을 미치는 이상 클라이언트를 찾아내는 것으로, '얼마나 많은 이상 데이터가 있는가'보다는 '얼마나 글로벌 모델에 악영향을 주는가'가 핵심이다. 적은 양이더라도 심각한 악영향을 미치는 클라이언트라면 이상 클라이언트가 된다. 익숙치 않은 영어로 질의응답을 하다보니, 충분히 대답할 수 있었던 내용임에도 하지 못하여 아쉽다. 영어 실력 증진의 필요성을 느꼈다. [청취후기]Queueing-Informed Forecasting for Time-Varying Multiserver Queues (Session 3 – Network Reliability Evaluation and AI Applications, 4/10 오후, Room 2A)대기행렬 이론을 데이터 기반 예측 모델에 접목한 연구로, 시변 다중 서버 대기 시스템의 성능을 예측하는 프레임워크를 제안하였다. 순수 데이터 기반 접근 대신 대기행렬 이론의 구조적 특성을 학습 아키텍처에 내재화함으로써 데이터 효율성과 예측 정확도를 동시에 높인 점이 흥미로웠다. 당일 키노트에서도 유사한 방향의 연구가 소개된 바 있어, 해당 연구 흐름이 학계에서 주목받고 있음을 실감할 수 있었다.AI-Based Quality Prediction Model for Aluminum Extrusion Processes: An Industry-Academia Collaboration Case Study (Session 11 – Predictive Model and Algorithm Design for Dynamic Environments, 4/11 오전, Banquet Hall A)알루미늄 압출 공정에서의 품질 예측 모델을 산학 협력 형태로 개발한 사례 연구였다. 실제 공장 데이터를 활용했다는 점에서 현실적인 설득력이 있었으며, 공정 변수와 품질 지표 간의 관계를 AI 모델로 포착하는 방식이 제조 현장 적용 가능성이 높아 보였다. 산학 협력 과정에서 데이터 수집 및 전처리 단계에서 겪은 어려움을 솔직하게 공유한 점이 청중의 공감을 이끌어냈다.A Digital Transformation Framework for Root Cause Analysis to Drive Smart Manufacturing (Session 21 – Data-Driven Intelligent Modeling and Optimization Strategies for Industrial Systems, 4/11 오후, Room 2B) 스마트 제조 환경에서의 근본 원인 분석을 위한 디지털 전환 프레임워크를 제안한 발표였다. 실제 반도체 백엔드 장비 벤더를 대상으로 한 사례 연구를 함께 제시하여 프레임워크의 현장 적용 가능성을 구체적으로 보여준 점이 인상적이었다. 데이터 수집부터 원인 분석, 개선 조치까지 이어지는 전체 흐름을 체계적으로 정리한 발표였으며, 제조 데이터 분석에 관심 있는 입장에서 실질적인 인사이트를 얻을 수 있었다.
Reviewed by 최지형 최지형
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 정구진

[학회 후기] 일본 교토에서 열린 2026 ICIEA에 참가하였다. 우리가 일반적으로 접하는 학회들은 아무래도 인공지능 관련 학회들이 많은데 ICIEA는 산업공학 학회라 다양한 도메인 관점에서의 문제 상황들을 접할 수 있는 부분이 좋았다. 또한 그 문제들을 해결하는 다양한 방법들을 엿볼 수 있는 좋은 기회였다. 영어 발표는 늘 긴장되지만 나름대로 연습한 성과는 있었다. 하지만 질의 응답에서 내 생각을 잘 전달하지 못한 것 같아서 아쉬웠고, 역시나 꾸준히 연습하는게 중요하다는 것을 또 느끼는 시간이었다. 이번 학회는 많은 인원들이 참여하여 교토 여기저기도 둘러볼 수 있는 좋은 기회였다. 함께한 교수님 및 연구원들과 즐거운 시간을 보낸 것은 좋은 추억이 될 것 같다.   [발표 후기] 학회 발표 주제인 Surrogate TEM Imaging from Inline OCD with Conditional Generative Models는 비교적 얻기 쉬운 inline OCD 데이터를 바탕으로 파괴검사의 한 축을 이루는 TEM 이미지를 생성하는 task이다. TEM은 반도체 제조 공정에서 소자가 설계한 대로 만들어지고 있는지 확인하는 아주 중요한 역할을 하고 있는데, 특히 소자 규격이 계속 작아지면서 그 역할이 점점 커지고 있다. 하지만 TEM의 경우 샘플을 준비하는게 어렵고, 파괴 검사이기 때문에 종합적으로 고려하면 아주 큰 비용이 드는 검사이다. 따라서 이를 대체하고자 간접적으로 3차원 pattern을 예측하는 OCD 방법이 현업에서 널리 사용된다. 하지만 OCD의 경우 고 종횡비 소자에서는 정확하게 그 profile을 예측하기 어렵고, 물질간의 경계와 같은 다양한 특징까지는 보여주지 못한다. 따라서 우리는 좀 더 쉽게 얻을 수 있으나 정보가 부족한 OCD를 바탕으로, 정보는 풍부하지만 구하기 어려운 TEM 이미지를 생성하는 task를 제안했다. StyleGAN2를 바탕으로 여기에 OCD 정보를 잘 주입할 수 있는 embedding layer들을 설계하였고, 관련 연구가 없기 때문에 잘 알려진 생성 모델들과 비교 분석 하였다. VQVAE2나 StyleGAN2 같은 경우 생성 능력이 많이 떨어졌고, 우리의 제안 모델과 stable diffusion의 경우 실제 TEM 이미지를 거의 동일하게 구현할 수 있었다. 다만 우리의 모델은 stable diffusion 보다 계산 효율 측면에서 훨씬 좋은 효과를 가지고 있기 때문에, 진정한 의미의 실시간 품질 모니터링과 신속한 공정 최적화에 도움이 될 수 있다. 질문. 생성된 이미지가 실제로 쓸 만한 이미지인지 어떻게 검증할 수 있나? 답변. TEM 이미지 생성 task에서 가장 중요한건 반도체 구조를 보존하는 것이기 때문에 CD평가가 아주 중요하다. 그런 관점에서 우리가 보여준 CD의 차이(실제 데이터 - 생성 데이터)가 구조 보존에 아주 중요한 역할을 하는 것이고, 이 차이를 더 줄일 수 있도록 하겠다.   [청취 후기] An industrial case study for AOI inspection by machine learning models IoT 센서 데이터를 활용한 PCB 제조 공정 모니터링 연구였다. PBC 제조 공정은 SPI → SMD → AOI 3단계 프로세스를 가지고 있는데, 각 단계의 센서 데이터를 통합 분석하는 것이 핵심이다. 이 공정에서는 데이터가 시간차로 수집되고, label 불일치가 존재하고, 거짓 알람(정상이 불량으로 분류되는 경우)의 문제로 통합 분석이 어렵다고 한다. 이 해결을 위해 feature engineering을 통해 핵심 특성을 추출하고, autoencoder 적용한 후 불량을 예측하였다. 최종적으로 80% 이상의 분류 정확도를 달성하는데, 반도체 제조 데이터에 갖고 있는 특성을 많이 보유한 것 같다는 생각이 들었다. 역시나 실제 산업 데이터에 머신러닝을 적용하기 위해서는 그 도메인을 잘 이해하고, 도메인 특성에 맞는 feature 추출이 중요하다는 것을 또 생각해볼 수 있는 계기가 되었다.   Rethinking the Foundation Model for Wafer Map Pattern Recognition 이 연구의 핵심 아이디어로는 웨이퍼 맵이 자연 이미지와 근본적으로 다르다는 관찰에서 출발한다. 대부분이 배경에 불과하고, 실제 정보는 defect 패턴에만 집중되어 있어서 일반적 vision model로는 효과적 학습이 어렵다. 따라서 polar positional encoding, masking 방법 제안, 이산 상태 예측, rotation consistency loss 등을 도입해서 성능을 향상시켰다. 최근 반도체 mask 관련 연구에 관심을 가지고 있는데, 이러한 특성이 매우 비슷해서 앞으로 참고해서 진행할 만한 연구라서 흥미롭게 들을 수 있었다.  
Reviewed by 정구진 정구진
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 허종국

[학회후기]학회로써는 1년, 일본에 동일학회로써는 2년만에 ICIEA 학회에 참가하게 되었다. 2024년도 히로시마에서 최초로 갔던 때에 비해서 갈수록 규모가 커지고 있는 것 같다. 2년전만 하더라도 작은 빌딩의 1층도 아닌 방 2~3개에 세션을 진행하였었는데, 올해는 전반적인 발표 논문 수가 증가하였을 뿐만 아니라 참가하는 국가 및 대학도 다양해졌다. 특히 강화학습 연구자로써, 별도의 강화학습 세션에 참여하여 발표 및 청취할 수 있었던 것이 심히 감격스럽다. 특히 이번에 강화학습 세션은 단순히 시뮬레이션 벤치마크에서 보상을 최대화하는 강화학습 알고리즘의 개발 뿐만 아니라 스케줄링, 멀티 에이전트 AGV, dynamic pricing 등 직접 MDP를 정의하는 연구가 다수 포진되어 있었다. 강화학습 연구자로써, 기존에 만들어진 MDP 환경에서 알고리즘을 개발하는 것 뿐만 아니라, 실제로 문제를 정의하고 MDP를 구체화하는 것이 필수 덕목이라는 것을 깨닫게 되었다. 특히 부산대학교 산업공학과 한준희 교수님 연구실에서 다양한 실제 상황 관련 연구를 발표하였는데, 기존의 내 분야와는 달라서 완벽히 이해하지는 못했지만 그래도 이런것도 있구나를 느끼면서 견문을 넓힐 수 있었다.[발표 후기]발표 제목 : Addressing Ambiguous Query Problems in Preference-based Reinforcement Learning from Pixels발표 내용 : PbRL에서는 복잡한 보상 함수 디자인을 우회하여 인간 피드백을 사용하여 보상함수를 학습한다. 인간 피드백 데이터는 1. 에이전트가 이때까지 수집한 replay buffer 데이터에서 추출한 1쌍의 state-action sequence (쿼리), 그리고 2. 어떠한 시퀀스가 태스크에 더 부합하게 행동했는지 사람이 판단하는 레이블로 구성되어 있다. 이 때, 다양하고 정보 함량이 많은 쿼리를 추출하여 사람에게 물어봐야 질 좋은 피드백 데이터를 수집할 수 있기 때문에, PbRL에서 쿼리 샘플링은 매우 중요한 연구 주제중 하나이다. 다만 기존의 쿼리 샘플링들은 '과연 이 쿼리를 실제 사람이 분간할 수 있을까?'에 대해는 고려하지 못한다. 사람은 완전히 이성적이지 않고 세세한 디테일을 놓치기 쉽기 때문에 시각적으로 분명한 차이를 나타내면서, 동등한 비교가 가능한 쿼리를 뽑는 것이 중요하다고 생각하였다. 이에 따라 비디오 시퀀스로부터 feature를 추출한 후, 시간이 흐름에 따라 feature간의 유사도가 작아지는 쿼리를 뽑자라는 취지로써 random feature distance sampling (RFDS)를 제안하였다. RFDS의 핵심 아이디어는 1. 두 state-action sequence 는 초기에 유사도가 높아야한다 (동일한 시작점에서 시작하여 동등한 비교가 되도록 한다), 2. 두 state-action  sequence는 후반에 유사도가 낮아야한다 (시각적으로 분명한 행동 결과의 차이를 보여야한다)는 것이다. 이를 구현하기 위해서는 1. 과연 고차원의 raw pixel observation에서 어떻게 저차원 feature embedding을 추출할 것인가?, 2. 이러한 non-ambiguity는 어떻게 정의할 것인가를 해결해야한다. 1.은 'random encoder는 유사한 feature끼리 묶이는 경향이 있다'라는 것을 보인 RE3 (ICML 2021) 연구를 참고하여 해결하였고, 2를 해결하기 위해 random feature distance matrix (RFD)와 target distance matrix (TD)를 정의한후, 이 둘 간의 차이를 스코어로 정의하였다. 제안하는 샘플링은 robotic manipulation task인 Meta-World Door Open에서는 압도적인 성능차이를 보여주었으나, locomotion task인 DMControl Walker Walk에서는 기존 방법론과 비슷한 성능을 보였다.발표 후기 : 짧은 시간 내에 많은 내용을 전달하려다 보니, 전달해야할 순서도 헷갈리고 초반에 너무 자세히 설명하여 후반에는 시간에 쫓겨 제안방법론 쪽을 너무 빠르게 넘어갔던 것 같다. 말그대로 약간 용두사미식의 발표가 되어버렸던 것 같은데, 다음부터는 악센트를 주어야할 부분과 안주어야할 부분을 잘 조절하게 시간을 분배해야할 것 같다. 또한 발표하는 톤이나 속도 측면에서도 너무 빠르게 말하다보니, 청취자들을 잘 고려하지 않았던 것 같다. 다음부터는 청취자들의 표정을 살펴보며 속도를 조절할 필요가 있을 것 같다.질문 1 : 이러한 PbRL에서는 보통 피드백을 어떤식으로 제공하나요? 그렇게 주어진 피드백 데이터는 믿을만한가요?답변 1 : 알고리즘 간의 공평한 평가를 위해서 벤치마크 테스팅 시에는 실제 환경에서 주어지는 ground-truth reward를 기반으로 대소관계만 판단하여 이진 레이블로 줍니다. 다만 실제 human-in-the-loop 상황을 고려한 상황에서는 한 명 혹은 여러 명의 non-expert를 고용하여 레이블링을 수행하게 합니다.[청취 후기]1. Preventive-Maintenance-Aware Lot Scheduling of Semiconductor Cluster toolsLot Scheduling을 위한 MDP를 정의하고 PPO 알고리즘을 적용한 연구이다. 상태, 행동 등 MDP의 모든 요소를 정확히 어떻게 정의했는지는 자세히 기억나지 않지만, multi-objective를 고려해야하는 보상 함수를 설계 하였기 때문에 Lexicographical PPO라는 알고리즘을 썼다라는 것만 기억이 난다. lexicographical ppo란, 여러 개의 reward signal이 있는 상황에서 1번째 보상 함수를 최대화한 후, 그 다음 이 feasible region(?) 이 솔루션 내에서 2번째 및 3번째 등의 보상 함수 들을 최대화하는 정책으로 고도화한다는 느낌인 것 같다. 이번 학회에서 가장 큰 수확은 lexicographical rl이라는 분야가 있다라는 것을 알게된 것이었다.2. Vision-Language Understanding of CAD Images for Product Appearance Code Generation공업 현장에서 사용하는 설계도면의 경우, 일반적인 문서와 다르게 문단의 줄 위치도 다르고, 형식이 정형화되있지 않으며, 복잡한 공학용 기호가 있기 때문에 일반적인 VLM 혹은 OCR 알고리즘이 제대로 정보를 추출하기가 힘들다. 본 연구에서는 VLM(Florence)를 CAD Image에 튜닝하여 CAD 데이터의 수학 기호 및 텍스트, 도면 이해도를 높인 VLM을 학습하고자 하였다. 발표하시는 분이 싱가폴 혹은 인도계 같았는데, 상당히 영어 발음이 좋고 귀에 쏙쏙 박혔다. 뿐만 아니라 실제 UI까지 만들어 각 도면 별로 어떻게 bbox가 추출되었는지 보았는데 상당히 효용성이 높아보였다. 
Reviewed by 허종국 허종국
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 김다빈

[학회 후기]2026 ICIEA는 나에게 첫 해외 학회인 만큼 설렘보다는 긴장감이 더 컸고, 한 학기 동안 준비한 연구를 잘 설명하고 오겠다는 각오로 학회에 참석하였다. 교토에 도착하니 고즈넉한 분위기와 따스한 햇살 덕분에 학회에 대한 긴장이 조금씩 풀리기 시작했다. 물론 교토에서 관광을 하고 맛있는 음식을 먹은 것도 좋았지만, 가장 기억에 남는 순간은 첫날 밤 연구실 인원 전체와 교수님과 함께한 저녁 식사였다. 다 함께 연구에 대한 고민과 연구실 생활에 대한 이야기를 나누며 심리적으로도 더 가까워질 수 있는 계기가 되었다.이번 학회에서는 영어에 대한 두려움을 조금이라도 극복해보고자 발표를 준비하는 것뿐 아니라, 다른 발표를 들으면서 영어로 질문도 적극적으로 해보고 여러 사람들과 영어로 교류하려고 노력했다. 나의 의사가 얼마나 정확하게 전달되었는지는 알 수 없지만, 스스로 먼저 시도해보았다는 점에서 큰 뿌듯함을 느꼈다. 이번 경험을 통해 연구적인 성장뿐 아니라 개인적으로도 한 단계 더 나아갈 수 있었던 것 같다. 이런 소중한 경험의 기회를 만들어주시고 지도해주신 김성범 교수님께 다시 한번 감사의 말씀을 전하고 싶다.[발표 후기]이번 학회에서 발표한 주제는 “Open-Set Recognition in Heterogeneous Federated Learning via Probabilistic Prompt Modeling”이었다. 연합학습은 각 클라이언트가 원본 데이터를 직접 공유하지 않고도 함께 학습할 수 있는 방식이지만, 클라이언트마다 데이터 분포가 다른 non-IID 환경에서는 성능이 저하되는 문제가 있다. 기존 연구들은 이러한 데이터 이질성 문제를 다루고자 했지만, 대부분 closed-set 환경을 가정하고 있어 실제 환경에서 자주 등장하는 OOD(out-of-distribution) 샘플을 충분히 다루지 못했다.본 연구에서는 이러한 한계를 해결하기 위해 VLM(vision-language model)을 연합학습 환경에 적용하고자 하였다. 그러나 연합학습에서는 클라이언트 간 데이터 차이가 크기 때문에 텍스트 프롬프트 임베딩이 불안정해지고 semantic alignment가 깨질 수 있다는 문제가 있다. 이를 해결하기 위해, 단순 가중 평균 방식 대신 확률적 프롬프트 모델링 기반의 집계 방법을 제안하였다. 핵심 아이디어는 각 클라이언트의 프롬프트를 하나의 고정된 전역 표현으로 보는 것이 아니라, 여러 개의 probabilistic slot을 통해 다양한 클라이언트 분포를 보다 유연하게 표현하는 것이다. 이를 통해 non-IID 환경에서 발생하는 표현 불안정을 줄이고, 클라이언트 간 더 일반화된 의미 정렬을 유도하고자 하였다.발표 이후에는 몇 가지 질문을 받았다.질문 1) 실험 세팅으로 feature shift에서 데이터셋이 다른 경우와 도메인이 다른 경우는 어떤 차이가 있나요?답변 1) 데이터셋이 다른 경우는 서로 다른 목적으로 만들어진 데이터셋을 각 클라이언트에게 분배한 설정입니다. 반면 도메인이 다른 경우는 domain adaptation 또는 domain generalization 분야에서 주로 사용되는 데이터셋처럼, 같은 목적을 가지지만 화풍이나 스타일이 다른 도메인으로 구성된 데이터를 각 클라이언트에게 분배한 설정을 의미합니다.질문 2) OOD 데이터를 생성해서 OOD 프롬프트를 학습시킨다고 했는데, 이 데이터가 실제 OOD 데이터도 아닌데 유의미할까요?답변 2) 본 연구에서 의도한 OOD 프롬프트 학습의 목적은 실제 OOD 데이터를 완벽하게 재현하는 것이 아니라, ID와 OOD 사이의 결정 경계를 더 잘 학습하도록 돕는 데 있다. 따라서 실제 OOD 데이터가 아니더라도 인위적으로 만든 OOD 데이터로 OOD 프롬프트로 결정경계를 학습할 수 있어 충분히 유의미한 방법이라고 생각합니다.질문 3) 해당 연구의 목적은 무엇인가요?답변 3) 본 연구의 목적은 데이터가 분산되어있는 상황과  데이터 이질성이 큰 연합학습 환경에서도 known class를 잘 분류하면서 동시에 unknown sample도 효과적으로 구별할 수 있는 open-set recognition framework를 만드는 것입니다. 개인적으로는 질의 응답 시간에 예상 질문이 아닌 질문에 대해 차분하게 대답하지 못했다는 아쉬움이 남았다. 그럼에도 불구하고 내가 고민해온 연구를 해외 학회에서 직접 소개하고, 여러 질문에 답하면서 내 연구를 설명해볼 수 있었다는 점에서 뜻깊은 경험이었다. 또한 발표를 준비하는 과정에서 영어 표현과 발음에 대한 부담도 컸지만, 보다 더 적극적으로 소통을 시도했다는 점에서 스스로 의미 있는 발전이라고 느꼈다. 영어 발표는 여전히 어렵지만, 앞으로 더 많이 연습하고 경험을 쌓아가야겠다는 생각이 들었다.[청취 후기]Time Series Forecasting on Electricity Consumption Using Ensemble Models of ARIMA and Machine Learning 해당 발표는 전력 소비량 예측이라는 실용적인 문제를 시계열 분석 관점에서 다룬 연구였다. 전력 소비량은 시간의 흐름에 따라 계절성, 추세, 외부 요인 등의 영향을 크게 받기 때문에 안정적인 예측이 중요한데, 본 연구는 전통적인 시계열 모델인 ARIMA와 머신러닝 모델을 결합한 ensemble 방식으로 이를 해결하고자 한 점이 인상적이었다.특히 ARIMA는 시계열 데이터의 선형적 패턴과 추세를 잘 반영할 수 있고, 머신러닝 모델은 보다 복잡한 비선형 패턴을 학습할 수 있기 때문에, 두 방법을 함께 사용하는 방식이 전력 수요 예측과 같은 실제 문제에 효과적일 수 있겠다고 느꼈다. 하나의 모델만 사용하는 것보다 서로 다른 장점을 결합하여 예측 성능을 높이려는 접근이 실용적이면서도 설득력 있게 다가왔다. 또한 전력 소비량 예측은 에너지 관리, 전력 공급 계획, 비용 절감 등 다양한 산업적 활용 가능성이 크기 때문에 연구 주제 자체도 매우 현실적이라고 느꼈다. 복잡한 최신 모델만을 사용하는 것이 아니라, 비교적 해석이 가능한 전통적 모델과 머신러닝을 함께 활용했다는 점에서 실제 현장 적용 가능성도 높아 보였다.이번 발표를 들으면서 시계열 예측 문제에서는 단순히 하나의 강력한 모델을 사용하는 것보다, 데이터의 특성에 따라 서로 다른 모델의 장점을 조합하는 방식이 중요할 수 있겠다는 점을 다시 생각하게 되었다. 전력과 같이 변동성이 크고 실제 활용도가 높은 데이터를 대상으로 이런 접근을 시도했다는 점에서 흥미롭게 들은 발표였다.User-level Unlearning for Federated Large Language Models in Cross-silo Settings해당 발표는 연합학습 기반 대형언어모델에서 user-level unlearning 문제를 다뤘다는 점에서 매우 인상적이었다.기존 연구들이 주로 한 사용자의 데이터가 하나의 디바이스에만 있는 cross-device 환경을 가정한 반면, 본 연구는 실제 산업 현장과 더 가까운 cross-silo 환경을 고려했다는 점이 특히 흥미로웠다.특히 한 사용자의 데이터가 여러 silo에 분산될 수 있기 때문에, 삭제 요청을 전체 시스템에 일관되게 반영해야 한다는 문제가 생각보다 훨씬 복잡하다는 점을 잘 보여주었다.또한 unlearning을 단순한 삭제 문제가 아니라, 로컬 목적함수와 서버 집계를 함께 설계해야 하는 알고리즘 문제로 정식화한 점도 의미 있게 느껴졌다.향후 연합학습과 개인정보 보호가 더욱 중요해질수록, 이런 연구가 실제 적용 가능한 unlearning 방법론과 벤치마크의 기반이 될 수 있겠다고 생각했다.
Reviewed by 김다빈 김다빈
2026.04.13
Read More
13
2026.04

2026 IEEE-13th ICIEA - 이정민

[ 학회 후기 ] 작년 일본 기타큐수에서 열린 IEA/AIE 학회 이후, 1년만에 다시 일본 학회를 참가하게 되었다. 작년 IEA/AIE 학회 정도의 규모겠거니 했지만, 이번 ICIEA 학회는 규모 자체가 달랐다. 참가 인원들도 훨씬 많았으며, 정말 다양한 주제에 대해 세션이 진행되었다. 다양한 주제들을 접하며, 아 이런 연구들도 많이 진행되고 있구나를 많이 느낄 수 있었고, 산업 공학 학회다 보니 인공지능 쪽에서는 고전적인 방법론들도 application 측면에서는 아직 많이 활용되고 있구나 라는 것을 알 수 있었다. 나에게는 이번이 두 번째 영어 발표였는데, 역시나 상당히 긴장이 되었던 것 같다. 조금 버벅거린 부분들도 있었던 것 같아서 아쉬웠지만, 그래도 빠트린 내용 없이 설명하고자 했던 내용은 다 말한 것 같아서 끝나고 나니 후련했다. 그리고 연구실 인원들도 다 무사히 발표를 마치고 용우형과 다빈이가 우수 발표상까지 수상하여 정말 자랑스러웠다. 학회 일정 전인 4월 8일과 4월 9일에는 교수님과 연구원들 같이 근처 관광을 하였다. 니시키 시장, 치쿠린 공원, 금각사 등을 방문하였고 날씨가 좋아 좋은 풍경들을 구경할 수 있었다. 특히, 일본 특유의 거리 감성은 올 때마다 좋은 것 같다. 이번에는 평소보다는 많은 인원들이 해외 학회에 참여했었는데, 인원이 많아진 만큼 더 재미도 있었고, 평소에 하지 못했던 얘기들도 많이 했던 것 같다. 연구실 생활 중에 정말 좋았던 추억을 하나 더 만든 것 같고 다음에도 이런 경험을 할 수 있으면 좋겠다.[ 발표 후기 ]발표 제목: Uncertainty-Weighted Multi-Task Learning for Enhanced Video Assistant Referee System Decision Automation발표 내용: Video Assistant Referee System(VARS)는 축구 문화에 큰 획을 그은 엄청난 발전 중 하나이다. 수 많던 오심들이 VARS를 통해, 보다 정확하고 신뢰 가능한 판정들로 변화하였다. 그러나 제한된 수의 심판들과 높은 비용으로 VARS를 자동화 해야되는 필요성이 생겼고, 우리는 이러한 문제를 video clip을 사용한 multi-task learning을 통해 해결하고자 하였다. 또한, foul의 수준을 예측하는 severity task에 대해, borderline class를 재할당하여 noisy label 데이터셋을 만들어 학습 데이터에 오심이 있는 문제 상황을 해결하고자 하였다. 기존 연구에서는 foul action task와 severity task의 loss를 단순히 합하여 학습하였지만, 이는 각 task의 다른 수준의 difficulty를 반영하지 못하기 때문에 우리는 불확실성을 통해 각 task의 difficulty를 반영하였다. 특히, noisy label이 있는 severity task에 대해서만 불확실성을 반영함으로써, 베이스라인보다 매우 우수한 성능을 도출하였다. 또한, task difficulty를 반영하는 방식을 바꿔가면서 확인한 실험 결과에서도, 우리의 방식이 가장 좋은 성능을 보였으며, 모든 방식에서 베이스라인보다 우수한 성능을 보임으로써 task difficulty를 반영하는 것이 매우 중요하다는 것을 확인할 수 있었다.질문 1: 왜 severity task에 대해서만 불확실성을 반영하였나?답변 1: 우리가 구축한 noisy label 데이터셋은 severity task에만 해당한다. 따라서 해당 task에 대해서만 불확실성을 반영함으로써, severity task의 학습 가중치를 줄이도록 하였다. 이는, noisy label로 인한 악영향을 학습에 최소로 반영할 수 있도록 하기 때문에 해당 방식으로 수식을 고안하였다.질문 2: 수식에서 분모에 2가 붙는 이유는 무엇인가?답변 2: 해당 수식의 전체적인 틀은 기존 multi-task learning 연구를 참고하였다. 따라서, 아주 세부적인 부분은 기존 연구 수식을 가져오고, 이에 우리의 아이디어를 추가하였다.[ 청취 후기 ] 1. Unsupervised Anomaly Detection for Collector Mirror Contamination in Semiconductor EUV Lithography System (고재영 - Korea University)해당 발표는 우리 연구실 재영이형이 발표해주었다. 다양한 분야에서 application 형태로 시계열 이상치 탐지가 많이 진행되고 있지만, 해당 연구는 반도체 EUV Lithography system에 대해 진행되었다. 우선, distribution shift를 방지하기 위해 instance normalization을 수행하였고, graph attention과 transformer-based self attiontion을 결합하여 채널 간, 긴 시계열 간 특징들을 모두 잘 포착할 수 있도록 하였다. 가장 인상적이였던 점은, 보통의 application 연구들은 본인들의 domain에 대한 데이터셋에 대해서만 검증을 하고는 하는데, 해당 연구는 기존 시계열 이상치 탐지 벤치마크 데이터셋으로도 검증을 확장하였다는 것이였다. 사실 여기서 성능이 잘 나오지 않을 수도 있는데, 대부분 가장 우수한 성능을 보였다. 내용도 너무 좋았고, 재영이형 특유의 안정적인 톤이 청취하는데 편안함을 주어 듣기 좋은 발표였던 것 같다.2. Temporary Capacity Expansion Policy Under Product-Mix Shift in Multiple Lines Using Reinforcement Learning (Shanty Nurhalizah, Pusan National University) 해당 발표는 제품 믹스 변화가 발생하는 다중 생산 라인 환경에서, multi-agent reinforcement learning(MARL)을 활용해 효율적인 공정을 할 수 있도록 한 연구였다. 강화 학습이 역시나 제조 및 공정에서 효율적인 방식을 찾기 위한 방법으로 많이 쓰이고 있구나 라는 것을 다시 한 번 느낄 수 있었다. 다만 청취 중 헷갈렸던 점은, 제안 방법론 이름이 Q-Mix 였다는 점이다. Q-Mix는 MARL 분야에서 NLP의 transformer 급으로 대표적인 방법론으로 알고 있는데, 방법론 이름에 어떠한 variation도 주지 않아 처음 발표를 듣던 중에는 헷갈리는 부분도 있었다. 그러나 발표자 분이 영어도 너무 잘하시고 발표 템포도 좋아서 전체적으로 듣기는 편했던 발표였다.
Reviewed by 이정민 이정민
2026.04.13
Read More