[학회 후기]

2023년 11월 03일에 울산과학기술원(UNIST)에서 진행된 대한산업공학회 추계학술대회에 참가하였다. 새벽에 일어나 졸린 눈을 비비며 서울역에서 울산행 KTX를 탔다. 새벽이라 창 밖은 어둡기만 했다. 기차에서 발표 자료를 마지막으로 점검하고 발표 연습을 한 번 하고 눈을 감았다 뜨니 밝은 해와 함께 울산에 도착했다. 이번 학회는 나에게 꽤 큰 의미가 있는 학회였다. 이전에도 학회에 참가해 보았지만, 이전과 달리 이번 학회는 발표를 하기 위해 참가하는 첫 번째 학회였다. 생각보다 긴장은 되지 않았다. 아마도 연구실 내부적으로 발표 기회도 많이 있었고, 잘하려는 생각보다는 평소대로 청충에게 전달만 잘하자라고 다짐했기 때문이 아닌가 생각이 든다. 어찌보면 아쉬움도 많이 남을 수 있는 첫 번째 학회였지만 이 정도면 첫 걸음을 만족스럽게 떼었다고 생각한다. 개인적으로 충분히 만족스러운 학회 경험이었다. 다음에 학회를 갈 기회가 생긴다면 부담감보다는 설렘을 갖고 분위기를 더 즐길 수 있도록 노력해봐야겠다.


[발표 후기]

이번 추계학술대회에서는 "스테이블 디퓨전을 활용한 포즈 컨트롤 가상 의상 착용"을 주제로 발표를 진행하였다. 전자상거래와 온라인 쇼핑의 지속적인 성장은 개인 맞춤형 의류 추천부터 시각적 제품 검색까지 고객 쇼핑 경험의 혁신을 요구하고 있고, 그중에서도 대상 모델에게 주어진 타겟 의상을 입힌 이미지를 생성하는 이미지 기반 가상 의상 착용(image-based virtual try-on)에 여러 방법론이 제안되며 최근 큰 관심을 끌고 있다. 이 분야 기존 연구들은 주로 타겟 의류를 목표 형태에 맞게 개별적으로 변형하고, 변형된 의류와 대상 모델을 결합하여 결과를 합성하는 2단계 생성 프레임 워크를 따른다. 또한, 생성 단계에서 적대적 생성 신경망(generative adversarial networks, GAN)을 활용한다는 공통적인 특징을 가진다. 그러나 최근에는 우수한 이미지 생성 품질을 제공하며 안정적인 학습 절차를 제시하는 디퓨전 모델(diffusion model)을 활용하여 이미지 기반 가상 의상 착용을 연구하는 방법론들이 등장하고 있다. LaDI-VTON(latent diffusion textual-inversion enhanced virtual try-on)은 잠재 디퓨전 모델 중 하나인 스테이블 디퓨전의 인페인팅 파이프라인을 이미지 기반 가상 의상 착용에 처음으로 도입하고 성공적인 적용 가능성을 입증했다. 하지만 해당 방법론은 대상 모델의 신체 정보를 충분히 보존하지 못해 이미지 성능이 저하되는 문제가 있다. 따라서 본 연구에서는 사전학습된 컨트롤넷(ControlNet)을 활용하여 LaDI-VTON 파이프라인에 대상 모델의 포즈맵(posemap) 정보를 조건으로 제공하고, 컨트롤넷을 미세조정하여 생성 이미지 품질을 유의미하게 향상시키는 모델을 제안하였다. 실험적으로 널리 사용되는 벤치마크 데이터셋을 통해 우수한 생성 이미지 품질을 입증했다.


앞선 발표자들이 시간을 촉박하게 사용하여 세션 마지막 발표인 나는 질문 시간이 따로 존재하지 않았다. 여러 청중들의 의견을 통해 다양한 관점으로 내 연구를 바라보고 싶었지만 그러지 못한 점이 많이 아쉬움으로 남았다.


[청취 후기]

1. LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via Latent Ensemble Attack (심준교, 윤현수- 연세대학교 산업공학과)

생성 모델에 의해 생성된 악성 시각적 콘텐츠인 딥페이크는 점점 더 사회에 해로운 위협이 되고 있다. 딥페이크 피해를 사전에 방지하지 위해 최근 연구에서는 딥페이크 모델 출력을 방해하기 위해 적대적 교란을 사용해왔다. 그러나 이전의 접근 방식은 주로 미리 결정된 표적 속성만을 기반으로 왜곡된 결과물을 생성하는 데 초점을 맞추기 때문에 표적 속성을 알 수 없는 실제 시나리오에서는 견고성이 부족하다. 또한 두 가지 대표적인 생성 모델인 적대적 생성 신경망(GAN)와 확산 모델 간 교란 전이성은 아직 밝혀지지 않았다고 한다. 이러한 문제를 해결하기 위해 독립적인 잠재 인코딩 프로세스를 공격하는 Latent Ensemble Attack(LEAT)라 부르는 간단하지 만 효과적인 교란 방법을 제시한다. 또한 반복적인 그래디언트 공격을 위해 그래디언트를 효과적으로 통합하는 정규화된 그래디언트 앙상블 전략을 도입하여 GAN 기반 모델과 디퓨전 기반 모델을 모두 포함하는 다양한 유형의 딥페이크 모델을 동시에 공격할 수 있도록 하였다. 추가적으로 픽셀 수준의 차이만으로 위조 품질을 평가하는 것이 불충분하다는 것을 입증하며 방어의 성공 여부를 종합적으로 평가할 수 있는 대안 프로토콜을 제안했다.