- 2018년 5월 18일 오후 1:00
- 조회수: 3523
REFERENCES
INFORMATION
- 2018년 5월 18일
- 오후 1시 ~
- 고려대학교 신공학관 218호

TOPIC
OVERVIEW
발표자 후기

Generative Adversarial Net(GAN)을 학습하기
위해서는 일반적으로 "양질"의 데이터가
필요하다. 예를들어서 이미지를 생성하기 위해 모델학습과정에서 깨끗한 이미지 다수가 필요하게 된다. 그러나 이러한 데이터를 수집하는 것은 비용적, 시간적 측면에서 상당히
어려운 일이다.
오늘 다룬 AmbientGAN은 이렇게 "양질"의 데이터가 없는 경우, 즉, 데이터가 있으나 noise,
missing value를 가질 때 이를 학습하여 양질의 데이터를 생성하고자 하는데 그 목적이 있다.
GAN의 학습목적이 True 데이터의
분포를 학습하여 임의의 noise의 분포를 True 분포와
동일하게 학습하여 임의의 noise를 input으로 하여
유사한 샘플을 만드는 generative model이다. 따라서
정확히 noise 또는 missing value를 갖는 데이터를
학습하여 빈 공간을 채우는 "복원"한다는
개념과는 다르다고 할 수 있다. 다시 말해, AmbientGAN은 "양질"의 데이터가 아닌 데이터를 통해서도 True데이터의 분포를 학습할수 있고, 이를 통해서 상대적으로 "양질"의 데이터를 생성이 가능하다는 것을 보인
연구다. 특히 대부분의 이미지가 block-pixel로 사람은
형태를 알아볼 수 없는 이미지의 경우도 학습을 통해 실제 pure와 유사한 이미지를 생성하는 점은 인상깊은
부분이라 볼 수 있다. 오늘 세미나에서는 전반적인 흐름과 더불어 구조정도만을 다뤘지만 실제 본 논문이
인상적인 부분은 이렇게 이미지가 복원되는 조건을 수학적으로 증명하였다는 점은 추후에 본 논문에서 제안한 증명방법을 다시 한 번 봐야할 이유라고
생각된다.
청취자 후기

금일 세미나에서 다룬 논문의 제목은 AmbientGAN: Generative
models from lossy measurements였다. 일반적으로 Generative Adversarial Networks (GAN)을 학습하기 위해서는 노이즈가 없는 깨끗한
양질의 데이터가 필요하다. 이는 굳이 GAN에 한정되어 있다기보다는
깨끗한 데이터가 있을수록 모델의 학습이 잘 된다는 당연한 이야기이기도 하다. 하지만 실제 데이터 혹은
이미지를 수집하게 되면 노이즈가 많이 포함되어 있는 경우가 많다. 이러한 이미지를 갖고 실제와 유사한
이미지를 생성하는 것에는 많은 어려움이 따른다.
AmbientGAN은 '노이즈가
포함되어 있는 데이터'를 갖고 있는 상황에서 양질의 데이터를 생성하는 모델을 학습하는 것을 목표로 한다. AmbientGAN은 간단하지만 꽤나 강력한 아이디어인 measurement
function을 사용하는 것으로 이를 해결한다. Measurement Function은 noise를 추가하거나 masking을 하는 등의 '데이터의 품질을 떨어뜨리는' 과정이라고 생각하면 쉽다. 내가 가지고 있는 데이터에 노이즈가 포함되어 있기 때문에, Generator에서
생성한 데이터에도 같은 노이즈를 추가하여 이를 비교하는 것이다. 기본적으로 내가 갖고 있는 데이터가
어느 타입의 노이즈를 갖고 있는지 대략적으로는 알아야한다는 전제가 있지만 실험 상 좋은 성능을 보여주는 것을 확인했다. GAN은 결국 데이터를 생성하는 모델이기 때문에 noise가 있는
부분을 복원하는 restoration과는 다르다. GAN 컨셉을
이용해서 image restoration을 하는 방법도 고민하면 흥미로울 것 같다는 생각이 들었다.

금일 세미나는 Ambient GAN에 관한 내용으로 기존 GAN을 변형하여 데이터의 noise를 극복하게끔 하는 방법론을 소개하였다. 기존 GAN 모델은 generator와
discriminator를 반복하며 데이터를 학습하고 올바른 데이터를 생성하는 데에 목표가 있다. 이 때, noise가 있는 데이터가 있을 경우에 단순 GAN을 통해서는 올바른 데이터 생성이 되지 않는다는 한계점이 있다. 이를
극복하기 위해서는 Ambient GAN을 사용하는데, 이
모델은 Noise가 있는 데이터가 학습됨에도 불구하고 output으로
올바른 데이터를 생성해주는 목표로 구축된다. Input 이미지 데이터를 사용자가 임의적으로 noise를 주고 이를 학습 시킨다면 데이터의 noise가 줄여진
output이 나오는 원리이다. 여기서 한 가지 의문점은
랜덤으로 준 noise에 대한 데이터를 학습시켰을 때, 이
noise들이 테스트 데이터들의 noise와 종류나 형태가
다르다면 검증 결과가 목표한 바를 이룰 수 있을 것인가에 대한 것이었다. 세미나 질의 응답을 하는 과정에서
데이터에 noise를 주는 방식과 데이터의 방대한 학습량을 통해 이를 해결할 수 있을 것이라는 생각이
들었다. 실제로 GAN은 Text
generation과 Natural Language Processing 분야에서 자주 접했던
모델이며 앞으로 여러 문제 상황을 해결할 수 있는 application 측면에서 의미가 있을 것으로
보인다.

이번 세미나에서는 GAN 계열의 알고리즘인 AmbientGAN을 자세히 소개하고 응용 가능한 분야에 대해서 함께 생각해보는 시간을 가졌다. GAN는 2014년에 Ian
Goodfellow가 제안한 이후로 여러 분야에서 계속해서 발전되어왔다. AmbientGAN은
최근 ICLR 2018 conference에서 발표된 GAN 관련
방법론 중 하나이다. 이 알고리즘은 GAN의 학습을 위해서는
양질의 데이터가 많이 필요하지만 현실적으로 양질의 데이터를 얻기가 쉽지 않고 그 과정 자체가 비용이 많이 들기 때문에, Measurement를 이용하여 이런 한계점을 극복하고자 하였다.
Measurement는 신호처리이론에서 사용되는 개념으로 원래 신호와 측정된 신호 간의 관계를 함수로 표현하여 측정된 신호로부터 원
신호를 추정할 수 있는 방법이다. AmbientGAN은 GAN의 Generative process에서 양질의 이미지에 노이즈가 추가되는 과정을 추가하고 그 과정에 Measurement function을 사용한다. 노이즈가 추가된
이미지만을 가지고 학습을 해야 한다고 가정했을 때, 모델에 이 과정을 추가함으로써 원본 이미지를 추정하는
단계를 거치게 되므로 학습을 충분히 시켰을 때 노이즈가 제거된 양질의 데이터를 얻게 된다. Measurement
function을 사전에 알고 있어야 한다는 점이 한계점이지만 노이즈가 있는 데이터만으로 꽤 좋은 수준의 데이터를 생성할 수 있다는
것은 분명 기존의 GAN보다 실용적이다. 다만 노이즈가 있는
데이터에서 노이즈를 제거하여 원본 데이터를 복원하는 개념이 아니기 때문에 발표자가 제안했던 문서 스캔본이나 의료 이미지와 같은 곳에 적용하기에는
어려움이 있어 보인다. 문서 스캔본의 경우 빈 칸을 random하게 generating하는 게 아니라 문맥에 맞는 의미를 갖도록
generating해야 하기 때문이다. 의료 이미지의 경우 결과에 따라 환자가 치러야 하는
비용(건강)이 너무 크기 때문에 활용처에 대하여 더 고민을
해보아야 한다. 어디에 어떻게 활용할지에 대해서는 세미나 시간에도 모두 의견이 분분했지만 그럼에도 불구하고
너무나 흥미로운 주제였다. GAN의 간단한 컨셉과 함께 응용 방법론 중 하나인 AmbientGAN과 실험, 의미까지 확인할 수 있었던 유익한 시간이었다.

오늘 세미나에서는 AmbientGAN이라고 하는 새로운 GAN 방법론에 대해서 소개를 들을 수 있었다. 기존의 GAN은 정상 원본 데이터가 있을 때 이를 활용해서 새로운 이미지를 생성해내는 인공신경망을 학습시키는 방법이다. 하지만 현실 상황에서는 이렇게 깔끔한 데이터들만 얻어지지는 않는다. 노이즈가
추가되거나 손상된 이미지들이 얻어지는 경우가 있다. 이런 데이터들에 대해서 기존 GAN을 학습시키게 되면 이렇게 손상된 이미지를 생성하는 모델이 학습되게 된다.
저자들은 이러한 상황에서 이상 이미지를 가지고서도 정상 이미지를 생성해낼 수 있는 새로운 GAN을
제안하였다. AmbientGAN이라고 하는데 GAN 모델
중간에 데이터를 정해진 방법으로 변형시키는 Layer가 추가된 방법이다. 이 방법을 사용하게 되면 정상 이미지를 만들도록 학습이 되기 때문에 기존 방법보다 좋다는 것이 결론이다. 결과에 대해서 생각해볼 부분은 저자들이 정상 이미지 하나에 대해서 다양한 변형을 시킨 이미지를 학습하는데 이
과정에서 완벽하지는 않지만 전체 이미지를 넣은 것과 같은 효과가 나타나는 것은 아닌지 하는 생각이 들었다. 예를
들어 정상 이미지를 여러 위치에서 가린 여러 장의 이미지를 학습하게 되면 특정 이미지에서는 가려졌던 부분이 다른 이미지에서는 드러나게 된다. 따라서 어떤 이미지에서 가려진 부분도 전체적으로 학습을 시켰을 때는 학습이 되는 것이다. 만약에 이러한 변형이 이미지마다 한 번씩만 있을 때는 어떻게 해당 방법을 적용시킬 수 있을지 생각해보는 것도
좋은 연구가 될 것 같다.

금일 세미나는 AmbientGAN : Generative models from
lossy measurements 라는 논문을 리뷰하는 방향으로 진행 되었다. GAN 은
기본적으로 Discriminator(구별망)와 Generator(생성망)으로 이루어 지는데 이는 여러 층의 신경망으로
이루어 진다. 생성망은 최대한 실제 데이터와 비슷한 데이터를 생성해 내려고 하고, 구별망은 열심히 그 둘을 구별하려고 하는 것에 목적이 있다. 이
두 망은 다른 망의 역할을 뛰어 넘으려고 하는 방향 즉 다른 망을 이기기 위하여 서로 경쟁하면서 학습을 진행 하게 되며 이것이 GAN 의 원리이다. GAN에는 세가지 Limitation 이 있는데 Training Stability, Forgetting
problem, Requires Good(of fully observed) Training Sample 이 있다. 이 논문에서는 세번째 항목을 극복하는 방향이 제시되었다. Fake
measurement Generative Process 를 진행하여 Generator 에서
생성된 이미지에 Noise 를 준 이미지와 원래 좋지 않았던 이미지를 함께 Discriminator 에 입력하여 학습을 진행 하게 된다. 이렇게
진행을 하면 내가 원래 가지고 있던 좋지 않았던 이미지에 대하여 어떤 종류의 이미지 인지 학습을 통하여 알 수 있게 되고 Generator 에서 생성된 이미지는 학습을 통하여 알게 된 종류의 이미지와 유사한 형태의 이미지와 유사한
특성을 가지게 된다. 처음 논문을 접했을 때는 AmbientGAN이 Noise 영역에 대한 복원을 목표로 하고 있다고 생각을 했었는데 그게 아니라
Noise 가 있는 Data가 어떤 영역의 Data 인가에
대한 학습을 통하여 Noise 가 없는 그 영역의Data 를
생성할 수 있음에 목적이 있다고 볼 수 있다. 이번 세미나를 통하여
GAN 에 대한 개념을 알 수 있었고 경쟁 학습이라는 방법을 다른 분야에는 어떻게 적용할 수 있을지 생각해 볼 수 있는 좋은 세미나였다.

금주 참석한 세미나에서는 ‘AmbientGAN’이라는 주제로 Generative models가 Fully-observed samples를
필요로 하지만 정보손실이 있는 데이터 상에서도 충분히 좋은 분포를 구축하는 후속 알고리즘에 대해 소개해주셨다. 기존의 GAN은 Neural network model두개('Generator', 'Discriminator')를 동시에 학습시킨다. 먼저 'Generator'를 통해 가짜이미지를 생성하고, 이 이미지를 'Discriminator'로 분류하는 학습을 하게 되며 결과적으로 더욱 진짜 같은 가짜이미지를 생성하는 것이
최종적인 목적이라 할 수 있다. 하지만 이는 모델을 학습시키는 과정에서는 선명한 Training data를 필요로 한다. 실생활에서는 이처럼 선명한 Training data를 구축하는 것이 쉽지 않고, 정보손실이 있는
부분적인 혹은 노이즈가 있는 데이터를 수집하는 것이 보다 경제적인 측면에서의 장점이 있다. 이런 경우 Measure domain을 적용시킨 AmbientGAN을 사용할
수 있다. AmbientGAN은
기존의 선명한 이미지에서 Measurement function을 적용시켜 의도적으로Noise가 있는 데이터로 변환한 뒤 Training을 시키고, 역으로 함수를 적용시켜 Noise가 있는 데이터가 주어졌을 때에도 데이터가 잘 생성된다. 하지만 해당 데이터들에 적합한 Measurement function이
무엇인지 먼저 정의 되어져야하며 초반 학습과정에서 mode collapse문제로 동일한 이미지를 생성한다는
단점이 있었다. 또한 학습을 위한 데이터가 충분히 많아야 하고,
Noise가 랜덤 해야한다. 그럼에도 불구하고 Noise가
있는 이미지에 대해 괜찮은 결과를 도출한다는 점에서 Application을 잘 구축한다면 상당히 유의미하고, 경제적인 이점을 주는 알고리즘이 될 것 같다. 특히 오늘 세미나의
경우 GAN에 대해 상기시키며 AmbientGAN의 Application후속 연구에 대해 앞으로도 관심을 갖을 수 있는 계기가 되었고, 어려운 개념에 대해 이해하기 편하도록 설명해주신 유익한 세미나였다.

오늘 세미나는 한규형이 “AmbientGAN: Generative models
from lossy measurements”라는 주제로 발표를 하였다. 대략적으로 정리를
해보면 이 현실에는 깔끔하고 이상적인 이미지나 시그널 즉 데이터만 존재하는 것이 아니다. 따라서, 데이터 퀄리티가 낮은 것을 Oversampling을 할 때 유용해
보인다. 먼저, GAN의 한계점에 대해 소개를 해주었다. GAN의 한계점은 크게 3가지가 있다. Training Stability, Forgetting Problem, Requires Good(of fully
observed) Training samples가 한계점 3가지이다. AmbientGAN은 마지막 3번째인 Requires Good Training samples에 중점을 두었다. 한규형이
발표를 하면서 언급을 했듯이 크게 어려운 수식이 덧붙거나 어려운 개념이 들어간 것이 아니였다. 실제 Noisy가 있는 데이터를 얻기 어렵기 때문에 실제 데이터 셋에도 Noisy를
주는 파트가 들어가게 되고 Generator Model로 만들어진 이미지가 Discriminator Model에 들어가기 전에도 똑같이 Noisy를
주게 된다. 그리고 Noisy에 대해서 어떤 식으로 되었는지를
역으로 계산하여 수식을 찾아주게 된다. 이것은 Standard
Compressed Sensing를 통하여 이해할 수 있었다. 안테나를 통하여서 신호를
보내게 되면 받는 안테나는 원 신호를 전부 받지 못한다. 변형이 생기는 것이다. 따라서, 어떻게 변형이 생기는지를 수식으로 알아내어 역산하는 의미와
같은 것이다. 따라서, 이미지도 Noisy가 있어도 역산을 하여 올바른 이미지로 나타내 주게 하는 것이다. 하지만, 논문에서의 단점은 존재한다. 역산을 할 Function을 우리가 정해줘야 하는 것이며 마지막 수식인
“Pad-Rotate-Project-θ”는 우리가 각도를 지정해 줘야한다는 점이다. 이것은
지나치게 사용자에 의존하는 모습이다. 일단 마지막 Function에
대해서는 차치하고 실험 결과를 보면 성능이 굉장히 좋다. 거의 형상이 보이지 않는 완벽하게는 아니더라도
꽤 잘 복원을 한다. 하지만, 세미나 마지막에도 논의 되었던
것처럼 AmbientGAN을 어디에 사용하면 좋을지 고민할 필요가 있다.

금일 세미나는 AmbientGAN에 대한 내용으로 진행되었다. 2014년 Generative Adversarial Networks가
제안된 이후로 GAN을 다양한 방면으로 개선시키려는 노력들이 진행되었으며, AmbientGAN도 GAN의 여러가지 단점 중 하나를 보완하기
위해 제안된 모델이다. GAN이 training data의 distribution을 잘 학습하기 위해서는, 노이즈가 없는 좋은
관측치들이 많이 필요하다. 하지만 현실의 데이터에는 데이터 측정 시 발생하는 오차가 존재할 수 밖에
없다. AmbientGAN은 이와 같이 training data에 noise가 있는 상황에서 noise가 없는 상태의 training data의 분포를 학습하는 것을 목적으로 한다. 아이디어도
매우 간단한데, generator로부터 생성된 sample에 training data가 갖고 있는 noise를 추가한 뒤, 이를 discriminator에게 전달하는 것이다. 이를 통해서 discriminator는 training data에 존재하는 noise를 통해 generated sample과 training data를 구분하도록
학습되지 않으며, generator가 보다 training data의
분포를 더 잘 학습할 수 있게 된다. 실험 구성이나,
measurement function을 어떻게 정의할 것인지 등에 대해서 다양한 의견이 있을 수 있을 것 같지만, 특정 조건 하에서 noise가 심한 데이터를 잘 학습한다는 데 의미가
있는 것 같다. Measurement function을 고정하지 않고,
학습할 수 있는 형태로 구성했을 때 어떤 결과를 얻을 수 있는지 궁금하다.

오늘 전체세미나는 'AmbientGAN: Generative models
from lossy measurements'에 대해 설명하는 자리로 한규형이 진행하였다.
먼저 GAN은 generative 모델 G와 discriminant 모델
D가 서로 적대적 학습을 진행하며 최종적으로 진짜와 같은 가짜를 만들어내는 G의 성능에
집중한다.
GAN의 주된 활용분야는 이미지 분석으로 양질의 데이터를 수집하기에는
들어가는 비용이 크기 때문에 실제 우리가 가져올 수 있는 이미지 데이터는 noise가 포함되어 있는
경우가 대부분이다. 여기서 'AmbientGAN'의 아이디어가
있다. 먼저 기존의 GAN과 가장 큰 차이점은 Discriminant 모델이 구별하는 real data가 noise가 섞인 이미지 데이터라는 점이다. 하지만 'AmbientGAN'에서 generative 모델의 목적은 여전히(GAN의 G가 추구하는 것처럼)
'noise가 섞여있지 않은 진짜 같은 가짜데이터'를 만들어 내고자 한다. 여기서 Measurement function이라는 개념이 등장한다. Measurement function은 G가 생성한 데이터에 noise를 부여하는 방식이다. 요약하자면, G에서 생성한 데이터에 Measurement function으로 noise부여한 데이터와 noise가 섞인 실제데이터를 D가 분류하는 과정으로 이루어져 있으며, 적대적 학습을 통해 G와 D를 발전시켜 나가는 흐름이다.
이러한 절차에서 알수 있듯이 'AmbientGAN'는
noise가 있는 이미지 데이터를 양질의 데이터로 재구축하고자 하는 알고리즘으로 생각한다. 또한, 'AmbientGAN'의 핵심은 measurement function에
있다고 본다. 논문에서 소개하고 있는 measurement
function은 총 6개이다. 하지만 분석하고자
하는 도메인 지식이 필요할 것으로 보인다. 따라서 미리 정의해 놓지 않은 경우에 해당할 때 적용하기
어려워 보인다.
오늘 세미나로 활발한 연구가 이루어지는 GAN에 최신 확장알고리즘을
볼 수 있어 유익한 시간이었다. 오토인코더 계열에서도 같은 목적을 가지고 개발된 여러 알고리즘이 있는데
어떤 차이점을 갖고있으며 분석하고자 하는 상황마다 장단점이 있는지 살펴보고 싶다. 또한, 'AmbientGAN'만이 가지는 장점으로 응용할 수 있는 분야가 어떤 것이 있을지 궁금하다.

금일 세미나에서는 Ambient GAN을 소개하였다. 기본적인 GAN은 완전한 학습데이터를 기반으로 generator와 discriminator models를 학습시킨다. 하지만, 불완전한 관측치(partial
and noisy observations)가 주어지는 경우 임의의 학습데이터를 유사하게 만드는 것과 예측하는 것 모두 불완전할 수
있다. (학습중 수렴하지 못하거나 왜곡된 결과물로 수렴되는 등)
Ambient GAN은 이러한 문제를 해결하고자 measurement 기법을 활용하고자
제안했다. measurement는 signal data의
유실 또는 왜곡된 정보를 보정하기 위해 쓰이는 방식인데, Ambient GAN에서는 역으로 불완전한
데이터를 생성하는 용도로 사용했다. 왜곡된 데이터가 들어올 것을 기대하고 학습과정 중 왜곡되지 않은
데이터에 measurement (f)를 적용하여 일부러 왜곡시키는 함수로 볼 수 있겠다. 결과적으로, Ambient GAN을 사용하면 결측된 또는 불완전한
데이터 부분에 대해서 그럴싸(?)하게 보정해주는 역할을 하는데 큰 효과가 있는 것으로 논문은 기술하고
있다.
하지만
설명을 듣다가 궁금한 점이 있었는데, 모델의 학습과정에
measurement type도 함께 학습하면 어떨까 싶다. 해당 논문은 measurement 방법(input data가 어떠한 방식으로 불완전한지
정의)을 사전에 정해놓고 학습모델을 구축하고 예측했는데,
measurement가 한정적인 set인 경우 가정 적합한 '불완전 타입'을 인지해서 해당 타입에 맞추어 학습하면 어떨까 싶다.
GAN 알고리즘의 장점은 특히 image data를 다룰 때 극적으로 보여진다. 결과물의 품질을 선명도로 따질 때 다른 알고리즘 보다 높은 성능을 보여주기 때문이다. GAN이 결측 정보량을 임의로 채워주는게 주요한 특징이라면, 학습모델에게
창의적인 역할을 요구하는 분야에 적합하지 않을까 싶다. 적합한 적용분야는 좀더 고민해볼 필요가 있겠다.
오랜만에 GAN 연구 동향에 대해서 상세하게 설명해준 한규에게 고마움의 인사를 전한다.
개인연구 진행에도 큰 성과가 있기를 바란다.

GAN은 모델의 학습이 어렵다는 점이 최대의 단점으로 알려져 있다. 이에 목적함수를 변형시켜 단점을 보완한 여러가지의 GAN들이 소개되어왔다. G(생성자)는 Zero-mean Gaussian으로
생성된 노이즈를 받아 실제 데이터와 유사한 Fake 데이터를 만들도록 학습한다. D(구분자)는 실제와 G가
생성한 Fake 데이터를 분류하도록 학습한다. 기본적인 GAN 모델은 실제 데이터의 분포에 가장 가까운 데이터를 생성하는 것으로 알려져 있다.
오늘 발표자인 이한규 선배가 ‘AmbientGAN’ 을 설명해 주었다. Real Measurement Generative Process의 함수식에서의 Y^r Term에 Log가 빠진 부분에 대해 상당히 궁금했다. GAN에 대해 잘 모르지만
본연의 GAN의 수식과 가장 큰 차이인 Log를 취하는 부분이
있고 없고가 어떠한 영향을 미치는지 공부의 필요성을 느꼈다. 또한, Measurement
Function들을 미리 알고 있어야 한다라는 선배의 설명에 어려웠지만 GAN의 시작부터
최근 연구동향까지 공부하고 싶은 마음이 들었다. 그리고, 잘
알려진 합성곱 신경망과 달리 Weight가 따로 없다는 것도 신기했다.
모델 성능 평가 척도로서 Inception Score라는 Measure를 처음 보았다. AmbientGAN이 어떤 산업분야에
활용될 수 있을지에 대해 연구원들과 토의하는 시간도 유익했다. 한규 선배의 시그널 데이터에도 활용 가능할
것이라는 설명 덕분에 현재 진행 중인 개인연구에 큰 아이디어를 얻게 되어 좋았습니다.

금일 세미나는 AmbientGAN에 대한 소개였다. AmbientGAN은 기존 GAN과 달리 noisy data에 대해서도 높은 성능을 보인다는 점이다. 이러한
특성을 반영하기 위해 AmbientGAN은 Measurement 함수를
사용하였다. Measurement 함수는 원래 신호처리분야에서 유래되었는데 기존의 신호를 압축시키는
함수이다. AmbientGAN은 noisy data를 원
데이터가 Measurement 함수 거쳐서 나온 값으로 간주하였다.
AmbientGAN의 핵심은 generative model의 산출물을 Measurement 함수로 변화시켜 noisy 생기게 만들고 실제 noisy data와 비교하도록 학습한다. 결과적으로 실제 주어진 noisy data가 Measurement 함수로 잘 설명된다면, generative model은 실제 데이터와 유사한 데이터를 생성하기 위해
Measurement 함수로 변화시키기 전에 clear data 생성하게 된다. AmbientGAN에서 주요한 부분은 실제 주어진 noisy data 잘
설명하는 Measurement 함수를 찾는 것이다. 향후
연구로는 이미 주어진 Measurement 함수
hyperparameter로 찾는 것 보다, 아예 학습시켜보면 어떨지 생각해 본다.

오늘 세미나는 대표적인 심층신경망에서 대표적인 generative 모델인 generative adversarial autoencoder (GAN) 을 확장한 연구에 대해 다루었다. GAN은 분류기와 생성기 두 개의 독립적인 모델이 minimax 게임을
통해 협동하여 궁극적으로 좋은 generative 모델을 만든다. 그러나
새로운 데이터를 생성하는데 있어서 충분히 양질의 데이터가 학습에 필요하다. 오늘 다룬 AmbientGAN은 양질의 데이터가 없을 때 좋은 새로운 데이터를 생성하고자 하는 물음에서 시작되었다. 실제 measurement 함수를 미리 정의하고 있어야 하는 부분이
현실 적용에 있어 큰 한계점으로 보이지만, 이 부분 역시 발전되면 학습하여 추정할 수 있을 것 같다. 현실에서 있을 수 있는 문제를 정의하고 이를 풀어나가기 위해
measurement 라는 것을 정의하여 기존 GAN 모델에 적용했는데, 이처럼 문제를 정의하고 문제를 풀기 위해 해결방법을 고안하여 실험으로 보여주는 것이 가장 기본적이면서도 쉽지
않은 연구과정이라 생각한다. 몰랐던 새로운 특정 알고리즘을 접한 것도 좋았지만, 위에 언급한 것처럼 연구 접근방법에 대해 다시 생각해볼 수 있는 시간이라 유익했다.

금일 세미나에서는 한규형이 ambientGAN에 대해서 발표했다. Generative model인 GAN은 다른 모델도 마찬가지 겠지만
양질의 샘플을 생성하기 위해 양질의 데이터로 학습해야 한다. AmbientGAN 에서는 낮은 품질의
데이터 즉 노이즈가 많은 데이터를 이용해 학습하더라도 좋은 양질의 샘플을 생성할 수 있는 모델이다. 이를
위해 measurement 개념을 사용하였는데 우리가 관측한 데이터는 원래 좋은 퀄리티의 데이터 이지만
노이즈에 의해 변형된 것인데 이 때 노이즈를 노이즈 발생 함수로 정의할 수 있다는 내용이다. GAN에서는 measurement 함수를 우리가 아는 경우 generator로부터
생성한 데이터에 measurement 함수를 적용하여 노이즈를 유발하고 discriminator는 노이즈가 있는 데이터를 이용하여 샘플이 real 인지 fake인지 구별하게 된다. 논문에서 극단적으로 많은 노이즈가 포함된
데이터로부터 원래 데이터에 가까운 샘플을 생성하였는데 실험 절차에 대해 좀 더 자세히 살펴볼 필요가 있을 것 같다. 그리고 흥미로운 아이디어와 실험결과 이지만 ambientGAN을
어떻게 활용할지도 앞으로 고민해봐야 하겠다.
강현구
오늘 세미나는 Generative Adversarial Networks(GAN) 연구 중 최신에 해당하는 AmbientGAN을 주제로 진행되었다. 2014년에 처음 등장한 이후 GAN은 지금까지도 활발히 연구되고 있는 생성 모델(generative model) 중 하나인데, 이를 효과적으로 학습하는데는 양질의 데이터가 많이 필요하다. 오늘 소개된 AmbientGAN에서는 noise가 많이 포함된 이미지 데이터만으로 학습을 진행하여 우수한 성능의 이미지를 생성해내는 것을 확인할 수 있었다. Generator가 생성해내는 인공 이미지와 실제 이미지에 모두 노이즈를 섞고, discriminator로 하여금 노이즈가 섞인 이미지들을 판별하게 하는 아주 간단한 아이디어였다. 논문에서는 이 노이즈 함수를 사전에 여러 개 정의해두고 사용하였는데, 이 함수 마저도 학습할 수 있는 모델로 대체하는 방법을 생각해보면 좋을 것 같다. 평소 시간 여유가 없어서 GAN 논문을 읽고 싶어도 읽을 수가 없었는데, 이렇게 세미나를 통해서 최신 트렌드와 핵심 개념을 접할 수 있어서 좋았다.