고려대학교 DMQA 연구실

WaveNet: A Generative Model for Raw Audio

2018년 9월 16일 오후 3:50
조회수: 2969

REFERENCES

20181005_WaveNet.pdf

INFORMATION

2018년 10월 5일
오후 1시 30분 ~
고려대학교 신공학관 218호

발표자:

곽민구

TOPIC

WaveNet: A Generative Model for Raw Audio

OVERVIEW

WaveNet은 오디오의 파형(audio waveform)을 생성하는 generative model이다. 구글에서 개발한 지능형 가상 비서인 구글 어시스턴트에는 양방향 대화를 할 수 있는 기능이 탑재되어 있는데, 이는 WaveNet을 기본 모델로 하여 개발되었다. 한 개의 오디오 포인트를 생성하기 위해서는, 이전 시간대의 데이터 값들을 함께 사용해야 하는데, 이를 확률적인 개념으로보면 joint probability로 표현할 수 있다. WaveNet은 stack of convolution layers를 이용하여 파형의 joint probability를 학습하고, 새로운 데이터를 생성하는 것을 목적으로 하고 있다. 이번 세미나에서는 WaveNet에 대한 개념과 이용된 사례에 대하여 리뷰할 예정이다.

발표자 후기

곽민구

이번 세미나 발표는 'WaveNet: A Generative Model for Raw Audio'라는 논문을 주제로 진행하였다. 이 논문은 2016년 구글 딥마인드에서 발표한 '오디오 생성 모델 논문'이며 이 모델을 기반으로 하여 많은 성능 향상 끝에 현재 구글에서 사용하고 있는 인공지능 비서인 구글 어시스턴트에 실질적으로 사용이 되고 있다고 한다. 연구실 논문 세미나에서 많이 다루었던 주제들과는 다른 특징을 갖는 분야이기 때문에 더욱 의미가 있었고, 준비를 하면서도 재밌었다고 생각된다. WaveNet은 기본적으로 audio data의 분포를 학습하여, 학습된 분포로부터 샘플을 생성하는 generative model 중 하나이다. Audio는 일종의 sequence data로 이전 시점의 데이터들이 갖고 있는 특징과 값들이 현재와 미래에 영향을 미치는 statistical dependency를 모델에 반영해야 한다. 이를 위해 autoregressive model 형식을 사용하며, 데이터의 joint probability를 Bayes rule을 통해 conditional probability의 곱으로 변환할 수 있다. 이때, WaveNet은 조건부 확률들의 곱을 convolution layer를 사용하는 것으로 표현한다. WaveNet에서 가장 중점적으로 소개되는 테크닉은 dilated causal convolutions이다. 이는 causal filter + dilated convolution으로 구분할 수 있다. causal filter는 모델을 학습하는데 있어서 미래 시점의 데이터를 사용하지 않도록 mask해주는 기능을 가지고 있으며, dilated convolution은 훨씬 이전 시점의 데이터를 고려하고 receptive field를 효율적으로 (적은 계산량으로) 증가시키기 위한 기법이다. 또한, audio amplitude를 regression 문제로 해결하지 않고 quantization을 통해 classification 문제로 변형시켜 해결한 것과 ReLU 대신 Gated Activation Unit을 사용한 것은 PixelCNN에서 차용해온 개념이다. (두 논문의 저자가 동일하다) 기본적인 WaveNet은 음성데이터의 분포를 학습하여 샘플링을 하는 모델이다. 여기에 text information을 조건으로 추가시켜, 조건부 데이터를 생성하는 conditional WaveNet을 구성할 수 있는데, 이 기술로 Text-to-Speech (TTS) 기술이 구현된다. TTS는 간단하게 말하면 '컴퓨터가 글을 읽어주는 기술'이라고 할 수 있다. 실제로 구현된 음성을 들었을 때도 매우 자연스러웠는데 인공지능을 기반으로 한 기술이 사람의 삶 곳곳에 사용될 수 있다는 점을 느꼈다.

청취자 후기

이한규

Text-To-Speech (TTS)는 예전부터 많이 사용되진 않았지만 핸드폰에도 컴퓨터에도 들어있는 흔한 기술중에 하나이다. (지금 사용하고 있는 윈도우 10에도 있다). 과거의 TTS는 주어진 텍스트를 아주 딱딱한 기계음으로 읽어내려간다. 그러나 다양한 딥러닝 모델이 제안됨에따라, 좀더 사람같이 텍스트를 읽을 수 있는 parametric TTS, concatenative TTS등 다양한 방법이 제안되었다. 오늘 세미나에는 기존의 방식과 다르게 오디오의 웨이브 자체를 모델링하여 음성을 생성하는 wavenet에 대해 다뤘다. 간단히 요약하면 사람의 억양 및 발음의 특징을 학습하는 모델로, 예를들어, 내 목소리로 모델을 학습시킬 경우, 학습된 모델이 주어진 텍스트를 내 발음과 특징을 살려 읽게 된다. 따라서 좀더 사람과 같은 형태의 목소리를 얻을 수 있다. 그러나 wavenet은 사람에 비유하자면 입에 해당하는 부분으로 새로운 문장 또는 답변을 생성할 수 있도록 하는 "뇌"에 해당하는 연구는 좀더 필요할 것 같다. 세미나를 들으면서 특징을 추출한다는 점에서 텍스트 요약 부분과 연결시킬 수 있지 않을까? 라는 생각을 했었다. 관련 연구를 찾아본다면 좀더 재미있는 연구가 될 것이라 생각한다.

강현구

오늘 세미나는 음성 신호 데이터의 분포를 학습할 수 있는 WaveNet 모델을 다루었다. WaveNet은 2016년에 발표된 논문에서 제안된 모델로, 현재 구글에서 사용하는 인공지능 비서의 목소리도 이 모델로 학습하여 생성된다. 일련의 오디오 신호를 처리하는데 있어서 dilated convolution을 사용하여 RNN계열을 사용하지 않고도 long-term dependency를 효과적으로 학습할 수 있었으며, LSTM의 memory cell을 모방하기 위해 새롭게 gated activation unit을 제안한 것이 특징적이다. Text-To-Speech (TTS) 및 music generation에 항상 관심은 있었으나, 혼자서 공부하기 쉽지 않아 차일피일 미루어왔는데, 이번 기회에 많이 배울 수 있어서 좋았다. 비록 우리 연구실에서 음성 신호 데이터를 다루진 않지만, 일반적인 시계열 데이터에도 충분히 확장이 가능한 모델이라고 생각한다. 시계열 데이터를 연구하는 발표자가 좋은 연구를 할 수 있길 바란다.

김영훈

오늘 세미나에서는 WaveNet에 대한 설명을 들을 수 있었다. WaveNet은 음성 데이터 분포 학습에 특화되어 있는 네트워크 구조다. 기존의 RNN을 이용해서도 이와같은 시그널 데이터를 학습할 수 있다. 하지만 정확도가 높은 음성인식 모델을 만들기 위해서는 시그널을 굉장히 많은 시간 단위로 세분화해서 입력 데이터로 넣어주어야 한다. 이럴 경우 LSTM의 Recurrent 회수가 급증하게 되고 좋은 성능을 기대하기 어려운 상황이 된다. 이를 극복하기 위해 WaveNet은 Convolutional Neural Network를 활용해 독특한 구조를 만들었다. 그리고 Receptive Region을 늘리기 위해 Astrous Convolution 개념을 가져와서 적용을 했다. 전체적으로 Sequential한 데이터 분석에는 RNN을 사용하는 것이 기본 통념이지만 그 안에서 문제점을 발견하고 새로운 관점으로 문제를 해결한 점이 신선하게 느껴졌다. 그리고 궁금한 점은 텍스트 정보를 주어진 정보로서 활용하게 되는데 이 정보와 음성의 시간적인 동일성을 어떻게 맞추는 지가 궁금했다.

조용원

금일 세미나 주제는 WaveNet이었다. Wave라는 단어를 보았을 때, 소리와 관련한 내용임을 예상하였다. 발표자가 WaveNet에 대한 관심을 가지게 된 이유는 구글의 인공지능 비서 서비스인 Google Assistant 때문이었다. 지금 인공지능 비서 서비스는 매우 진화되어서 인공지능 비서가 미용실에 전화를 걸어 서비스 사용자의 목소리와 유사한 형태로 예약을 할 수 있는 상황이다. 특히 해당 서비스의 Text-To-Speech에서 사용자의 목소리와 유사한 음성을 생성하는 곳에 사용되는 기술이 바로 WaveNet이었다. WaveNet은 일종의 GAN이라고 할 수 있는데, 이는 Training Data를 이용해 만든 모델에 기초하여 음성을 생성하기 때문이다. 일반적으로 음성이라고 하면, 데이터들 사이에 독립성이 존재 한다고 할 수 없다. 즉, t시점의 데이터는 t1,t2,t3,...,t(n-1)의 데이터와 관련이 있다는 것을 말한다. 그래서 WaveNet은 Autoregressive하다고 할 수 있다. 음성데이터는 매우 크기 때문에, 기존의 RNN이나 LSTM모델을 쓸 수 없다고 했다. 그래서 CNN을 이용하는데, t시점에서 t시점 이후는 모르기 때문에, 기존 CNN모델에서 특정 값들을 Masking해야 한다고 한다. 또한 음성데이터를 표현하기 위해, 256개의 클래스로 묶어, Multi-class Classfication문제로 바꾸어 해결한다고 한다. 또한 Conditional WaveNet에서는 음성데이터 뿐만 아니라, 텍스트와 유사한 h를 이용하여 h를 조건으로 부여한다. 이렇게 되면, 특정 텍스트를 사용자의 음성적 특징과 유사하게 Google Assistant가 음성을 낼 수 있게 된다. 금일 세미나를 들으면서 느낀점은 CNN이 단순히 Image Classfication의 용도로만 사용되는 것이 아니라, 또 다르게 음성데이터의 분포의 값들을 읽을 때도 사용하는 것이라는 점이다. 이 생각과 동시에 딥러닝 모델에 관한 논문을 읽을 때, 해당 모델을 다른곳에서 이용할 수 있을 것이라는 생각을 하면서 공부해야 함을 느꼈다. 또한 발표자가 발표를 할 때, 중요한 부분과 중요하지 않는 부분을 강세를 이용해서 발표하는 것이 매우 인상적이었다. 나도 발표를 한다면 이러한 장점을 흡수해야 겠다는 생각이 들었다. 또한 4차 산업혁명 시대에 살고 있지만, 해당 기술에 대해서 알 기회가 없었던 나로써는 금일 세미나는 매우 유익한 시간이었다. WaveNet이라는 모델을 소개해준 민구형에게 감사를 표한다.

이민정

오늘은 WaveNet이라는 Audio generative model의 논문 세미나가 진행되었다. WaveNet은 Google Assistant의 일부 기능을 위해 사용되었다. Google Assistant는 양방향 대화가 가능해야함으로 크게 2가지 기능이 필요하다. 첫째는 ASR로 음성을 인식해 문자 데이터로 전환하는 역할이다. 두번째는 TTS로 말할 text를 실제 사람이 말하는 것처럼 음성으로 합성하는 것이다. WaveNet은 TTS의 기능 (text analysis, speech synthesis) 중 speech synthesis에 대한 기능을 수행한다. 음성 생성 합성하는 접근 방법으로는 기존에 rule-based 방법, sample-based 방법, model-based 방법이 존재하고 WaveNet은 model-based 방법으로 음성 데이터의 분포를 학습하여, 분포로부터 샘플을 추출하는 기법이다. 나는 WaveNet의 구성요소를 설명해준 부분이 매우 흥미로웠는다. statistical dependency를 반영하기위해 Dilated causal convolutions연산을 이용해 모델에 녹여내었다는 점이 매우 흥미로웠다. 또 한개 신기했던 부분은 결과를 평가한 부분이었다. 객관적인 정량지표가 아닌 사람들의 평가로 결과를 내어 싣었다. 논문에 평가방법이 나중에 프로젝트를 하거나 필요한 상황에 사용할 수 있도록 살펴보고싶다.

이상민

금일 세미나는 audio 형태의 비정형 데이터에 대한 generative model의 전반적인 설명을 들었다. 중요한 부분은 기본적인 파형(audio wave features)에 대한 데이터로부터 어떻게 generative model을 구성하는지 인데, 기본 구성은 autoaggresive 방식으로 이전 관측치 파형들을 설명변수로 사용하여 조건부 확률에 따라 generative model을 구축하는 것이다. 특히 시계열 데이터의 모델링에 주로 사용하던 RNN의 학습효율 저하문제 때문에 convolution layers을 이용했으며 내부적으로 gate 역할까지 수행가능한 별도 activation을 제안하였다. 적용가능한 실험 시나리오로, multiple human voices, text-to-speech와 music audio generation을 소개해주었는데 오디오 데이터에 대한 머신러닝 연구가 오랫동안 활발히 진행되었음을 알 수 있어서 좋았다. 특히 최근 각광받는 AI스피커 시장 등에서 waveNet을 활용한 다양한 application 연구가 가능할 것으로 보인다. 좋은 연구분야를 소개해준 민구에게 감사의 마음을 전한다. 연구실내에서 프로젝트를 수행을 포함해서 다양한 연구를 수행중인 민구가 좋은 연구성과를 낼 수 있기를 진심으로 바란다.

이지윤

금일 진행한 세미나에서 민구오빠가 Google Assistant의 핵심 기술 알고리즘인 ‘WaveNet’을 소개해주셨다. Google Assistant는 최근 새로운 서비스 프레임워크인 인공지능 비서 서비스이다. 이는 추가적인 명령어 없이 사람과 비슷한 톤으로 전화통화 및 안내 등의 서비스를 정교하게 수행하는데, 해당 양방향 대화 기능 중, Text-to-Speech에서 음성을 생성하는 알고리즘이 바로 WaveNet이다. TTS는 말소리의 음파를 기계가 자동적으로 생성함으로써 주어진 텍스트를 음성으로 변환해주는 기능을 수행한다. 기존의 TTS 기법들은 사람들의 음성을 녹취해논 데이터를 순차적으로 출력해주는데에 반해 WaveNet의 경우 음성 데이터의 분포를 학습하여 음성파일을 생성한다는 데에서 차별점이 있다. 특히 Dilated casual convolutions를 사용하여 적은 계산량으로 큰 receptive field를 얻을 수 있으며, 일종의 generative model이다. 추후 음성의 특징 조건을 부여할 수 있는 Conditional WaveNet모델이 발전하게 되었다. 비지도 학습의 해당 모델의 성능을 검증하기 위해 정량적 지표가 아닌 저자가 새롭게 제안한 평가방법을 알 수 있었다. 가급적 사전에 정의된 평가지표를 사용하는 것은 객관성을 확보하는데 중요하겠으나, 타당성을 갖고 새롭게 정의하는 것 또한 흥미로운 연구의 일부였다고 생각한다. 평소 연구실에서 많이 다루어지지 않았던 음성도메인에서 딥러닝 활용에 대해 처음 접해볼 수 있어 흥미로웠고, 새로운 주제를 준비해준 민구오빠에게 감사하다.

이창현

금일 세미나는 구글 딥마인드에서 발표한 WaveNet : A generative model for raw audio 논문을 소개하는 것으로 진행 되었다. 2016년에 발표된 논문으로 최근 실제 시스템에 많이 사용되는 기술이다. 대표적인 활용처로 구글 어시스턴트가 있다. 인공지능 비서 서비스로 최근 구글 개발자 컨퍼런스에서 사람과 비슷한 양방향 대화를 하는 것을 시연하기도 했다. 양방향 대화에서 중요한 두 가지는 음성을 문자로 전환하는 음성인식과, 문자를 음성으로 전환하는 음성 합성 기술이다. WaveNet 은 이중 문자를 음성으로 전환하는 부분을 담당한다. 음성 합성은 3가지 방법으로 구분할 수 있는데, 음성의 주파수 특징을 분석하여 생성하는 rule 기반의 formant synthesis, 음성 데이터 pool 로부터 샘플을 추출하여 이어붙이는 샘플 기반의 concatenative synthesis, 모델을 기반으로 하는 generative synthesis 가 있다. Wavenet 은 generative synthesis 로 waveform 의 확률값을 추출하는 방식으로 음성이 합성된다. WaveNet 은 audio 의 분포를 학습하는 unsuperbised learning 으로써 연속성을 가지는 데이터이므로 autoregressive 특징을 가진다. 이러한 연속성을 모델에 반영하기 위하여 RNN 이나 LTSM 과 같은 모델을 사용하는 것은 데이터가 너무 크기 때문에 학습에 어려움이 있다. 이를 극복하기 위하여 dilated causal convolutions 을 사용하였다. 진폭에 해당하는 값 softmax distributions 으로 변환하여 multi-class calssification 문제로 변환하였다. 이 밖에 wavenet 은 gated activation units 과 residual and skipconnections 기법을 이용하고, lingustic features 이용하는 conditional wavenet 기법을 특징으로 가진다. 실제 생성된 결과를 바탕으로 평가 결과 기존의 방식대비 wavenet 이 더 자연스러운 음성을 만들어 내는것으로 확인 하였다. 금일 세미나를 통하여 음성 분야에서도 많은 연구가 이루어 지고 있음을 알게되었고 음성과 같은 비정형 데이터의 처리 방법에 대한 새로운 시각을 얻을수 있었다.

채선율

오늘 세미나에서는 음성 generation을 위한 WaveNet을 소개하였다. 예전에 구글 어시스턴트로 미용실 예약하는 동영상을 본 적이 있는데 구글 어시스턴트에 탑재되어 있는 양방향 대화가 가능한 기능이 WaveNet을 기반으로 했다는 사실이 흥미로웠다. Wavenet은 양방향 대화 중에서도 ‘TTS’로 알려져 있는 ‘음성 합성’쪽에 사용된 모델이다. TTS는 텍스트 분석, 스피치 합성의 두 단계로 이루어지는데 Wavenet은 스피치 합성에 사용된다. 스피치 합성이란 어떤 텍스트가 주어졌을 때 그것을 사람이 말하는 듯한 음성으로 변환하는 과정이다. 스피치 합성에는 세 가지 접근 방법이 있다. Rule-based, sample-based, 그리고 model-based 방법론이다. 그 중 Wavenet은 model-based 방법론으로 음성 데이터의 분포를 학습하여 분포로부터 샘플을 추출한다. Wavenet의 특징 중에서 인상 깊었던 것은 recurrent 구조 대신 convolution 구조를 사용했다는 것이다. 오디오 데이터를 모델의 input으로 사용하고자 하는 경우, 시간에 따른 변화를 고려할 수 있는 모델을 선택해야 한다. 따라서 sequence가 존재하는 데이터는 보통 RNN 계열의 모델을 사용한다. 하지만 이 연구에서는 시그널 데이터가 너무 길어 RNN, LSTM으로 모델링 하기에 적절하지 않다고 판단하여 convolution 구조를 사용하였다. 또한 convolution 구조를 차용함으로써 생긴 약점을 dilated convolution을 통해 극복하였다. 세미나 마지막쯤 음악 데이터를 이용한 실험에 대해 설명을 해주었는데 실험 세팅이나 평가 방법에 대한 설명보다는 하나쯤 예시를 들어 설명했으면 더 흥미로웠을 것 같다. 전반적으로 이 분야의 트렌드를 주도하고 있는 Deepmind의 연구에 대해 알 수 있어 유익한 시간이었다.

백인성

오늘 세미나는 딥러닝 기반으로 인간처럼 자연스러운 음성을 출력 할 수 있는 WaveNet 알고리즘에 대한 설명을 들을 수 있는 시간이었다. WaveNet은 Audio 스스로의 분포를 학습하는 Autoregressive Model로 t 시점의 input은 t -1 시점에서 얻은 output을 활용해서 사용한다. 이번 세미나를 시작하기 전에 궁금했던 점은 '사람의 음성을 어떻게 변환해서 컴퓨터가 이해할 수 있는 숫자나 문자로 표현할 것인가'에 대한 것이었다. 세미나를 들으며 이 궁금증에 대한 해답을 얻을 수 있었다. 음성 데이터의 파형을 256개 클래스로 나눈 뒤 각각의 클래스에 대한 학습을 진행하는 것이었다. 사실상 생각해보면 이미지 데이터를 픽셀별로 256개의 RGB 클래스로 나누고 학습시키는 것과 유사한 방식을 취한 것이었다. 이처럼 데이터를 변환하거나, 분석 알고리즘을 변화 시킨다거나 등의 새로운 방법에 대해 고민할 때, 무에서 유를 창조하는 것만은 아니라는 것을 다시 한번 상기할 수 있었다. '기존에 공부했던 내용을 어떻게 더 발전시킬까? 어떻게 조금 수정해 볼까?' 라는 것이 연구에 대한 고민의 출발점이 될 수 있다. 이번 세미나를 통해 음성 데이터의 분석 방법에 대해 알게 해주고 더 나아가 연구는 어떻게 시작해야 할 것인가에 대한 고민까지 하게 해준 발표자 민구에게 감사함을 표한다.

도형록

이번 세미나는 wavenet에 대한 설명으로 구성되었다. 발표자의 설명에 따르면, Google Assistant에 포함되는 양방향 대화 기능은 크게 두 가지로 이루어져 있는데, 하나는 사람의 음성 언어를 인식하여 텍스트로 변환하는 speech-to-text이며, 다른 하나는 텍스트를 음성으로 변환하는 text-to-speech 기능이다. Wavenet은 text-to-speech를 효과적으로 수행하기 위한 generative model이라고 한다. Text-to-speech는 크게 3가지 접근 방식으로 나눌 수 있는데, rule-based (formant synthesis), sample-based (concatenative synthesis), 그리고 model-based (generative synthesis)로 구분할 수 있다고 한다. 이후, wavenet 모델과 wavenet에 사용된 핵심 개념인 dilated causal convolution에 대해서도 설명하였다. 실험 결과에서는 HMM-driven concatenative model과 주로 비교되었으며, significant한 비교 우위를 보여주지는 못했으나, 약간 더 좋은 성능을 보이는 것으로 판단할 수 있는 것 같았다. 세미나 주제는 흥미로웠는데, text-to-speech에 대한 background가 조금 더 제공되었다면 좋았을 것이라고 생각한다.

성유연

오늘 세미나는 wavenet에 대한 주제로 진행되었다. 음성과 텍스트를 convolutional layer으로 학습시키면 음성 정보가 나오는 오디오 생성 모델이다. 기본적으로 wavenet은 음성의 주파수나 고도를 가지고 사람의 음성을 잘 나타나게 하는 generation model이다. 이전 시점의 데이터의 특징을 반영하는 autoregressive model을 사용하며 dilated convolution을 사용하여 receptive field를 증가시켜 학습하는 정보량을 확대하는 것이 핵심이다. 가장 최근에 고안된 모델은 text-to-speech 모델로서 text information과 위의 음성 정보를 반영하는데, 여기서 text information은 특정 단어가 읽히는 accent, phone, intonation을 가리키는 phonetic information으로 추정된다. 따라서 글이 기계에 들어갔을 때, 사람의 음성으로 자연스럽게 말할 수 있는 능력을 갖추게 되는 것이다. 하지만, 이 때 text information이 어떤 방식으로 input 삼아 들어가는지에 대한 설명이 있었다면(구체적으로 학습 시점 및 데이터 특정 요소 등), 둘의 연동성에 대한 감이 보다 더 잘 잡혔을 것 같다. 개인적으로 text 데이터와 speech 데이터의 관계성에 대해 평소에 고민해왔는데 언어학의 한 큰 축이 되는 phonetics가 text information으로 쓰이는데에 크게 기여한다는 것을 알 수 있었다.

안건이

오늘은 민구가 “WaveNet”에 대해서 발표를 진행하였다. 최근에 흔히 전자녀라는 이야기를 많이 들었다. 전자녀는 글자를 전자음으로 읽어주는데, 매우 부자연스럽다. 이 부자연서움을 Conditional WaveNet이 극복하였다. 이것은 책을 읽어주는 기계 등 많은 산업에서 유용하게 쓰일쓰일 것 보인다. 초기에는 음성톤을 그대로 복제하여 출력을 하지만 Text, 음악 등의 Conditional을 추가하여 진짜 사람같이 읽어주고 정말 음악처럼 음악을 만들어주는 것이 Conditional WaveNet이다. Conditional WaveNet의 큰 핵심은 Autoregressive, Dilated causal convolutions, Gated activation units, Residual and skip connections이다. 전 세미나들을 들으면서 생소하지 않은 기법들이었다. Text-to-Speech에서 Text는 conditional 함수인 h함수로 사용되는데, 여기서 Text는 embedding된 data가 들어가게 된다. 실제로 영어를 읽어주는 전자녀를 들었을 때 정말 사람이 읽어주는 것과 다른점을 찾아보기 힘들었다. 흥미로운 주제를 소개시켜준 민구에게 감사하다는 말을 전하고 싶다.

알수없음

오늘은 WaveNet 관련 논문리뷰 세미나가 진행되었다. Audio 신호는 16bit로 Quantization 하는 경우가 많다고 알려져 있는데, 이를 Softmax layer로 표현하기 위해선 각 샘플마다 약 6만개의 Output이 필요하다고 한다. Conditional Probability를 모델링하는데 있어서 Softmax Distributions를 사용했다. Law Companding Transformation을 통해 Non-linear한 Quantization으로 변형시켜 (8bit) Outputs를 256 으로 표했다. 이를 통해 인코딩/디코딩 스텝에서 성능향상을 이끈다고 한다.

WaveNet의 전체 아키텍처에서 Residual block이 적용되었다. 이는 2x1 dilated conv – Gated activation – 1x1 COnv + Residual connection 으로 구성되어 있다. 본 논문에서는 Multi-scale CNN 모델의 Spatial Pooling 으로 네트워크의 파라메터 개수나 연산량을 줄이기 보다, Dilation Layer를 사용해 효율화 했다. 이미지와 같은 Audio의 고차원 input을 다루기 위해 현재 Layer의 하나의 뉴런을 그 전단계의 Volume의 전체 뉴런들과 연결하는 것은 비효율적이다. 여기서 각각의 뉴런을 입력 Volume의 Local region에만 연결하는 Receptive Field(Center + Surround)라는 하이퍼파라메터가 Dilation Layer의 요다. 기존 CNN 모델에서는 Receptive Field 확장을 위해 Pooling Layer를 통해 크기를 줄인 다음 Conv를 진행했었지만, Dilated Conv를 사용해서 파라메터 개수는 늘어나지 않으면서, Receptive Field 확장과 연산량의 효율화를 함께 얻게 되었다.

교수님의 말씀처럼 개념을 발표할 때 수식의 기호와, 전문어를 사용하기 보다 쉬운 예시와 그림부터 말해줄 것을 다시금 새기게 되었다. 학회 준비와 연구로 바쁜 가운데 유익한 세미나 시간을 만들어준 민구에게 감사함을 표한다.

Seminar