고려대학교 DMQA 연구실

Dive into audio transformer

2022년 3월 25일 오후 4:12
조회수: 8234

REFERENCES

220401_Seminar_Dive into audio transformer_고은지.pdf

INFORMATION

2022년 4월 1일
오후 1시 ~
온라인 비디오 시청 (YouTube)

발표자:

고은지

TOPIC

Dive into audio transformer

On-Line Video

OVERVIEW

Transformer는 self-attention을 통해 기존 RNN기반 모델들의 단점을 극복함과 동시에 NLP task에서 비약적인 성능 향상을 이루었다. 이후 vision task에서도 이미지 데이터에 적합한 transformer 구조인 vision transformer(ViT)가 고안되어 우수성을 입증하였다. 다양한 도메인에서 transformer 구조가 성공적으로 적용됨에 따라, 최근에는 오디오 데이터에 transformer를 활용하고자 하는 연구들이 활발하게 진행되고 있다. 본 세미나에서는 오디오 데이터를 위한 transformer 구조를 설명하고, 최근 진행되어온 연구 사례들에 대해 소개하고자 한다.

참고 문헌 :

[1] Verma, P., & Berger, J. (2021). Audio transformers: Transformer architectures for large scale audio understanding. adieu convolutions. arXiv preprint arXiv:2105.00335.

[2] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.

[3] Gong, Y., Chung, Y. A., & Glass, J. (2021). Ast: Audio spectrogram transformer. arXiv preprint arXiv:2104.01778.

청취자 후기

김성수

이번 세미나는 Audio Transformer를 주제로 진행되었다. 최근 인공지능 기술의 발달로 오디오 데이터가 현실에 적용되는 경우가 많아지고 있는 추세이다. 예를 들어 인공지능 스피커의 오디오 인식이나, 인공지능 성우의 오디오 생성 등이 그러하다. 본 세미나에서는 이러한 오디오 데이터를 Time Domain과 Frequency Domain에서 살펴보았다. 먼저 Waveform을 통해 Time Domain에서 시간에 따른 진폭의 변화를 표현할 수 있으며, 푸리에 변환을 통해 오디오 주파수를 스펙트럼, 스펙트로그램으로 표현할 수 있었다. 본 세미나는 Time Domain의 Waveform과 Frequency Domain의 스펙트로그램에 대하여 Transformer를 적용한 논문들을 추가적으로 소개하였다. 먼저 Time Domain의 Waveform에 Transformer를 적용한 논문은 기존 Transformer구조에 CNN의 Pooling Layer를 추가한 것이 특징이었다. 이를 통해 계산의 효율성이 증가했을 뿐만 아니라 넓은 Receptive Field를 갖게 된다는 점이 인상깊었다. 두번째로 Spectrogram에 Transformer를 적용한 논문은 Normalization 후 Multi-head Attention을 적용한다는 것과 패치를 Overlap하여 생성하여 성능을 향상시켰다는 점이 흥미로웠다. 마지막으로 Audio Transformer의 학습을 효율적으로 만든 논문은 Patchout을 통해 생성된 패치의 일부를 Drop한다는 것이 특징이다. Overlap된 패치로 상당한 숫자의 패치가 생성되는데, 일부를 Drop함으로써 전체 패치를 사용하지 않고도 학습에 성공했다는 점이 포인트였다. 기존에 오디오 데이터를 접해본 적이 없었지만, 본 세미나를 통해 오디오 데이터의 개요, 전처리 과정 그리고 이를 Transformer에 적용한 논문들을 살펴보면서 흥미로운 연구분야라는 생각이 들었다. 특히 3가지 논문 모두 새로운 아이디어를 추가한 것이 아닌, 기존 방법론의 아이디어를 오디오 데이터 모델링에 적용하여 좋은 성과를 낼 수 있었다고 생각이 들었다. 지금은 연구를 주도적으로 하기보다는 기존 연구를 살펴보며 공부하는 단계인데, 이처럼 기본적인 방법론을 공부하는 것의 중요성을 다시금 깨닫게 되는 계기가 되었다. 유익한 세미나를 준비해주신 고은지 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

김창현

이번 세미나는 Audio Transfer를 주제로 진행되었다. 최근에는 오디오 데이터에 인공지능 기술을 적용하는 사례를 쉽게 접할 수 있다. 오디오 인식, 분류, 생성 등 다양한 분야에어 오디오 데이터를 분석하기 위한 연구가 진행되고 있다.

오디오는 물체가 진동함에 따라 발생하는 데이터이다. 오디오의 특징을 표현하는 중요한 요소로는 소리의 크기, 높낮이, 음색 등이 존재한다. 이런 오디오 데이터는 크게 time domain과 frequency domain으로 분류가 가능하다. Time domain은 시간에 따른 오디오의 특징 표현에 집중하고 frequency domain은 오디오를 구성하는 여러 주파수의 관점에서 특징을 표현한다는 특징이 있다. Time domain은 오디오를 구성하는 여러 frequency의 개별 특징을 표현하기 어렵다는 단점이 있는데 이를 해결하기 위해 frequency domain으로의 변환이 필요하다. 이 과정에서 오디오를 서로 다른 frequency의 합으로 표현하는 푸리에 변환이 사용된다.

기본적인 오디오 데이터의 모습인 Waveform에 푸리에 변환을 진행하면 스펙트럼의 추출이 가능하다. 이렇게 추출된 스펙트럼 또한 아직은 오디오의 시간 정보를 표현할 수 없다는 한계가 존재한다. 따라서 오디오을 일정 시간(window 크기)만큼 푸리에 변환을 진행하는 단시간 푸리에 변환(STFT)을 실시한다. STFT를 진행하면 시간(time)에 따른 주파수(frequency)별 세기(magnitude)를 나타내는 스펙트로그램을 추출할 수 있다. 즉 스펙트로그램을 사용하면 오디오의 시간 정보와 주파수 특징을 모두 표현할 수 있다. 이후 본 세미나에서는 Waveform에 적합한 transformer 구조를 소개한 논문, 오디오 분류를 위해 스펙트로그램에 transformer를 접목한 논문, audio transformer의 효율적 학습을 위한 방법을 제안한 논문 등 오디오 데이터에 transformer 구조를 접목한 논문들을 소개해 주었다.

최근 개별적으로 오디오 데이터에 대해 공부하고 있었는데 오디오 데이터의 기본적인 개념부터 최신 논문까지 이해할 수 있는 세미나였다. 좋은 세미나를 준비해준 은지에게 감사의 말을 남기며 세미나 후기를 마무리한다.

채고은

금일 세미나는 Audio Transformer 주제로 진행되었다. Audio 데이터에 대해 접해본 경험이 없어서 Audio 데이터에 대해 알 수 있었던 기회였다. 개인적으로 매일 사용하고 있는 인공지능 스피커의 오디오 인식, 오디오 생성 등 다양한 연구가 진행되고 있는 추세이다.
Audio 데이터는 크기 amplitude와 높낮이 frequency로 구성되어 있으며 컴퓨터가 이해할 수 있도록 sampling 을 통해 디지털, 숫자로 변환해야 한다. Time과 Frequency domain으로 표현가능하며 time domain으로 표현한 것이 waveform이다. Waveform은 frequency 정보를 표현할 수 없다는 단점을 해결하기 위해 푸리에 변환을 통해 frequency domain의 스펙트럼, 스펙트로그램을 추출한다.
본 세미나에서는 audio data에 transformer를 결합시킨 논문 세개를 소개하고 있다. 첫번째 논문에서는 waveform에 적합한 transformer 구조를 제안하며 pooling layer 아이디어를 결합했다. 따라서 계산 효율성이 증가하고 hierarchical 특징 학습에 유리한 모델을 구축했다. 두번째와 마지막 논문에서는 푸리에 변환으로 추출한 스펙트로그램에 transformer 아이디어를 접목시켜 성능향상, 계산 복잡성과 메모리 문제를 해결했다.
인공지능에는 다양한 분야가 있지만 한 방법론의 아이디어가 다른 분야에 접목되어 새로운 방식으로 접근하고 성능 향상이 되는 것은 항상 재밌는 현상이라고 생각된다. audio 데이터의 기초 개념과 최근 연구 동향까지 알 수 있었던 기회가 되었다.

허종국

기계 번역에서 RNN 을 벗어나 Attention Mechanism 만을 통해 좋은 성능을 보여주었던 트랜스포머는 후에 BERT와 GPT 등으로 발전하며 문서 분류, 질의 응답 등 자연어 처리의 다양한 태스크를 동시에 수행할 수 있도록 발전되어왔다. 뿐만 아니라 2019년 ViT 논문은 트랜스포머가 CNN 을 대체하여 컴퓨터 비전 태스크를 수행할 수 있음을 증명하였다. 본 세미나는 자연어, 컴퓨터 비전 뿐만 아니라 트랜스포머가 오디오 데이터에서도 활발히 연구되어 있음을 보여주었으며, 대표적인 연구 3가지를 잘 요약하였다.

트랜스포머 구조는 각 도메인에 맞게 입력의 전처리와 학습 방식이 조금씩 다르다. 일례로, 비전 분야에서 트랜스포머는 이미지를 여러 개의 패치로 나누어 각각의 패치를 하나의 토큰으로 취급한다. 오디오 분야에서 트랜스포머의 입력값은 Waveform 형태와 Spectrogram 형태로 나누어 사용할 수 있다. 또한 가장 최근의 연구인 PaSST는 기존 트랜스포머의 Time Encoding 뿐만 아니라 오디오 데이터 특성에 맞도록 Fequency Encoding 까지 추가하였다.

특정 분야에서 좋은 성능을 나타내었던 학습 방식이나 모델 구조를 다른 분야에 단순히 적용하기보다는 도메인의 특성을 살린 변형을 추가하여 새로운 연구로 삼은 좋은 사례들을 볼 수 있었다.

황성진

오늘은 Audio transformer를 주제로 세미나를 진행하였다. Audio 데이터는 시간에 따라 소리의 크기 높낮이, 파형의 형태에 따른 음색 등의 특징을 가진다. 세미나에서는 시간에 따라 진폭의 변화를 표현하는 Time 도메인, 오디오 데이터의 주파수를 토대로 표현하는 frequency 도메인을 소개하였다. 특히 주파수를 푸리에 변환을 통해 스펙트럼 형태로 추출하고, 여기서 나아가 시간축을 살릴 수 있도록 STFT를 사용하여 스펙트로그램으로 변환 시키는 것이 인상깊었다.

이러한 오디오 데이터에 Audio Transformer는 효과적으로 사용될 수 있는 모델인데, 동작 구조는 Waverform 임베딩을 통해 입력을 넣어주고 Transformer 를 통과하여 average pooling과 Fully connected layer를 마지막으로 class를 분류한다. transformer가 audio 데이터에 대해서 CNN, RNN을 대체하여 효과적인 성능을 보였으니, 나아가 성능을 개선시킨 다양한 논문을 소개해주었다. 먼저 AST논문은 스펙트로그램을 사용하였다. 스펙트로그램을 패치로 분할해서 input으로 넣고, positional 임베딩으로 패치의 위치정보를 반영하도록 한 것이 인상적이었다. 또 PaSST는 이러한 transformer 모델의 계산 복잡성과 메모리 문제를 지적하며, CNN수준으로 낮추고자 하였다. 패치의 개수가 많을 때 계산 소요가 커지는 것을 개선하여 패치의 일부를 drop하고 frequency 임베딩과 time 임베딩을 넣어 좀더 효과적으로 계산될 수 있도록 하였다는 점이 근사했다.

세미나를 보면서 머신러닝을 학습한다는게 자신만의 모델 구조를 개발하기 위해서라기보다는, 세상에 수많은 똑똑한 사람들이 만들어놓은 모델을 어떻게 자신의 도메인에 맞게 선택할 지 배워과는 과정이란걸 먼저 느껴졌다. 물론 궁극적으로는 새로운 방법론을 만들어내고 싶지만, 그 이전에 오디오 데이터처럼 도메인의 특징들을 제대로 파악하고, 여기에 맞는 모델은 무엇인지, 또 사용한 모델의 단점은 무엇이며 어떻게 개선시킬 것인지 고민하는 과정이라는 생각이 든다. 은지가 오디오 데이터에 대해서 차근차근 명료히 설명해주고, 여기에 맞는 트랜스포머를 적용해나가는 과정을 이해하기 쉽게 알려주었기 때문에 많은 것을 느낄 수 있지 않았나 싶다. 좋은 세미나를 진행해준 은지에게 감사함을 전한다.

김재훈

금일 세미나는 은지가 음성데이터 분석을 주제로 발표를 진행하였다. 발표는 주로 Transformer를 활용한 분석에 초점이 맞추어져 있었고 dive into audio transformer라는 제목에 걸맞게 도메인에 대한 소개와 분석에 활용되는 모델의 구조 및 원리에 대해서 심도있게 소개하였다.

인공지능 스피커가 이미 우리 생활에 녹아들어있는 것처럼 오디오 데이터를 분석하는 연구와 실생활 적용 사례는 꽤 활발하게 이루어지고 있는 편이다. 앞서 말한 인공지능 스피커(오디오 인식) 뿐만 아니라 회사에서는 차량 소음을 통해 차량 상태를 진단하거나, 생성 모델을 적용하여 인공지능 성우를 통해 컨텐츠를 생산하기도 한다.

오디오 데이터를 분석하기 위해서는 우선 오디오가 어떤 요소로 구성되어 있나를 알아야 한다. 오디오는 소리의 크기(amplitude), 높낮이(frequency)로 이루어져 있다고 볼 수 있고 컴퓨터가 이를 이해하기 위해서 진동(아날로그 신호)을 숫자(디지털 신호)로 바꾸기 위해서 수 초 단위로 진동의 정도를 기록하는 sampling 과정을 진행한다. 예를 들어서 sampling rate가 44,100인 경우에는 1초의 진동으로부터 44,100개의 값을 기록했다는 의미라고 한다.

오디오 데이터는 time domain과 frequency domain에서 표현 가능하다. 이 때 time domain 측면에서는 시간의 흐름에 따른 진동의 특징(waveform)에 주목한다고 볼 수 있으며, frequency domain에서는 오디오를 구성하는 여러 주파수에 대한 특징(spectrum, spectrogram)에 주목한다고 볼 수 있다.

일반적으로 frequency domain에서 진동의 특징을 추출할 때에는 푸리에 변환 과정을 거친 데이터인 스펙트럼을 사용한다. 푸리에 변환을 통해 오디오 신호는 다양한 주파수들의 합으로 표현되는데 이를 스펙트럼이라고 한다. 다만 스펙트럼에는 시계열성이 포함되어 있지 않기 때문에 이를 고려한 푸리에 변환이 필요하다. 단시간 푸리에 변환(Short Time Fourier Transforml STFT)는 오디오의 일정 시간마다 푸리에 변환을 취하는 기법으로써 시계열 정보를 부여할 수 있게 된다. 이와 같은 과정을 통해서 나온 데이터를 스펙트로그램이라고 한다.

한편, 최근에 다양한 분야에서 활용되고 있는 transformer 역시 오디오 분야에서 활약을 하고 있는데 그 중에는 Audio Transformers가 있다. 이 모델은 Waveform으로 임베딩된 데이터를 일정 패치 단위로 쪼개어 transformer의 입력 값으로 사용하게 된다. 이후에는 transformer 블록과 average pooling 층을 번갈아 거치면서 특징을 추출하고 최종적으로는 해당 오디오 데이터가 어떤 클래스에 속하는지 분류 작업을 수행한다.

Audio Transformers가 time domain 관점에서 오디오 문제를 수행했다면 Audio Spectrogram Transformer는 frequency domain 관점에서 오디오 문제를 수행한다고 볼 수 있다. 이 모델은 스펙트로그램을 입력값으로 사용하게 되는데 최근에 유행하고 있는 ViT의 문법을 그대로 차용한 모델이라고 볼 수 있다. 이미지 형태로 되어있는 스펙트로그램을 16x16 크기의 패치로 6만큼 오버랩을 하여 분할을 하여 입력값으로 활용한다. 다만 Audio Transformers와는 달리 별도의 pooling 층을 사용하지는 않으며, 대신 기존 Transformer의 블록을 구성하고 있는 각 층의 순서와는 조금 다른 모습을 보인다. (순서의 차이가 있음) 이후에는 Efficient Training of Audio Transformers with Patchout이라는 논문에서 스펙트로그램을 활용한 모델이 좀 더 계산 및 메모리 효율적으로 학습할 수 있는 방식을 제안한다.

오디오 분야는 다루어볼 기회가 아직까지 없었기 때문에 생소한 분야로 남아있다. 하지만 항상 좋은 세미나가 올라오는 덕분에 관련 자료를 볼 때 나름 어색하지 않게 읽을 수 있는 것 같다. 이번에도 은지가 도메인에 대한 설명부터 관련 모델까지 소개를 해준 덕분에 많은 지식을 얻어가는 것 같다. 이 분야가 낯선 사람도 이해하기 쉽고 유익한 세미나를 만들어준 은지에게 감사의 말을 전한다.

황순혁

본 세미나는 Audio Transformer의 주제로 진행되었다. Transformer는 Self-attention 구조를 바탕으로 기존에 존재하던 RNN 모델들의 단점을 극복함을 넘어, Vision 분야에서의 이미지 데이터 분석에서 대표적인 CNN보다 뛰어난 성능을 보이고 있다. 최근에는 자연어 처리, 이미지 데이터뿐만 아니라 정말 다양한 도메인에 Transformer를 적용하고 있고, 본 세미나에서는 Audio 도메인에 Transformer를 적용한 사례를 살펴보았다.

컴퓨터가 오디오를 이해하기 위해서는 오디오를 숫자로 표현해야 한다. 이를 위해 Sampling 과정을 거치고, 아날로그 신호(오디오)를 디지털(오디오 데이터) 신호로 변환하는 작업을 거치게 된다. 변환된 오디오 데이터는 Time domain과 Frequency Domain에서 표현이 가능하다. Time domain은 시간에 따른 오디오의 특징을, Frequency domain은 오디오를 구성하는 여러 주파수의 관점에서 특징을 표현한다. 이 중 Time domain으로 표현한 것이 Waveform이다. Waveform의 주파수별 특징을 표현하기 어렵다는 단점을 해결하기 위해, Frequency domain을 푸리에 변환을 활용한 Feature extraction을 통해 Spectrum, Spectrogram, MFCC등을 얻을 수 있다.

Audio data에 대한 상세한 소개와 함께, 본 세미나에서는 해당 Audio data와 Transformer를 결합시킨 사례를 소개한다. Waveform에 적합한 Transformer의 구조를 소개한 논문, Spectrogram에 transformer를 접목시킨 논문 등 처음이라면 생소할 수 있었던 Audio data와 Transformer의 결합을 상세한 사례를 통해 안내해주었다.

오디오 분야는 최근 프로젝트를 통해서 처음 접해보고 있었는데, 본 세미나를 통해 프로젝트 활동에 기본적으로 필요한 지식을 얻을 수 있어서 정말 유익한 세미나였다. 도메인에 대한 기초적인 설명부터, 해당 도메인이 Transformer와 어떻게 결합하여 활용되는지 상세한 논문들을 통해 확인할 수 있는 좋은 기회였다. 어렵게 느껴질 수 있는 내용을 나같은 초심자도 잘 이해할 수 있게 세미나를 준비해준 은지에게 감사의 말을 전하며, 세미나 후기를 마친다.

이정민

이번 세미나는 Audio Transformer를 주제로 진행되었다. 최근에는 오디오 인식, 오디오 분류, 인공지능 성우같은 오디오 생성 등 다양한 오디오 데이터에 인공지능 기술을 적용하는 사례를 접할 수 있다.
오디오 특징을 표현하는 중요 요소로는 크기, 높낮이, 음색이 있는데 본 세미나는 크기, 높낮이에 포커스를 맞춰서 진행되었다. 오디오 데이터는 time domain과 frequency domain에서 표현이 가능한데 time domain은 소리의 크기 정보에 집중하여 표현되고 frequency domain은 오디오를 구성하는 주파수들의 정보를 중심으로 표현된다.
푸리에 변환은 오디오 신호를 다양한 주파수들의 합으로 표현하는 방식이다. 푸리에 변환을 통해 스펙트럼이 추출되는데 이는 오디오의 시간 정보는 표현이 불가능하다. 따라서 단시간 푸리에 변환(STFT) 기법이 등장했고 시간 정보를 보존하기 위해 사용된다. 또한 오디오의 일정 시간마다 푸리에 변환을 취해 시간순으로 나열한다. STFT를 통해 스펙트로그램이 추출된다. 스펙트로그램은 스펙트럼과 다르게 오디오의 주파수 뿐만 아니라 시간 정보도 표현할 수 있다.
이 후 Transformer에 대한 간단한 소개가 이루어졌다. Transformer 모델은 encoder-decoder 구조로 encoder에서 sequence 데이터를 입력 받고 decoder에서 타겟 sequence를 출력한다.
본 세미나에서는 오디오 데이터에 Transformer를 적용시킨 세 가지 논문에 대해 추가로 설명해주었다. Audio Transformer은 Waveform 임베딩, Transformer & Average pooling, Dense layer로 이루어져 있다. CNN에서의 pooling layer을 추가함으로써 학습을 도울 뿐만 아니라 계산 효율성을 증대시키고 hierarchical한 특징을 학습하는데 더 유리한 성질을 갖게 되었다. 다음으로 Audio Spectrogram Transformer와 Patchout이 사용된 Audio Transformer가 소개되었다. Patchout이 사용된 모델은 patchout을 통해 전체 패치 수가 줄어 효율적인 학습 및 정규화가 가능하도록 하여 계산 복잡성과 메모리 문제를 CNN 수준으로 감소시킬 수 있도록 하였다.
본 세미나는 주제가 낯설기도 하고 아직 기본적인 지식들이 많이 부족하기 때문에 어렵게 다가온 세미나였다. 현재 다양한 연구를 살펴보며 공부를 해야하는 시점이라고 생각되는데 Transformer와 같은 기본적인 이론에 대해서 더 공부를 해야겠다는 생각을 하게되었다. 오디오 데이터에 적합하게 모델을 조금씩 변형하며 보다 나은 성능을 도출하는 부분이 매우 흥미롭게 느껴졌고 오디오 데이터 자체에도 더 흥미를 갖게 되었다. 낯설고 어려운 내용이었지만 최대한 이해하기 쉽게 설명해주신 고은지 연구님께 감사드리며 이상 본 세미나 후기를 마친다.

백민재

이번 세미나는 Audio Transfer를 주제로 진행되었다. 최근에는 오디오 데이터에 인공지능 기술을 적용하는 사례를 쉽게 접할 수 있다. 오디오 인식, 분류, 생성 등 다양한 분야에서 오디오 데이터를 분석하기 위한 연구가 진행되고 있다.

오디오는 물체가 진동함에 따라 발생하는 데이터이다. 오디오의 특징을 표현하는 중요한 요소로는 소리의 크기, 높낮이, 음색 등이 존재한다. 그리고 오디오 데이터는 크게 time domain(시간에 따른 오디오의 특징 표현에 집중)과 frequency domain(오디오를 구성하는 여러 주파수의 관점에서 특징을 표현한다는 특징)으로 분류가 가능하다. Time domain은 오디오를 구성하는 여러 frequency의 개별 특징을 표현하기 어렵다는 단점이 있는데 이를 해결하기 위해 frequency domain으로의 변환이 필요하다. 이 과정에서 오디오를 서로 다른 frequency의 합으로 표현하는 푸리에 변환이 사용된다.

기본적인 오디오 데이터의 모습인 Waveform에 푸리에 변환을 진행하면 스펙트럼의 추출이 가능하다. 푸리에 변환은 오디오 신호를 다양한 주파수들의 합으로 표현이 가능하고, 이를 통해 각 주파수에 대한 해서을 가능하게 한다. 또한, 푸리에 변환을 통해 스펙트럼 추출이 가능하다. 스펙트럼은 오디오를 구성하는 여러frequency별 강도를 표현한다. 즉 오디오를 time domain에서 frequency domian으로 변환한 특징 추출 결과이다.
하지만 아직은 오디오의 시간 정보를 표현할 수 없다는 한계가 존재한다. 오디오에 푸리에 변환을 적용하면 시간의 정보가 사라진다. 따라서 오디오의 일정 시간마다 푸리에 변환을 취해 시간 순으로 나열하는 단시간 푸리에 변환(STFT)을 실시한다. 이를 통해 시간 정보를 보존할 수 있다. STFT를 통해 시간(time)에 따른 주파수(frequency)별 세기(magnitude)를 나타내는 스펙트로그램을 추출할 수 있다.
즉 이 스펙트로그램을 통해 오디오의 시간 정보와 주파수 특징을 모두 표현할 수 있다. 이 과정을 window를 옮겨가며 반복과정을 거쳐 스펙트로그램을 완성한다. 스펙트로그램을 확대해보면 x축은 시간(time), y축은 주파수(frequency) 색상은 세기(magnitude)를 나타낸다.

transformer는 sequence 데이터를 순차적으로 처리함으로써 발생하는 높은 계산 복잡도와 연산 시간 문제를 해결하였다. encoder-decoder구조이며, encoder에서 sequence데이터를 입력받고, self-attention과 feed forword 구조로 되어있다. decoder에서는 attention sequence를 받아서, target sequence를 추출한다.

오디오 분류를 위해 waveform에 적합한 transformer를 접목한 논문을 통해 audio transformer의 동작구조에 대한 설명을 해주었다. 스펙트로그램에 적합한 transformer의 논문을 통해 AST(audio spectogram transformer) 동작구조를 설명해주었다. audio transformer를 효율적으로 학습하는 방법에 대한 논문을 통해 patch out에 대한 설명과 patch out를 사용함으로써 스펙트로그램의 계산 복잡성을 낮춰 줄 수 있다는 내용을 설명해주었다.

현재는 다양한 연구주제들을 살펴보고, 세미나를 공부하면서 많은 지식을 습득하고 있는 단계입니다. 많은 알고리즘들을 어떻게 내가 원하는 방향으로 적절하게 이용을 해야하는지를 느낄 수 있는 세미나였습니다. 기존에 존재하는 알고리즘을 data에 맞게 잘 사용하는 것만으로도 머신러닝 학습능력을 향상 시킬 수 있겠다 라는 것을 깨달았습니다. 유익한 세미나를 해주신 고은지님께 감사를 드립니다.

고병은

이번 세미나는 Audio Transformer 주제로 진행되었다. Audio 데이터는 최근 인공지능 스피커, 각종 상태 진단 등 다양한 분야에서 사용되고 있어서 이를 위한 다양한 연구가 활발히 진행되고 있다. Audio 데이터는 아날로그 신호이기 때문에 Sampling을 통해 크기(Amplitude, 진폭)와 높낮이(Frequency, 주파수)로 구분하여 디지털화 하여 분석을 진행하게 된다. 특히 Audio는 시간을 기준으로 하는 Waveform과 주파수를 기준으로 푸리에 변환을 사용한 Spectrum으로 Audio 데이터를 표현할 수 있다. Waveform은 시간에 따른 데이터의 변화를 확인할 수 있지만 여러 주파수 별 특징을 표현하기는 어려운 단점을 가지고 있으며, Spectrum은 여러 주파수를 진폭과 함께 표현할 수 있으나 시간의 정보가 표현이 불가능하다는 한계가 있다. 이를 극복하기 위해 단시간 푸리에 변환(STFT)을 사용하여 Spectrogram을 추출할 수 있다. 이렇게 추출 된 데이터를 이용하여 오디오 분류 문제를 해결하기 위한 3가지 방법론을 소개하였다. 첫째로, Stanford 대학에서 연구한 Audio Transformer로서 Waveform에 적합한 Transformer 구조를 제안하였다. 특징으로 CNN에서 효과적으로 사용되는 Pooling Layer를 접목하여 보다 효율적으로 계산하고 hierarchical한 특징을 학습하는데 유리하다고 한다. 두번째는 MIT에서 연구하였으며 Spectrogram에 적합한 Transformer(AST)를 제안하였다. Spectrogram을 패치로 분할하여 사용했고 위치 정보도 임베딩하는 구조인데 CNN에 위치 정보를 추가하는 것과 비슷하다고 느꼈졌다. 마지막으로 패치아웃을 사용한 효율적인 Audio Transformers(PaSST) 연구를 소개하였고 Audio Transformer의 계산 복잡성과 메모리 문제를 CNN 수준으로 감소 시키고자 하였다. 패치 생성 시 Overlap으로 인한 복잡성/메모리 증가를 해결하기 위하여 패치 중 일부를 drop하고 Frequency/Time을 추가하여 보완하였다.
과거에 Audio 데이터는 아니지만 설비의 진동을 Sampling 한 후 푸리에 변환을 통해서 설비 이상을 감지하는 과제를 진행했었는데 과거부터 지금까지 진동이 어떻게 변화하였는지 시간의 정보가 담긴 Spectrogram을 이용하여 확인할 수 있었으면 더 유의미한 결과를 도출할 수 있지 않았을까 라는 생각이 잠깐 들었다. 그리고 Transformer에 대해서는 아직 완벽히 이해가 되지 않아 본 세미나에서 언급한 이영재 연구원님의 세미나를 통해 추가적인 학습을 진행하고자 한다. Audio 도메인에 적합한 전처리 과정과 Audio Transformer를 소개해주신 고은지 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

김경수

이번 세미나는 Audio Transformer에 관한 내용이었다.
회사에서 오디오 데이터를 활용할 방안에 대해서 관심이 있었기 때문에 집중에서 세미나를 들을 수 있었다. 세미나 내용 중에는 오디오의 특징을 표현하는 방식에 Time Domain과 Frequency Domain으로 디지털 신호로 변환 가능하다는 것을 알게 되었고 이러한 데이터를 활용하여 오디오를 분류하는 방법에 대해서 다루고 있었다.
첫번째로 소개한 논문의 경우에는 Waveform의 데이터를 활용한 Audio Transformer였는데 이때 사용된 아이디어는 CNN에서 효과적으로 활용되고 있는 Pooling을 접목한 것이었다. Pooling Layer를 추가함으로써 계산에 대한 효율성을 확보한 내용이었다. 두번재 논문은 Spectrogram을 활용한 방식이었고 Spectrogram에서 임베딩시에 오버랩을 주어 패치를 생성한다는 아이디어가 핵심이었다. 오디오 변환을 효율적으로 할 수 있는 방안에 대한 연구사례도 소개했는데 Patch Out방식이었고 Drop out처럼 일부 패치를 Drop하면서 효율적인 학습이 가능하게 하였다.

이번 세미나를 통해서 오디오를 통해서 다양한 문제들을 풀 수 있겠다는 생각을 하게 되었고
좋은 세미나를 준비해주신 고은지 연구원님께 감사하다는 말을 전하고 싶다.

심세진

이번 세미나는 Audio Transfer를 주제로 진행되었다. 오디오 데이터 관련 인식, 분류, 생성 등 다양한 연구가 진행되고 있다. 오디오 데이터를 잘표현하기 위해 푸리에 변환을 거쳐서 특징 추출을 하여 스펙트럼, 스펙토그램, MFCC 등을 얻을 수 있다. 특히 스펙트로그램은 STFT를 통해 추출하는데, 시간/주파수/세기의 정보를 표현할 수 있는 특징이 있다. 그리고 최근 오디오 분야에 Transformer가 활발히 적용되고 있다. Transformer는 시퀀스 데이터를 처리하며 NLP와 Vision 분야에서 RNN과 CNN을 대체하는 높은 성능을 보이고 있다. 인코더-디코더 구조로 attention을 통해 다양한 관계를 파악할 수 있다. 관련하여 3개의 논문이 제시되었다. 첫 번째 논문의 경우 Transformer layer들 사이에 poolingl layer를 사용하는 특징을 갖고 있다. CNN 처럼 Pooling layer를 추가함으로써 하지 않은 모델과 비교하여 분류에서 좋은 성능을 이루는 것을 볼 수 있었다. 두 번째 논문인 AST의 경우 스펙토그램을 위한 Transformer 구조를 제안하였다. 스펙트로그램 임베딩에서 패치를 overlap한다는 특징을 갖고 있고, 분류에서 좋은 성능을 보였다. 세 번째 논문인 PaSST의 경우 오디오 Transformer의 계산 복잡성과 메모리 문제를 CNN 정도로 감소 시키려고 하는 구조를 제안하였다. overlap을 통해 계산과 메모리의 문제가 있다고 판단하여 Patchout을 적용하여 전체 패치 수를 줄이고 효율적인 학습이 가능하다는 특징이 있다.
Transformer가 오디오 분야까지 영향력을 보이고 있는 것을 처음 알게 되어 무척 흥미로웠다. 오디오 특징 추출을 이해하기 쉽게 잘 설명해 주셔서 유익한 시간이었다는 감사 말씀드리며 세미나 후기를 마친다.

배진수

소리 데이터에 관한 인공지능 세미나를 청취하였다. 이미지나 테이블 데이터처럼 익숙하지는 않은 데이터 도메인이라 그런지 더 재미있게 들었다. 소리 데이터를 분석하기 위해서는 숫자형 데이터로 변환하여야 하는데, 이 때 어떠한 방법으로 소리를 representation하는지 흥미롭게 들었다. 본 세미나에서는 소리의 특성 설명과 이를 반영한 여러 가지 representation 기법들을 소개한다. 이해하였던 내용을 간략하게 정리해보면, Waveform은 시간에 따른 진폭을 표현하기에 소리가 언제 커지고 작아지는지 아는데 용이하며, Spectrum은 주파수 영역 별 소리의 크기를 표현하기에 고음, 저음 혹은 큰소리, 작은 소리를 동시에 이해하는데 효과적이다. 하지만, 시간에 따른 소리의 특성을 이해하는데에 부족하다. 스펙트로그램은 시간에 따른 주파수 영역 별 소리 크기를 모두 표현하기에, Waveform과 Spectrum의 장점을 모두 합친 것과 같은 효과를 갖는다.

위와 같은 소리 데이터 representation 방법들을 세미나 발표자인 은지가 흥미롭게 잘 설명해주어, 고마운 마음을 전하고 싶다. 그 이후로는 Transformer 모델 기초, Waveform에 적합한 Transformer, 스펙트로그램에 적합한 Transformer(+스펙트로그램의 Patch dropout)을 배웠다. 소리에 관한 기초를 탄탄하게 이해하고 나니 뒷 내용이 술술술 이해 되었다.

좋은 세미나를 준비해준 은지에게 감사의 말씀을 전하며 세미나 후기를 마친다.