- 2021년 1월 1일 오후 12:04
- 조회수: 5479
REFERENCES
INFORMATION
- 2021년 1월 8일
- 오후 1시 ~
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
요약 : 현재 딥러닝의 기술이 발전됨에 따라 음성인식(Speech Recognition), 오디오 분류(Audio Classification), 오디오 캡셔닝(Audio Captioning) 등 음성/오디오 분석 연구에서의 딥러닝 적용 사례가 늘어나고 있다. 음성/오디오 분석을 위한 연구에서는 소리 데이터를 사용한다. 소리 데이터는 이미지, 영상, 텍스트 데이터와는 다른 전처리, 변환 및 특징 추출 등의 과정을 거쳐서 학습 모델에 입력되게 되고 소리 데이터의 특성을 잘 반영할 수 있는 다양한 딥러닝 구조가 연구되어 왔다. 이번 세미나는 소리 데이터를 위한 다양한 전처리(Preprocessing) 및 특징 추출 방법(Feature Extraction), 데이터 증강 기법(Data Augmentation)의 원리를 설명하고, 소리 데이터 분석에 적합한 딥러닝 모델에 대해 소개하고자 한다.
참고문헌:
1. Oord, A. V. D., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... & Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. arXiv preprint arXiv:1609.03499.
2. Mehri, S., Kumar, K., Gulrajani, I., Kumar, R., Jain, S., Sotelo, J., ... & Bengio, Y. (2016). SampleRNN: An unconditional end-to-end neural audio generation model. arXiv preprint arXiv:1612.07837.
3. Suh, S., Park, S., Jeong, Y., & Lee, T. (2020). Designing acoustic scene classification models with CNN variants. DCASE2020 Challenge, Tech. Rep
청취자 후기
소리 데이터는 이미지(영상)과 텍스트 데이터와 함께 딥러닝 분야의 3대 데이터 분야로 꼽히는 분야이다. 금일 세미나에서는 기원이가 소리 데이터에 대해 딥러닝 적용하기 위해 선행 되어야 하는 Feature engineering부터 모델링까지 여러가지 요소를 소개해주었다. 소리 데이터는 Feature engineering이 가장 중요하다는 것을 프로젝트를 진행하면서 느끼고 있었는데 이에 대해 하나하나 짚어주어 다시 이론을 복기할 수 있었다. 시간, 주파수, 세기의 3요소로 구성된 소리를 표현하는 Mel (Log) Spetrogram과 MFCC는 시각적으로도 확인할 수 있지만, 이를 직접 모델링 해보아야 해결하고자 하는 문제에 적용해보아야 어떠한 Feature가 적합한지 알 수 있다는 점에서 많은 시간이 필요한 것이라고 생각한다. 또한 Feature 값을 있는 그대로 사용하는 것인지 이미지로 저장하는 것이 문제를 해결하기 위해 적합한지 역시 실험으로 증명해야하는 까다로운 분야이다. 위에서 언급한 프로젝트를 진행하면서 기원이가 Feature engineering 에서 많은 도움을 주었었는데 세미나 후기를 작성하며 고마웠다는 이야기를 전하고 싶다. 그리고 경상도 사투리로 진행해서 인지 소리 예시에 대해 이해가 수월했다. 시그널과 소리에 대해 관심을 가지고 있는 기원이가 개인 연구에서도 좋은 성과를 보였으면 좋겠다.
오늘은 기원이가 소리 데이터 분석에 관한 세미나를 진행해주었다. 소리 데이터는 이미지텍스트 데이터와 더불어 최근 딥러닝 모델이 많이 활용되고 있는 데이터 중에 하나이다 (음성인식, 오디오 분류, 오디오 캡셔닝 등 다양한 테스크에 활용). RGB 각 픽셀의 색의 명암 값으로 변화시켜 사용하는 이미지와 달리 소리는 sampling rate에 따라 추출된 파장의 진폭 값으로 컴퓨터가 이해할 수 있는 데이터로 변환된다. 이를 그대로 활용하지 않고 주파수 정보를 추출하는 기법 3가지(Spectrum, mel spectrogram, MFCC)에 대해서 소개해주고 이를 쉽게 구현할 수 있는 python 라이브러리까지 소개해주어 요긴하게 활용할 수 있을 것 같다. 이 분야는 전통적으로는 전자과에서 많이 사용되는 특징 추출 기법(Fast fourier transform, Inverse fourier transform)들이 활용되는대 수업시간에서는 수식으로 어렵게 접하여 어렵게만 느껴졌는대 간단하게 코딩 한 줄로 변화할 수 있다고 하니 다음에 관련된 데이터를 분석할 기회가 있다면 적극적으로 사용해 볼 것 같다. 또 이미지 데이터에서도 일반화 성능을 높이기 위해 흔히 사용되는 데이터 증대 방법이 소리 데이터에서는 어떻게 적용될 수 있는지도 여러가지(노이즈 추가, 좌우이동, 빠르기 조정 등) 소개해주었다. WaveNet도 다시 한번 복습하여 들을 수 있어서 유용한 세미나였다.
시계열 데이터 종류 중 음향 데이터는 푸리에 변환을 통해 주파수 대역으로 전처리 후 분석을 실시하게되는데, 이는 주파수 공간에서의 분석이 추후 결과 해석에도 용이하고, 무엇보다 음성 데이터 자체를 표현하는 가장 큰 요소가 '주기(주파수)'라는 강한 가정에 깔려있다. 이렇게 푸리에 변환을 통한 전처리 (e.g MFCC)된 주파수 영역 데이터를 Off-the-shelf 딥러닝 모델(e.g VGGNet, ResNet,...)로 2-step으로 학습하는 방법은, 바닥부터 딥러닝 모델을 학습시키지 않아도 되어 모델 개발을 빠르게 프로토타이핑 해야될 때, 혹은 주파수 대역의 해석이 중요할 때 사용해볼 법하다. 이와 같은 2-step 방법론 이외에도 2016년 WaveNet을 시발점으로 최근에는 딥러닝 모델이 원시 음성 데이터를 End-to-End로 학습하는 방법론으로 성능을 극대화 시키려는 방법론들이 등장하고 있다. 이러한 End-to-End 딥러닝 모델은 성능 향상을 보여줄 뿐만 아니라, Generative Model의 특징을 잘 이용하여 음성 데이터 생성에도 사용하는 등 많은 응용분야에 대한 가능성을 보여준다. 즉, 양질의 데이터가 충분할 경우 딥러닝 모델이 경험 기반의 feature-engineering 보다 좋은 선택이 될 수 있다는 점을 상기할 수 있다. 끝으로, 최근 나오는 GNN 분야 논문에서는 모델에 대한 수학적 논의를 할 때 spectral analysis를 추가적으로 해주고 있는 추세여서 신호 처리에 대해 보고 있던 차, 본 발표가 바로 음성 데이터 딥러닝 모델로 들어가지 않고 기존 방법론(e.g MFCC)등을 짚고 넘어가 더욱 흥미롭게 들을 수 있는 시간이었다. 양질의 자료를 준비해준 기원이에게 감사하다는 말을 전하며, 후속 연구 계속 잘 되었음 하는 바램이다.
오늘 세미나는 소리데이터 분석을 주제로 진행되었다. 소리데이터 분석과 소리 데이터의 정의가 무엇인지, 소리데이터의 특징은 어떤 방식으로 디지털화 되는지, 또 어떤 원리로 소리데이터가 학습 되는지에 대해 순차적으로 설명해주셔서 소리데이터 분석에 대해 쉽게 이해하고, 이에 관심을 가지게 된 유익한 시간이었다.
먼저 소리데이터 분석의 예시로 사람의 음성을 인지하는 음성인식, 특정소리를 입력해 레이블을 예측하는 오디오 분류, 음성을 입력하면 자동으로 텍스트를 출력하는 오디오 캡셔닝이 있다고 말씀해주셨는데, 이는 소리데이터 분석을 좀 더 친근한 주제로 받아드릴 수 있게 도와주었다. 내가 영어회화를 공부하는 어플에서도 내가 얼마나 정확하게 영어를 발음하는지 인식하는 소리데이터 분석이 사용 되고 있는데, 이를 비롯해 내가 이용하고 있는 다양한 소리데이터 분석이 적용된 서비스들을 떠올려 볼 수 있었다. 소리데이터 분석 분야가 발전하고 더 많은 분야에 접목되면 사람들의 삶의 많은 부분에서 편리성을 높여줄 수 있을 것 같다는 생각이 새삼 들었고, 세미나 내용에 더 흥미를 가지고 듣게 되었다.
아날로그 소리를 디지털로 변환시키는 샘플링 레이트 방법론으로 Spectrum, Mel Spectrogram, MFCC를 소개해주셨다. 푸리에 변환을 적용하여 음향 신호를 주파수, 진폭으로 분석하여 보여주는 것이 Spectrum, Spectrum에 시간 정보를 반영하기 위해 시간을 엄청 짧은 단위로 나눠 단위마다 스펙트럼 분석을 하고 인간의 청각 영역을 반영한 mel scale을 적용한 것이 Mel Spectogram, 멜 스펙트럼에 특정 악기, 가수의 음색 차이를 만드는 배움 구조를 유추할 수 있도록 도와주는 캡스트럴 분석을 더한 것이 MFCC였다. 어떤 목적을 위해 소리데이터를 분석하는지에 따라 특징을 추출하는 방법론을 잘 선택하는 것이 중요하겠다는 생각이 들었다.
이렇게 추출되는 소리데이터는 단 3초 길이의 파일에서도 83173길이의 array값이 생성될 정도로 데이터 양이 어마어마해 머신러닝 모델에 적용하기 위해서는 주로 기술 통계량을 사용해 왔다고 한다. 하지만 최근에는 소리의 특징을 이미지로 인식해 추출값을 그대로 사용하는데 무리가 없어졌다는 말씀을 덧붙여 주셨는데, 소리의 특징을 이미지로 인식한다는 발상이 새롭고 흥미로웠다.
마지막으로 추출한 소리의 특징이 Wavenet모델에서 어떻게 학습되는지를 보여주셨다. Wavenet 모델은 시간순서를 고려하면서 Receptive field는 넓히기 위해 dilation기법을 적용한 dilated causal convolutions를 사용해 이전 데이터들을 바탕으로 t시점의 음성을 결정하는 모델링을 보여주고 있었다. 이때, 조건을 추가해주면 화자 고유의 음성을 생성해내거나 특정 텍스트에 맞는 음성을 생성해내는 것을 볼 수 있었는데 너무 자연스럽게 음성을 생성해내 놀랐다.
DMAQ연구실에서 처음 들은 세미나이다 보니 더 의미있게 다가왔다. 앞으로 어떤 연구를 하고, 어떤 프로젝트에 참여하게 될지 아직 구체적으로 정해진 것은 없지만 기회가 된다면 소리데이터를 분석하는 프로젝트에도 참여해 보고 싶다는 생각을 하게 되었다. 뿐만 아니라 다양한 아이디어와 방법론을 접하고 생각의 폭을 넓힐 수 있는 기회가 된것 같아 기쁘고 다음 세미나가 매우 기대된다. 유익한 세미나를 준비해주셔서 감사드린다는 말을 전하고 싶다.
이미지, 텍스트 데이터 등과 같이 우리가 눈으로 볼 수 있는 데이터와는 다르게 소리 데이터는 눈에 보이지 않는 무형의 데이터이기 때문에 컴퓨터에서 사용할 수 있는 데이터로 변형시키는 작업이 필요하다. 아날로그 신호인 소리를 디지털로 변환하기 위해서는 샘플링 레이트 과정이 필요하며 샘플링 레이트의 크기에 따라 소리 데이터의 용량과 음질이 달라지기 때문에 적절한 샘플링 레이트를 사용해야 할 것 같다. 소리 데이터의 특징을 추출하는 방법으로 Spectrum, Mel Spectrogram, MFCC 등이 있고 이러한 방법론들은 Python에서 제공하는 모듈을 통해 쉽게 구현할 수 있다. 소리 데이터 증강 기법은 Adding noise, Shifting, Stretching 등이 있는데 데이터에 따라 각 기법을 적절하게 사용하여 데이터의 특색이 사라지지 않게 하는 것이 중요한 것 같다. wavenet은 Text-to-Speech를 수행하는 딥러닝 모델로, 기존 방식보다 자연스러운 음성을 생성하며 조건부 모델링을 통한 특징적인 음성 생성 등의 특성을 가지고 있다. wavenet의 특성 중 Dilated Causal Convolutions 연산은 적은 층의 레이어로 넓은 수용 범위를 유지하여 모델의 효율성을 높일 수 있다. 이번 세미나는 다양한 분야에서 활용되고 있는 소리 데이터 분석에 대해 접할 수 있는 좋은 기회였다. 직접 녹음한 파일을 예시로 설명하여 이해에 많은 도움이 되었고 wavenet에 대한 구체적인 내용은 오늘 배운 내용을 기반으로 기존의 세미나를 통해 더 자세하게 살펴보아도 좋을 것 같다.
이번 세미나의 주제는 소리데이터의 분석이었다. 주로 이미지,텍스트 데이터가 활용된 사례에 대해서만 주로 생각해 보게 되는것 같았는데 우리가 귀로 들은 데이터인 소리를 활용하는 방법에 대해서 생각해 볼수 있는 시간이 되었다. 우리가 인지하는 음파(아날로그 신호)를 컴퓨터가 인식할수 있는 숫자(디지털 신호)로 변환시키는 Sampling rate과정이 필요하다. Sampling rate하는 과정에서 다양한 주파수 성분의 합으로 이루어진 소리의 특징 추출 방법론인 Spectrum / Mel Spectrogram / MFCC 의 3가지 기법에 대해서 이해할 수 있었다. 다양한 추출 방법론을 이해하기 위해서는 Fast Fourier transform / Log / Inverse Fourier transform 과 같이 수식적인 내용 또한 이해하는 것이 도움이 되기에 위 세미나에서는 설명되지 않았지만 기존의 진행되었던 세미나에서의 내용과 더불어 학습해본다면 도움이 될것으로 생각되었다. 또한, 소리데이터에서 활용되는 데이터 증강 기법인 Adding noise / Shifting / Stretching 에 대해서 적합한 사례를 통해서 이해할 수 있었다. 이러한 데이터 증강기법을 활용하는데 있어서는 본연의 데이터가 가진 자신의 특색이 사라지지 않게 하며 데이터에 변화를 주어야 함을 알게 되었다. DMQA연구실에서 진행되는 세미나에 참여하게 되며 기존에 다뤄보지 못했던 연구분야까지 생각해 볼수 있는 좋은 기회가 되는 것 같다. 처음으로 참여하게 된 세미나에서 유익한 내용을 준비해주셔서 감사하다는 말을 전하고 싶다.
이번 세미나는 소리 데이터 분석 전반에 대하여 진행되었다. 소리 데이터는 이미지 데이터나 텍스트 데이터와 달리 눈에 보이지 않기 때문에, 아날로그 신호로 되어있는 소리를 디지털로 변환시키는 sampling rate 과정이 필요하다. 소리의 높낮이 정보에서 더 나아가 다양한 소리 정보를 feature로 사용하기 위하 특징 추출 기법으로는 Spectrum, Mel Spectrogram, MFCC가 있다. 추가로 다양한 특징 추출 방법론을 쉽게 사용할 수 있는 python 모듈을 소개해 주셨다. 딥러닝 모델에는 추출된 특징의 고유값을 사용하거나 히트맵 시각화 자체를 이미지로 저장하여 사용하기도 한다. 소리 데이터에서 추출한 특징을 이미지로 변환하여 사용한다는 점은 매우 인상적이었다. 소리 Data Augmentation에는 adding noise, shifting, stretching이 있는데 고유의 특성을 해치지 않도록 사용에 주의해야한다. 소리 데이터를 위한 딥러닝 모델인 Wavenet은 조건부 모델링을 통해 매우 자연스러운 특징적인 음색을 생성할 수 있다. 따라서 다른 모델보다 Text-to-Speech(TTS)를 잘 수행한다. Wavenet의 또다른 특징은 Dilated Causal Convolutions을 한다는 점이다. 이전에는 데이터라고 하면 텍스트 데이터나 이미지 데이터를 주로 떠올렸는데, 세미나를 통해 전보다 넓은 시야를 갖을 수 있게 되었다. 본 세미나와 관련된 주제로 자세한 내용을 다룬 이전 세미나를 참고하면 더욱 세부적인 내용까지 접할 수 있을 것 같다. 유익한 세미나를 진행해 주셔서 감사하다는 말을 전하고 싶다.
이번 세미나의 주제는 소리 데이터 분석으로 진행되었다. 소리는 인간의 5대 감각 중 청각을 담당하는 기술로 시각 다음으로 높은 접근성을 통해 많은 관심을 받고 있다. 소리는 인간이 듣고 분류하여 생각 또는 표현을 할 때 활용이 되듯 소리 데이터 분석에서는 음성 인식, 오디오 분류, 오디오 캡셔닝 등의 분야로 나뉘어 다양하게 발전하고 적용되어 상용화가 되고 있다. 상용화의 예시로 다양한 AI 스피커가 출시되고 있으며, 최근 방송에서도 소리 데이터를 분석하여 AI 가수를 방송하는 등 다양한 곳에서 기술이 우리의 삶에 점점 가까워지는 것을 알 수 있다.
소리 데이터 분석은 다른 데이터 분석과 마찬가지로 실험이 진행될 수 있지만, 데이터가 조금은 특이하다. 아날로그 소리(세기, 높낮이 음색)를 수집하여 디지털화하는 Sampling Rate 과정을 거쳐야 한다. 이후 얻어진 데이터를 활용하여 소리의 시간과 주파수로 얻어진 데이터를 활용하여 Data Augmentation(Adding noise, Shifting, Stretching 등)을 거쳐 Feature Extraction을 진행하게 된다. 소리의 Feature Extraction은 Spectrum, Mel Spectrogram, MFCC 등의 기법을 활용할 수 있는데, librosa 패키지를 활용하면 더욱더 수월하게 진행 할 수 있을 것으로 기대된다. 이렇게 전처리가 된 데이터를 활용하여 모델을 구현하고 적용하게 된다. 이 중 TTS(Text-to-Speech) 분야를 위한 Model 중 기존의 부자연스러움이라는 문제를 많이 개선한 WaveNet(DeepMind, 2016)을 통해 양질의 음성을 생성 할 수 있다.
무형의 데이터인 소리가 컴퓨터에 어떻게 입력이 되고 컴퓨터가 어떻게 추출하고 이를 학습하기 위한 모델은 무엇이 있는지 할 수 있는 시간이었다. 기존에 익숙하지 않은 데이터의 종류이지만 다른 데이터를 다루는 것과 상당히 큰 상관관계가 있다는 것을 다시 한번 느낄 수 있었다. 더 나아가 소리 데이터 분석은 무궁무진한 연구가 가능한 분야라는 생각이 들었으며, eXplainable AI를 적용한다면 재밌는 연구가 될 것이라는 생각하게 되었다.
좋은 내용으로 발표해주신 정기원 연구원님께 감사하다는 말을 전하고 싶다.
"헤이구글" 같이 살면서 자주 사용하던 기능임에도, 그것을 어떤 식으로 분류해서 사용하고, 또 기기가 목소리를 내게 되는지 그 과정에 대해 고민해본적이 없는데, 이번 세미나를 통해 소리데이터의 분석에 대한 전반적인 설명과 함께 개념 중점적으로 잘 설명해주셔서 감사하게 들었다.
복잡한 소리데이터를 Sampling Rate 과정을 통해 가공할 수 있는 숫자 Data로 확보하고, 이를 너무 무겁지 않게 사용하기 위해 수행하는 다양한 추출 방법론에 대해서 배웠다. 특히 그 중에서 1차로 추출한 소리데이터의 HeatMap 자체의 이미지를 가지고 추가로 CNN모델을 통해 변환해서 사용하는 점이 재미있었는데, 다른 분야에서도 이런식으로 Data 그래프 자체를 모수로 활용해서 사용하면 여러가지 다른 답안을 찾아낼 수 있지 않을까 하는 생각이 들었다.
이후 분석되는 데이터를 가지고 오디오를 생성해주는 Wavenet에 대해 배웠는데, 모델링이나 변환에 대한 수학적인 부분은 별도로 학습이 필요한게 많다는 생각이 들었으나... 어쨌거나 막대한 정보를 제대로 된 기준을 가지고 분석할 수만 있다면 좋은 결과를 낸다는걸 느꼈다.
특히 Wavenet으로 나온 결과에서 실제 사람이 말하는 것처럼 여러가지 음색마다 특징적인 부분이 살아있는 것이 굉장히 흥미로웠다.
첫 세미나인만큼 느껴지는게 많았고, 앞으로는 좀더 깊이있는 이해를 하기위해서 여러모로 공부가 먼저라는 생각이 든다.
오늘 세미나는 ‘Introduction to Analysis for Sound Data’라는 주제로 기원이가 진행하였다. 음성데이터를 활용한 연구는 대표적으로 (1)음성 인식, (2)오디오 분류, 그리고 (3)오디오 캡셔닝이 있으며 이에 대한 응용 연구들 또한 활발하게 수행되고 있다. 금일 세미나는 음성 데이터가 가진 특징과 이에 대한 대표적인 feature engineering기법에서부터 특징들을 적절하게 학습시키기 위해 제안된 모델을 다루는 시간을 가졌다.
음성 데이터를 살펴보면 여느 센서 데이터와 마찬가지로 시간의 흐름에 따라 따라 일련의 숫자로 표기가 되어있다. 이는 일차적으로 균등히 sampling을 한 값이며, sampling rate에 따라 데이터의 변수 개수가 정의된다. 더 나아가 음성 데이터를 시간영역과 주파수 영역으로 분리하여 특징을 정의할 수 있으며 이러한 feature engineering 기법으로는 spectrum, spectrogram, scalogram, MFCC등이 있다. Spectrum은 음성을 주파수영역과 이에 대한 진폭을 표현하여 주파수별 진폭의 크기를 표기할 수 있다. Mel spectrogram은 spectrum에서 나아가 시간정보까지 고려한다는 점에서 차이가 있으며, filter의 크기에 따라 추출 정보 크기에 차이가 생긴다. 마지막으로 MFCC는 Mel spectrum에서 켑스트럴 분석을 통해 추출된 값으로 주파수 정보의 상관관계가 높은 문제를 해소한다는 점에서 차이가 있다. 다음으로 음성데이터의 증강기법에 대해서도 살펴보았다. 음성데이터의 증강기법은 순차와 주변과의 관계가 중요하다는 점에서 다른 데이터와 차별되며 이를 고려한 증강을 필요로 한다. 가장 간단히는 소음을 더하는 방법이 있으며, 이외에는 배속에 차이를 주는 방식 등이 있다.
마지막으로 음성 데이터에 적합한 딥러닝 구조로 알려진 Wavenet에 대해서 살펴보았다. Wavenet은 parameter의 증가 없이 receptive field를 키울 수 있도록 설계된 dilated convolution filter를 사용한다. 또한, 시간 순서를 고려하기 위해 기준 시점 이후의 시간 정보를 마스킹할 수 있는 causal convolution연산을 사용한다. 최종적으로 dilated causal convolution을 활용함으로써 적은 parameter개수로, 시간의 순서를 고려하여 넓은 receptive filed를 고려할 수 있게 된다. 더불어 wavenet에서는 원하는 조건 정보를 확률 모델링에 활용함으로써 생성할 수 있다.
금일 세미나를 통해 전반적인 음성데이터의 형태에서부터 대표적인 알고리즘과 성능에 대해 살펴볼 수 있는 시간이었다. 텍스트, 이미지 데이터 대비 음성데이터에 대해서는 다룰 기회가 많이 없었는데 데이터 자체가 지닌 특징이 매우 흥미로운 점이 많다고 생각했다.
이번 세미나는 소리 데이터 분석에 대한 소개를 주제로 진행되었다. 소리 데이터에 대해 접해볼 기회가 별로 없었는데, 이번 세미나에서 기초부터 주요 모델까지 소개해주어서 관심있게 들을 수 있었다. 소리 데이터는 아날로그 형태의 음파로, 컴퓨터에 이를 인식시키기 위해서는 디지털로 숫자화 시키게 된다. 또한 소리 데이터를 분석하기 위해 Feature를 추출하게 되는데, 이 때 다양한 추출 방법론이 존재하고 그 중 가장 기본적인 방법론인 Spectrum, Mel Spectrogram, MFCC 방법론이 소개되었다. 소리 데이터를 시간 영역뿐만 아니라 주파수 영역으로도 분석할 수 있다는 것을 알 수 있었고, 추출된 결과가 히트맵 형태로 나오게 되면 이를 CNN 모델로도 분석할 수 있다는 것을 알 수 있었다. 소리 데이터의 Augmentation 방법으로는 Noise 추가, Shifting, Stretching 등의 방법이 소개되었는데, 적절한 사례를 들어줘서 재미있게 이해할 수 있었다. 소리 데이터를 위한 딥러닝 모델인 Wavenet은 텍스트를 음성으로 변환하는 Text-to-Speech 모델이다. Wavenet의 특징을 간략하게 소개해주었는데, Wavenet은 음성 파형 학습을 위한 새로운 구조로 30개의 Residual block을 쌓은 형태의 구조를 제시하였으며, 적은 수의 레이어로 Receptive field를 넓힐 수 있는 Dilated causal convolution을 사용했다는 특징이 있다. 소리 데이터의 Classification을 위해서는 Feature 추출시 Mel spectrum이나 MFCC를 사용하고, CNN 모델로는 ResNet 모델이 권장된다고 하니 혹시 나중에 소리 데이터를 분석하게 되면 꼭 참고를 해야겠다. 소리 데이터 분석에 대해 적절한 사례와 함께 쉽게 설명을 해줘서 처음 접하는 내용임에도 흥미롭게 들을 수 있었던 것 같다. 준비해준 정기원 연구원에게 감사하다는 말을 전한다.
금일 세미나는 소리 데이터 분석을 주제로 기원이 형이 진행해주었다. 이미지와 영상, 텍스트 관련 딥러닝 세미나는 자주 접해왔으나, 소리 전용 딥러닝 세미나는 금일 처음 접하였고 신선했다. 첫번째로 소리를 데이터화하는 과정에서 이용되는 여러 기법들을 이해할 수 있었다. Sampling rate와 스펙트럼, 멜스펙트럼, MFCC을 소개해주었고, 각 방법별로 어떤 특징을 가지고 있는지를 알려주었다. 소리 데이터를 feature화 시키는 데 유용한 파이썬 패키지도 소개해주어 유용하였다. 두번째는 소리 관련 데이터 증강 기법을 소개해주었다. 시간별, 주파수별 민감한 정보들을 보유하고 있는 소리 데이터는 기존 증강 기법과는 다른 방식으로 증강시킬 수 있으며, 이에 대한 방법론을 소개해주었다. 각 방법에 따라 실제 데이터가 어떻게 증강되었는지 샘플 데이터를 만들어 소개해주었고, 친절하였다. 세번째는 소리 전용 딥러닝 생성 모델 Wavenet을 소개해주었다. Wavenet 모델 고유의 feature 추출 방법(Dilated+casual convolution)을 소개해주었고, 전체적인 개요를 설명해주었다. 기존 통계 기반 방법론보다 훨씬 자연스러운 소리를 생성해주었고, 조건부 확률 개념을 통해 다양한 음색 정보를 가진 소리를 생성할 수 있는 모델이였다. 친절한 세미나 자료와 설명이 멋진 세미나였다!
연구실에 들어온지 근 1년 동안 다양한 분야의 연구 세미나를 청취하였다. 강화학습, 자가지도학습, 자연어처리, 컴퓨터 비전, 메타 러닝, Open Set Recognition, 준지도학습 등을 들어보았는데, 음성 데이터 처리에 대한 세미나는 처음 들어보았다.
처음 듣는 도메인이라, 데이터 전처리 방식이나 모델링이 많이 와닿지 않을까 걱정했었는데, 음성 데이터 처리에 익숙하지 않는 사람이 많음을 고려해 Spectrum, Mel Spectrogram, MFCC 등의 기초적인 음성 데이터 처리를 자세히 설명해주었다. 또한 대표적인 모델인 WaveNet과 다양한 음성 데이터를 무료로 활용하고 연습해볼 수 있는 챌린지 사이트 추천, 그리고 관련 분야 베이스 라인 모델을 만들 때 필요한 조언까지 모든 것이 담긴 세미나였다. 최근 들은 세미나 중, 가장 관련 지식 없이 듣고도 쉽게 이해할 수 있었던 것 같다.
음성 데이터는 당연히 시계열 데이터라 RNN 계열이나 Transformer 계열로 처리할 것이라는 편견이 있었다. RNN 계열이 연산 시간이 오래 걸리는 단점을 어떻게 극복할까라는 궁금증이 있었는데, RNN을 고집하기보다는 CNN에 효율적으로 시계열적인 특성을 반영할 수 있도록 Dilated Causal Convolution을 쓴다는 것이 인상 깊었다.
세미나를 준비하느라 고생하신 기원이형에게 감사의 말씀을 전하고 싶다.
금일 세미나는 기원이가 ‘Introduction to Analysis for Sound data’라는 주제로 진행하였다. 평소에 센서데이터나 이미지, 텍스트와 관련된 세미나는 많이 접해왔지만 이번 주제는 소리에 관한 세미나여서 흥미롭게 들을 수 있었다. 먼저 소리데이터 분석에 있어서 음성 인식, 오디오 분류, 오디오 캡셔닝으로 크게 3개의 분야가 존재한다. 해당 세미나에서는 이러한 분야에 적용되기 위해 오디오 데이터를 어떻게 사용하는지 잘 설명해 주었다. 소리도 이미지와 마찬가지로 컴퓨터에 입력하기 위해서는 숫자로 표현을 해야하며 이를 샘플링 레이트 과정이라고 한다. 이러한 과정을 거쳐 특징을 추출하게 되는데 특징추출에는 다양한 방법론이 존재한다. 그 중에서 MFCC라는 추출 방법론은 주파수 정보의 상관 관계가 높은 문제를 해소 하였으며 가장 최신에 나온 모델이다. 이렇게 특징을 추출한 후 기술통계량이나 이렇게 구해진 값들을 이미지로 변환해서 많이 사용한다. 이후 소리 데이터를 딥러닝에 적용한 모델로는 wavenet이 존재하는데 wavenet은 오디오의 파형을 직접 사용해서 새로운 파형을 생성하는 확률론적인 모델이라고 할 수 있다. 이번 세미나를 들으면서 소리에 관한 연구들도 활발히 진행되고 있다는 것을 느꼈고 처음 접하는 분야에 대해 자세하게 세미나를 준비해준 기원이에게 감사하다는 말을 전하고 싶다.
금일은 기원이가 "Introduction to Analysis for Sound data"라는 주제로 발표를 해주었다. 소리 데이터에 대해서 representation이 MFCC, (Mel) Spectrum같은게 있다고는 알고 있었지만, 이번 기회에 대해서 자세히 알수 있었다. khz가 1초당 샘플 개수라는 얻고 그게 주파수의 높이라는걸 부끄럽지만 처음 아랐다. 파동은 시간 영역과 주파수 영역이 있다고 하며 시간의 정보가 없는건 Spectrum 이며, 시간 개념이 없어 진폭으로 분석하여 Histogrma같은 각 주파수별의 크기(진폭)만을 알 수 있따고 한다. Mel Spectrogram은 시간의 정보가 반영까지 된 주파수 영역의 특성 변화를 포착한다고 한다. 청각 영역을 범위만으로 고주파로 갈수록 사람이 수용을 못하기 때문에 그부분을 normalize해주는게 Mel이 붙어서 스케일링 처리 되었다고 볼 수 있다. 그리고 각 시간별로 스냅샷을 찍어 하나의 2D영역에 파동의 모습을 찍어서 스펙트럼으로 나타낸 모습의 데이터이며 히트맵 3차원데이터라고 볼 수 있따. MFCC은 캡스터럴 분석을 통해 추출된 값인데 Mel Spectrogram의 변환처리된 값이라고 이해를 하였다. librora라는 패키지를 통해서 데이터를 많이 다룬다고 하며, 이 음성 데이터는 엄청난 고차원 데이터라고 한다. 요즘 이미지 데이터에 특히 augmentation이 많이 일어나고 있는데 동일하게 노이즈를 넣거나 shifting, Stretching 기법을 통해서 데이터를 늘린다고 한다. 마지막으로 Google DeepMind에서 2016년 TTS 목적으로 꺼내놓은 모델에 대한 언급이었다. 모델 구조가 새로운 파형을 생성하는 확률 모델이라고 했는데, 30 층이나 되는 CNN ResNet가 다른 residual block을 쌓았고 조건부 모델링, 파형에 적합한 모델이라는데 논문을 좀 더 들여보면서 컨트리뷰션의 의의를 고찰해봐야겠다는 생각이 들었다. 그리고 Dilated Casual Convolutions의 경우는 경제나 주식쪽의 시계열 데이터를 사용할때도 노이즈 제거 및 차원 축소용의 장점을 살려서 receptive field의증가를 가져오면서 아주 적합해보이는 필터같아 더 알아보고 싶은 동기부여가 생겼고 Diated Casual Convolutions는 2차원에서도 적용이 가능한지 궁금했다. 지금 음성 데이터도 2차원을 가정하고 하는건데 매칭이 좀 안되는데 기원이에게 직접 물어봐야겠다. Conditional wavent 확률 모델에 조건 정보를 추가해서 특정한 성질을 가진 오디오 생성이라 음색(전역)이나 특정 단어(지역)에 대해서 다른 조건부확률을 주면서 다른 음색이나 다른 단어 강조를 하는 TTS를 만들수 있다는 것 또한 첫 TTS 논문이면서 이런 가능성을 언급했다는것도 참 대단하다 싶었다. DeepMind의 wavenet으로 기존 TTS에서 부자연스러움이 많이 탈피되었다고하는데 다른 state of art논문은 어느 수준일지 또한 궁금증을 생기게 해준 좋은 세미나였다. 참 재미난 게 많이 일어나는 세상임에 살고 있는 건 분명한듯 하다
금일은 Introduction to Analysis for Sound data를 주제로 세미나가 진행되었다. 이번 세미나에서는 소리 데이터에 대한 설명으로 시작되어 특징을 추출하고 분석하는 방법까지 전반적인 flow에 대한 소개를 들을 수 있었다. 특징 추출 방식으로는 파동의 시간 영역을 주파수 영역으로 변환할 수 있는 스펙트럼, 주파수 특성이 시간에 따라 달라지는 오디오를 분석하기 위한 멜 스펙트로그램, 멜 스펙트럼에서 켑스트럴 분석을 통해 추출하는 방식인 MFCC 방식이 있다. 위와 같은 방식을 통해 소리 데이터에서 특징을 추출한 뒤, 통계 값을 계산하거나 추출한 데이터의 고유값 또는 히트맵으로 변환된 이미지 등을 입력 데이터로 활용하여 예측 모델을 구축할 수 있다. 소리 데이터에 대한 특징 추출 방식에 대한 설명을 들은 이후, 대표적 오디오 생성 모델인 Wavenet에 대한 설명을 들을 수 있었다. Wavenet에서는 u-law companding 변환을 통해 65536개 확률 값을 256개 확률 값으로 바꾸어 확률론적 모델링이 조금 더 쉽게 했다. 또한 Dilated convolutions과 Causal convolutions 방법을 사용했다는 특징이 있다. 필터에 Dilated convolutions은 zero padding을 추가해 모델의 receptive filed를 늘려 입력 데이터의 특징을 더 잘 요약할 수 있는 방법이고 Causal convolutions는 시간 순서를 고려한 Convolution 연산으로 적은 층의 레이어로 receptive filed를 효과적으로 넓힐 수 있는 방법이다. 이후 실제 적용 사례 및 AI를 통한 오디오 분석 경진대회 (DCASE Challenge)에 대한 소개로 세미나는 끝마쳤다. 아직 실제로 소리 데이터 분석을 해보지 못한 입장에서 소리 데이터 분석에 대한 전체적은 Process가 궁금했는데 이번 세미나가 이런 기초적인 궁금증을 해결해 준 것 같다. 또한 Wavenet에서 특징 중 하나인 Dilated causal convolutions 개념을 공부하면서 데이터가 지니는 특성에 따라 Convolution 연산을 다르게 할 수 있음을 다시 한번 생각하게 되었다. 이는 습관처럼 해온 일에 대해서 당연하다고 생각했던 나의 고정관념을 변화시키는데 도움이 되었다. 소리 데이터 분석의 기본적인 흐름을 잘 설명해 준 기원이에게 감사함을 표한다.
이번 세미나는 “Introduction to Analysis for Sound data”를 주제로 진행되었다. 소리 데이터는 우선 우리가 듣는 아날로그 신호에서 파동의 높이값을 저장하여 숫자화시키는 샘플링 레이트 과정으로 데이터화한다. 그 후에는 소리 특성 정보를 추출하기 위하여 스펙트럼, 시간의 변환을 추가한 멜 스펙트로그램, 그리고 MFCC등의 방법론들이 활용된다. 특히, MFCC같은 경우에는 멜 스펙트럼 기법에 켑스트럴 분석을 추가적으로 진행하여 음색의 차이도 유추할 수 있도록 도와준다는 점이 흥미로웠다. 이렇게 추출된 특징들은 주로 고차원에 해당하기 때문에 기술통계량 또는 특징들의 고유값을 요약하여 실제 분석에서 활용하게 되며, 이 외에도 백색소음의 추가나 Shifting, Stretching 등의 다양한 데이터 증강기법을 활용하여 분석할 음성 데이터를 구축하게 된다.
소리 데이터를 활용한 딥러닝 모델로는 Wavenet을 알아볼 수 있었다. 이는 Text-to-Speech를 잘 수행하는 것으로 알려진 딥러닝 모델로, 필터에 zero padding을 추가하여 데이터 탐색 영역을 확장시켜주는 dilated convolution과 시간의 순서를 고려한 필터를 적용하는 causal convolution을 활용한다는 점이 가장 인상깊었다.
인공지능 기술이 우리 삶 속에서 더욱 활발하게 활용되기 위해서는 음성 데이터 분석 기술이 중요하다고 생각된다. 이전에 음성 데이터를 분석하는 여러 연구들을 보면서 음성 데이터의 분석 방법들에 대한 궁금증이 있었는데, 이번 세미나를 계기로 이에 대하여 알아볼 수 있어 의미있는 시간이었다.
오늘 기원이가 sound data 분석에 관한 연구를 소개해주었다. 딥러닝을 기반으로 음성인식, 오디오 분류, 오디오 캡셔닝 등 다양한 분야에서 소리(sound) 데이터 분석이 많이 이루어지고 있다. 소리는 높을 수록 음이 높은 주파수(hz)단위로 표현되며 진폭(amplitude), 파장의길이(wavelength), 주기(cycle) 단위로 이루어진다. 소리데이터를 수집한 이후에 모델에 적용시키기 위해선 몇가지 처리가 요구되는데 시간영역/주파수 영역에 대해 특징을 추출하는 spectrum, mel spectrogram, MFCC가 대표적이다. spectrum은 주파수와 진폭차원으로 나타낸는데 시간의 정보를 반영하지 않고, mel spectrogram은 시간의 정보 고려함과 동시에 프레임 길이와 슬라이딩 범위를 설정하여 mel scale을 적용하는 게 특징이다. MFCC(Mel-frequency cepstral coefficient)은 mel spectrogram 에서 켑스트럴(cepstral) 분석을 통해 추출된 값을 사용하고, cepstral 분석을 통해 배음구조를 유추할 수 있도록 하는 게 특징이다. wavenet 과 같은 딥러닝 계열의 오디오 생성모델의 성능이 매우 자연스러운 게 인상깊었다. 얼마 전 한 방송에서 AI기반 음성복원과 얼굴편집기술로 거북이 터틀맨 공연을 진행했을 때에도 꽤 높은 자연스러움에 놀랐던 기억이 있다. 뜬금없지만, 우리연구실에서 연구하는 결과물도 독자와 대중들에게 널리 이용될만큼 피부고 와닿는 성과를 내고 싶다는 생각을 했다. 데이터 설명을 위한 영상자료와 실제 소리를 예를 들어 설명해준 게 좋았던 것 같다. 특히 소리데이터는 일반적으로 multivariate time series 데이터로 생각하며 원본데이터에 딥러닝기반 특징추출을 어떻게 잘 하는지에 대한 연구가 주를 이룰 것 같았는데 데이터 수집 이후 주파수 영역에서 한 단계 feature를 정의하는 단계가 선행되어야 한다는 점이 "sound data" 분석을 위해 유념해야할 점으로 보였다. 기원이가 줄곧 소리데이터를 중점적으로 연구해오고 있는 것 같은데 한번 큰 파장(wave)을 일으키기 바라는 마음이다. 즐겁고 편히 들을 수 있던 세미나였다.
이번 세미나는 'Introduction to Analysis for Sound data'라는 주제로 정기원 선배님이 발표해 주셨습니다. 소리는 인간이 정보를 얻는 시각 다음가는 방법이며 다양한 활용 가능성이 있는 분야입니다. 그렇기에 음성을 활용한 인공지능은 이미 자주 접할 수 있는 기능이지만 그 원리에 대해 알아보는 것은 처음이었습니다.
발표는 크게 음성 데이터의 정의, 음성 데이터의 특징 추출 방법론, 음성 데이터 딥러닝 모델 순으로 진행되었습니다.
우선 음성 데이터란 샘플링 레이트를 과정을 통해서 아날로그 음성 신호를 디지털 신호로 변화하여 얻은 데이터이며 소리의 높낮이 정보, 시간정보 등 여러 특징들을 추출하기 위한 대표적 기법으로 스펙트럼, 스펙트로그램, 스칼로그램, MFCC를 소개했습니다.
시각 데이터에서는 CNN을 활용해 각 레이어의 특징맵을 통해서 특징을 추출하지만 음성 데이터에서는 푸리에 변환, mel scale, 역푸리에 변환 등을 통해서 음성데이터의 특징을 추출했습니다. 또, 위 기법들을 통해 추출된 특징을 히트맵으로 만들어 이 히트맵 이미지를 CNN에 적용해 특징을 추출하는 방법도 있습니다.
다음은 음성 데이터의 증강기법에 대해서도 소개를 했는데 노이즈를 추가하는 Adding noise, 데이터를 좌우로 이동하는 Shifting, 음성의 빠르기를 조정하는 Stretching을 직접 들려주어 쉽게 이해할 수 있었습니다.
그리고 구글 딥마인드에서 발표한 오디오 생성 모델인 wavenet을 소개하며 wavenet의 특징과 구조에 대해 알려주었습니다. 최근 GAN을 공부하며 이미지 생성 모델에 대해 공부를 했었는데 이와 비교하며 음성 데이터의 생성 모델에 대한 설명을 들으니 더 흥미로웠습니다. 이번 세미나에서는 wavenet에 대해서 자세히 들어가지는 않았지만 과거 세미나에서 발표된 적이 있기 때문에 참고하면 도움이 많이 될 것 같습니다.
이번 세미나를 들으며 음성 데이터에서도 CNN을 사용한다는 것, 데이터 증강 방법의 원리가 시각 데이터와 비슷하다는 것 등 새로운 정보를 알게 되었고 좋은 발표를 해주신 정기원 선배님에게 감사드립니다.
첫 세미나 아직은 모르는 내용이 많아 전체를 이해하기는 힘들었지만,
개인적인 궁금증에 대해 조금이나마 개념을 잡을 수 있는 유익한 세미나였습니다.
음성인식이나 Audio Captioning처럼 다양하고 복잡한 경우는 아니지만
소리 신호의 Data 처리 및 분석이 어려워 어려움을 겪었던 경험이 떠올라 미리 알았더라면 하는 아쉬움이 많이 남았습니다.
당시에는 소리의 원인이 되는 진동 신호를 활용하여 Noise를 줄이고,
주파수 구간별 대표값(RMS 값 등)으로 간략화 후 분석하는 방법으로 문제를 해결 했었는데,
본 세미나를 통해 알게 된 방법들을 활용한다면, 높은 신뢰성을 분석 결과를 얻을 수 있을 것 같다는 생각이 들었습니다.
또 소리의 신호를 Color map 형태의 이미지로 표현한 후 이를 이미지 분석하는 방법은 저에게는 또 하나의 놀라운 방법이었습니다.
앞으로 기회가 된다면 세부적인 방법론 및 Data 증강 기법에 대해서도 알고 싶은 욕심이 생겼습니다.
향후에 제 수준이 조금 더 업그레이드되었을 때, 다시 한번 듣고 싶은 유익한 세미나였습니다.
금일 세미나는 'Introduction to Analysis for Sound data'를 주제로 소리 데이터 분석의 전체적인 프로세스에 관하여 진행되었다. 딥러닝의 기술이 발전됨에 따라 크게 음성인식, 오디오 분류, 오디오 캡셔닝 등의 연구 분야로 나뉘는 소리 데이터 분석은 최근 들어 딥러닝 적용 사례가 늘어나고 있다. 소리는 당장 눈으로 보이는 이미지, 텍스트 데이터와 다른 고유한 특성을 가지고 있으며 sampling rate를 통해 음파를 숫자로 표현하여 컴퓨터에 데이터를 입력시킨다. 이에 대한 대표적 소리 피쳐 추출기법으로 Spectrum, Mel Spectrogram, MFCC가 있으며 이를 쉽게 생성하고 활용할 수 있는 python 모듈로 librosa 패키지가 존재함을 소개해주었다. 또한 이미지 데이터에 적용되는 기존 데이터 증강기법과는 달리, 소리 데이터를 위한 증강기법으로는 Adding noise, Shifting, Stretching이 있음을 소개해주었다. 마지막으로 소리 데이터의 대표적 딥러닝 모델인 구글 딥마인드 Wavenet의 주요 특징과 Dilated Causal Convolutions 등에 대해 살펴보았다. 화자의 음성 정보를 조건부 정보로 활용하여 다양한 음색의 음성을 자연스럽게 생성하는 Wavenet은 텍스트를 음성으로 변환하는 Text-to-Speech를 수행하기에 적합한 모델로서 이전 Wavenet 세미나를 참고하여 더 깊이 있게 공부해 볼 수 있을 것이다. 이미지와 텍스트는 당장 눈으로 보이는 데이터임에 반해 눈으로 보이지 않는 데이터라는 고유한 특징을 가진 소리 데이터를 어떻게 분석하는지에 대해 세미나 이전에는 생각해보지 못했다. 이번 세미나를 통해 소리 데이터는 어떻게 컴퓨터에 입력되어, 어떻게 특징을 추출하고, 이를 학습시키는 딥러닝 모델에는 어떠한 것이 있는지 찬찬히 살펴볼 수 있어 좋았으며 소리 데이터에 관한 흥미도가 더욱 높아졌다. 향후 소리 데이터 분석과 관련된 연구나 작업을 수행하면서 해당 세미나 내 다양한 정보를 활용하여 모델을 구축하는데 도움이 될 수 있을 것 같다. 이러한 훌륭한 세미나를 준비해주신 정기원 연구원께 감사의 말씀을 전하고 싶다.
이번 세미나는 "Introduction to Analysis for Sound data"라는 주제로 특징추출 기법, 데이터 증강기법, 딥러닝 모델 순으로 세미나가 진행되었다. 딥러닝 모델의 성능이 향상됨에 따라 이미지, 텍스트뿐 아니라 소리 데이터를 분석하는데 애도 딥러닝 모델이 활발하게 연구되고 있다. 소리 데이터를 컴퓨터에 입력시키기 위해서는 아날로그 신호를 디지털 신호로 변환해야 하며 이는 샘플링을 통해 변환할 수 있다. 이때 샘플링되는 데이터의 양이 많기 때문에 일반적으로 소리 데이터는 고차원의 형태를 띠게 된다. 따라서 소리 데이터를 다루기 위해서는 다양한 특징추출 기법들이 적용되어야 한다. 특징추출 기법은 주로 시간 도메인의 데이터를 주파수 혹은 시간-주파수 도메인으로 변환하는 기법을 통해 수행된다. 스펙트럼은 푸리에 변환을 통해 파동을 주파수 영역으로 변환하여 주파별로 진폭을 통해 데이터를 표현하게 된다. 멜 스펙트로그램은 시간-주파수 도메인으로 변환하는 특징추출 기법으로 시간에 따른 주파수와 그때의 진폭을 통해 데이터를 표현한다. 마지막으로 소개된 MFCC는 멜 스펙트로그램에 역 푸리에 변환을 적용하여 주파수의 정보의 상관관계가 높은 문제를 해결하게 된다. 다음은 데이터 증강기법이 소개되었다. 이미지나 텍스트 데이터와 마찬가지로 소리 데이터 에서도 다양한 데이터 증강 기법이 연구되고 있다. 데이터 증강 기법은 노이즈 추가, 데이터 좌우 이동, 빠르기 조절 등 다양한 방법을 통해 원본 데이터의 특성은 같지만 조금씩 다른 다양한 데이터를 생성할 수 있게 된다. 마지막으로 WaveNet이라는 딥러닝 모델이 소개되었다. WaveNet은 텍스트를 음성으로 변환하는 모델로 dilated casual convolution을 활용해 효과적으로 음성을 생성해 내게 된다. Dilated convolution은 기존 convolution과 다르게 receptive field를 늘려준 형태의 convolution이며 casual convolution은 시간 순서를 고려한 convolution 연산이다. 두 convolution을 결합한 dilated casual convolution을 통해 WaveNet은 효과적인 모델을 구축할 수 있게 된다. 이번 세미나를 통해 소리 데이터에 대한 전반적인 이해와 관련된 모델들을 살펴볼 수 있어 의미 있는 세미나였다. 세미나를 위해 수고해준 기원이 형에게 감사의 뜻을 전하며 세미나 후기 마무리하겠습니다.
이번 세미나는 “Introduction to Analysis for Sound data” 주제로 기원이가 발표했다. 최근 딥러닝의 발전으로 소리 데이터를 사용한 연구 (음성 인식, 오디오 분류, 오디오 캡셔닝) 사례가 늘어나고 있다. 세미나에서는 소리 데이터에 초점을 두어 전처리 과정부터 딥러닝 모델의 적용까지 연결하여 설명해주었다. 소리 데이터를 처리하는 과정에는 sampling rate, 스펙트럼, 멜스펙트럼, MFCC 기법의 소개와 특징을 소개해주었다. 또한 소리 데이터에서도 data augmentation (DA) 기법의 적용 방법과 딥러닝 모델의 적용을 소개해주었다. 특히, DA 기법은 기존에 이미지, 텍스트 등에 적용한 사례를 많이 접해보았다. 하지만 소리 데이터의 경우, 기존에 알고 있던 DA 기법이 아닌 다른 방식의 DA 기법 적용을 소개해주었다. 지금까지 연구하면서 소리 데이터를 직접 다루어 본적이 없어 생소했지만 이번 발표를 통해 데이터의 형태에 따라 처리 과정, DA 기법, 모델 적용 방식 등을 새롭게 알아볼 수 있는 시간이었다.