- 2019년 9월 29일 오후 4:13
- 조회수: 11901
REFERENCES
INFORMATION
- 2019년 10월 4일
- 오후 1시 ~
- 고려대학교 신공학관 218호
TOPIC
OVERVIEW
발표자 후기
오늘 Multimodal Deep Learning for Product Design Data라는 주제에 대해 소개했다. Multimodal learning은 변수차원이 각기다른 데이터셋 (modality)가 여럿 모여 동시에 학습하는 방법론을 일컫는다. 오늘은 Deep learning 모델을 기반으로 한 Multimodal learning 기법에 대해 소개했다. Multimodal learning을 잘하기 위해서 데이터 통합을 어떻게 하는지 집중해야하는데 (1) 데이터 차원의 통합, (2) 분류기 차원의 통합, (3) 학습된 표현의 통합으로 구분지을 수 있으며 대표적인 모델 Multimodal RNN, Multimodal CNN 기법에 대해 소개했다. 이후 현재 진행하고 있는 프로젝트 데이터에 적용하였는데 다양한 코멘트를 얻을 수 있었다. 무엇보다 본 연구에 대한 관심과 조언의 질문으로 추후 연구 방향에 대한 방안을 구체적으로 수립할 수 있었다. 또한, 내가 공부한 내용을 연구원들에게 잘 전달되는 자리가 된 것 같아 유익한 시간이었고, 본 세미나로 Multimodal learning에 대한 개념을 익혀 각자 연구분야에 활용할 수 있는 자리가 되었기를 기대한다.
청취자 후기
금일 세미나는 Multimodal Learning for Product Design Data를 주제로 윤상이가 발표했다. Multimodal Learning은 인간의 인지적 학습방법을 모방하여 다양한 형태의 데이터로부터 학습하는 방법이다. 예를 들어 텍스트 데이터와 이미지 데이터를 가지고 서로 다른 형태의 데이터 관계를 학습하여 이미지에 대한 텍스트를 잘 도출할 수 있도록 하는 것이다. 최근 프로젝트에서는 와이퍼에 대한 정형 데이터를 가지고 분석을 진행했는데 와이퍼 부상 속도와 매우 관련이 있는 변수가 없는 단점이 있었다. 존재하지 않은 변수는 이미지 데이터로 대체하여 Multimodal로 학습했다는 시도가 매우 인상 깊었다. 오늘 세미나를 통해 Multimodal Learning에 대해 접해 볼 수 있었다. 현재 진행하고 있는 프로젝트 중 이미지 데이터를 분석하는 것이 있는데 이와 관련한 정형 데이터를 수집할 수 있다면 Multimodal Learning을 적용하여 새로운 시도를 해볼 수 있을 것 같은 생각이 들었다. 추후에 기회가 된다면 적용해보고 싶은 재미있는 주제였다.
이번 세미나는 윤상이가 'Multimodal Learning for Product Design Data'를 주제로 진행하였다. Multimodal learning은 공통의 타겟을 갖는 다양한 형태와 차원을 갖는 설명 데이터를 한번에 학습시키는 방법이다. 사람이 오감을 사용하여 사물을 인식하는 것처럼 고양이를 설명하기 위해 이미지, 텍스트, 사운드 데이터를 예측하는 것이 예시이다. 윤상이가 진행하고 있는 와이퍼 설명 변수와 후드 형상 이미지를 적용하여 부상 속도를 예측하는 프로젝트 사례는 multimodal learing을 실제 프로젝트로 잘 적용했고 흥미롭다는 생각이 들었다. 초기 연구 주제로 텍스트와 시그널을 결합하여 음악 가사 생성 모델을 구현해보려고 했다가 데이터셋을 구하기 어려워서 포기했었는데 오늘 윤상이의multimodal learning 세미나를 듣고 다시 한번 구현해보고 싶어졌다. 좋은 주제와 사례를 들어 세미나를 진행해준 윤상이에게 감사하다는 말을 전한다.
금일 세미나는 'Multimodal Learning for Product Design Data'라는 주제로 윤상이가 진행을 해주었다. Multimodal Learning은 형태가 다른 데이터(ex. image + text + sensor)를 한번에 예측 모델에 입력하여, 원하는 출력 변수의 형태를 얻는 방법을 말한다. 인간 행동 인식 분야를 예시로 들어주어 이해하기 쉬웠다. 또한 프로젝트에서 사용하는 데이터를 이용해 적용해본 사례까지 보여줘 흥미로웠고, 쉽게 이해할 수 있었다.
현재 나 역시 일반적인 n X p 형태의 데이터와 센서데이터를 입력하여 센서 데이터를 예측하는 문제를 풀고 있는데, 여기서 적용해 볼 수 있다는 생각을 하였다. 내가 진행한 방식과는 완전히 다른 접근이었고, 여기서 많은 아이디어를 얻을 수 있었다. 세미나 주제와 유사한 형태로 문제 상황을 다시 모델링해 기존과 어떠한 차이가 있는지를 확인해보고 싶었다. 새로운 주제를 알기 쉽게 설명해준 윤상이에게 감사하다는 말을 전하고 싶다.
오늘은 ‘Multimodal Learning for Product Design Data’를 주제로 윤상이형의 발표가 이루어졌다. 기존의 머신러닝은 많은 부분 동형 데이터를 모델 입력으로 기대했으며, 설사 다른 형태의 데이터를 한 모델에 태워도 정형 데이터 입력만을 고려하는 모델로 제한이 있었다. 하지만 딥러닝의 발달로 비정형 데이터 처리가 가능해짐에 따라, 이종 데이터로부터 추출된 특성을 하나의 딥러닝 모델에 태울 수 있게 되었다. 이렇게 머신 러닝 모델 또한 동물이 학습하고 판단을 내릴 때 5가지 감각(엄밀히 말하자면 기억까지)을 이용하는 것처럼 앞으로 다양한 소스로부터 판단을 내리는 방향으로 갈 것으로 보인다.
Multimodal learning은 데이터 통합 방식에 따라 구분할 수 있는데 오늘 소개된 것은 3가지이다. 첫번째는, 특징 차원이 다른 데이터를 동시에 ‘잘’ 학습을 하기 위해서는, data_i와 data_j가 같은 subspace로 옮기고 학습하는 방법론이다. 이는 기존 발표 중 승섭이형의 ‘EASY TRANSFER LEARNING BY EXPLOITING INTRA-DOMAIN STRUCTURES’에서 보았듯이 서로 다른 도메인의 데이터를 ‘재정렬’시킨다는 점에서는 유사했으나, Deep CCA(Canonical Correlation Analysis)은 딥러닝을 사용하여 두 도메인의 데이터 상관관계를 최대화시키는 비선형 변환 함수를 학습해낸다는 점에서 차별점을 갖는다. 실제로 논문에서 제안 기법이 기존의 Kernel CCA나 일반 CCA에 비해서 임의의 Real data에 대해서도 확연하게 높은 상관관계를 만든다고 한다. 두번째는, 각기 다른 데이터를 각자의 DNN_model_i에 넣고 나서 각 모델들의 앙상블로 예측을 하는 방식이며, 마지막으로 세번째는 ensemble 대신에 마지막에 각 DNN_model_i의 output를 input으로 받는 concatenation layer를 쌓아 결과를 예측하는 방식이라고 하니 데이터의 통합 방식은 문제 상황에 따라 취사선택하면 될 것으로 보인다.
이론 설명 이후 윤상이형 본인께서 하시는 프로젝트에 프로토타입 multimodal 모델을 돌려서 LASSO 기법에 준하는 예측력을 보여주셨는데, 처음에는 LASSO와 multimodal 모델예측력이 비슷하게 나와서 계산복잡도와 Structural Risk가 낮은 LASSO가 더 좋은게 아닌가 생각했다. 하지만, 와이퍼 설계 데이터로만 예측하는 것 뿐만 아니라, 이번 과제의 주목표는 후드 형상(이미지)에 따른 와이퍼의 고속 부상 속도 예측이였기 때문에, 이미지 데이터를 사용하는 것이 중요했다고 한다. 실제로 전문가들이 후드 형상이 자동차 전면 유리의 공기 흐름을 크게 좌우한다고 피력했으므로, ‘후드 형상 이미지’ 인자 설명력을 보여주는 모델이 중요한 것이었다. 따라서, 와이퍼 설계 데이터만을 사용한 LASSO에 준하는 설명력을, prototype multimodal 모델이, 그것도 데이터가 많이 부족한 상태의 DNN 모델이 이런 결과를 냈다는 것은 trade-off로 받아들일 만했다. 일반적인 관점에서 보자면 그리 좋지 않은 성능이었지만, 처한 문제상황을 들어보니 합리적인 해결책이었다. 하지만, 현구형이 말했듯이 학습해야할 파라미터가 많은 DNN 모델의 overfitting는 해결해야할 문제로 보였다.
이번 발표는 이론도 좋았지만, 무엇보다도 실제로 진행하고 계시는 프로젝트에 직접 SOTA 이론을 적용하고자 하는 실용적이고 실행력 있는 면모가 돋보여서 발표 내용 이외로 본받을 점이 많았다.
금일 세미나는 'Multimodal Learning for Product Design Data’라는 주제로 윤상이형이 진행해 주었다. Multimodal Learning이란 인간이 어떤 사물을 인식하거나 예측하는 것처럼 이러한 인간의 학습방법을 모방한 알고리즘이다. 인간이 학습하기위해서는 여러가지 감각(ex. 후각, 시각, 촉각 등)을 쓰는데 multimodal learning에서도 형태가 다른 데이터의 특성들을 합친 후 구하고자 하는 결과를 얻을 수 있다. 형태가 다른 데이터들의 특성을 추출하여 하나의 형태로 만드는 것도 신기했고 하나의 사물을 예측하기 위하여 다양한 형태의 데이터를 가지고 한번에 예측하는 것도 흥미로웠다. 결과적으로는 하나의 형태를 가지고 있는 데이터로 분석한 결과와 큰 차이를 보여주지는 않았지만 기존의 방법과 다르게 생각하고 적용해본 윤상이형에게 감사하다는 말을 전하고 싶다.
금일 세미나는 'Multimodal Learning for Product Design Data' 라는 주제로 진행하였다. Multimodal Learning 을 설명해 주었는데 인간이 어떤 사물을 인식할 때 사용되는 5가지 감각을 이용하여 인식을 하게 되는데 multimodal Learning 도 마찬가지로 특정 자원으로 부터 수집된 다양한(text, sound, sensor data, signal data, image 등등) 데이터 표현 형식(변수들의 데이터 차원이 다 다른것임) 으로부터 하나의 정보를 표현하도록 하는 것이다. 많이 사용되는 분야는 인간 행동 인식 분야이다. Multimodal Learning 은 데이터 통합방식에 따라 3개로 구분하는데 1)데이터 차원의 통합으로 다른 형태의 데이터들을 Embedding 하여 같은 특성이 같은 데이터로 나오도록 추출 해주는것과 2)분류기 차원의 통합으로 여러 예측 모델의 결과를 결합하여 예측 하는 것. 3) 마지막으로 학습된 표현 간의 통합으로 다른 신경망으로 학습하여 추출된 특징을 선형결합하는것이다.
이를 통해 궁극적으로 여러 정보를 보완적으로 이용하여 더 좋은 성능을 보이도록 모델을 구축하여 학습성능을 높이고자 하는겄이다. 해당 모델을 실제로 잘 동작하는지 보기 위해 와이퍼 설계 데이터 와 이미지 를 이용하여 Multimodal Learning 을 해 보았고 실제로 꽤 괜찮은 예측력을 가짐을 확인 할 수 있었다.
최근 여러가지 Learning 방식에 대해 세미나를 들었는데 많은 도움이 되는거 같다. 특히나 새로운 이론을 바로 실제로 써보는 실행력은 정말 본받아야 된다고 생각되었다.
오늘 윤상이가 발표한 Multimodal Learning은 다양한 형태의 데이터가 공존할 때 학습하는 방법론이다. 최근 SK임원과의 만남에서 이미지와 텍스트가 섞여 있는 데이터를 어떻게 학습할 수 있는지에 대한 질문을 받았는데 본 세미나를 조금만 더 일찍 들었다면 보다 명확하게 답변을 했을 수 있었을 것 같다. Multimodal Learning에 개념 뿐 아니라 현재 진행하고 있는 과제에 적용하여 활용도를 검증한 점이 매우 칭찬할만 하다. 앞으로 우리 연구실에서 관심을 가지고 연구를 해 보면 좋은 주제인 것 같다.
이번 세미나는 multimodal deep learning에 대한 주제로 진행되었다. Multimodal learning은 서로 다른 특성을 갖는 데이터들(e.g. 이미지와 텍스트)이 하나의 instance를 설명하는 경우, 여러가지 데이터들로부터 각각 좋은 feature를 추출하여 성능을 높이려는 시도이다. 세미나에서는 간단한 multimodal deep learning 모델 몇 가지만 설명했는데, 전반적인 연구 흐름과 함께 큰 카테고리와 그에 해당하는 대표적인 모델들 정도는 설명해주는 것이 좋았을 것 같다. 세미나에서는 multimodal deep learning을 진행중인 프로젝트에 적용해본 결과를 같이 공유했는데, 데이터 개수 대비 데이터의 복잡도가 상당히 높아 성능을 끌어내기 쉽지 않을 것 같다는 생각이 들었다. 의미있는 결과를 얻기 위해서는 데이터가 많이 주어지는 일반적인 상황에 적합한 기존 연구들 만으로는 큰 어려움이 있을 것 같다. 특히, 1000x548이라는 해상도의 이미지는 computer vison을 기준으로 봐도 작지 않은 이미지 크기인데, 적은 데이터를 기반으로 결과를 내려면 다양한 시도를 해봐야 할 것 같다.
금일 세미나는 딥러닝을 학습하는데 있어서 사용하는 데이터가 multimodal 일때 어떻게 해결을 할 수 있는가에 대해서 다루었다. Multimodal이란 이미지, 텍스트, 정형 등 갖고 있는 데이터의 원천(source) 자체가 다른 경우를 의미한다. Heterogeneous하고도 유사하며 기본적으로 multimodal에서 각각의 데이터들은 각자의 차원이 따로 있다. 예를 들어 이미지는 가로, 세로, 색상의 채널로 이루어진 3차원 데이터이며 정형 데이터는 nxp로 표현이 될 수 있다. 서로 다른 소스에서 얻은 데이터를 사용하기 위해서는 다양한 방법들이 존재하는데, 오늘 다룬 방법에서 인상 깊었던 방식은 feature의 유사성을 학습하는 알고리즘이었다. 이미지에서 추출한 feature, 텍스트에서 추출한 feature의 상관관계가 유사하도록 하는 네트워크를 학습함으로써 유사한 차원으로 임베딩을 할 수 있다. 현재 진행하는 프로젝트를 소개해주었는데 각자 다른 데이터셋에 딥러닝 모델을 구축하여, feature vector를 이어붙이는 형식으로 모델을 만들었다. 하나의 데이터 소스만으로는 충분한 성능을 확보하기가 어렵거나, 특정 소스에 대한 설명력을 확보하기 위해서는 필요한 작업이기 때문에 실제 상황에서는 필수적으로 연구되어야 하는 분야이다. 큰 컨셉에 대해서 개괄적으로 설명을 해주었기 때문에 이해하기가 수월했다고 생각한다.
이번 세미나의 주제는 multimodal deep learning 이다. multimodal이란 다양한 형태의 데이터를 입력 데이터로 사용한다는 의미이며 예를 들어 이미지와 텍스트 데이터를 동시에 사용한다는 것이다. 딥러닝 구조에서는 은닉층의 수를 지정할 수 있기 때문에 여러 형태의 데이터를 같은 수의 은닉층에서 합쳐지기 쉬우며, gradient descent를 이용하여 모두 같이 업데이트가 가능하다. 그렇기 때문에 multimodal은 딥러닝에서 적용하기 유리하다. 이러한 것들을 실제 진행하고 있는 프로젝트에 적용하였고, multimodal에 더해 cnn을 통한 원인분석도 시도하고 있다는 것이 매우 흥미로웠다. 여러 복잡한 방법들이 있지만 쉽게 잘 설명해 주었던 것 같다. 여러 형태의 데이터를 같은 벡터로 변환하여 학습시키는 것은 다양하게 사용될 수 있을 것 같다.
금일 세미나는 Multimodal Learning for Product Design Data를 주제로 윤상이가 발표했다. Multimodal Deep Learning은 인간이 오감으로 인지하여 학습하는 것과 같이 특징 차원이 서로 다른 데이터를 동시에 학습하는 방법이다. 이번 발표를 통해 Multimodal Learning에 대해 처음 접하게 되었는데, 각기 다른 차원의 데이터를 통한 학습이 서로의 학습을 보완해줄 수 있다는 아이디어가 매력적이었다. Multimodal Learning은 서로 다른 데이터를 어떻게 통합할 것인지에 대한 방법론에 따라 구분이 되는데 금일 세미나에서 3가지가 소개되었다. 내가 이를 이해한 대로 요약해보자면, 먼저 첫번째 방법은 서로 다른 차원의 데이터를 타겟 데이터의 클래스 내 Correlation이 가장 높아지는 새로운 차원의 Subspace으로 Mapping 시켜주는 기법이다. 기존의 CCA는 선형 변환을 사용하므로 데이터의 비선형성을 극복해야하는 문제가 있었는데 오늘 소개된 Deep CCA는 Deep Learning을 통해 비선형 변환 함수를 학습함으로써 이를 극복한다고 한다. 다음 두번째 방법은 서로 다른 형태의 데이터에 대해 각각 예측 모델을 생성하고, 생성된 예측 결과를 앙상블 기법으로 결합하여 예측하는 기법이다. 마지막으로 소개된 방법론은 각각의 모델에서 얻은 Output Vector들을 Concatenation Layer에 input으로 받아 각 데이터로부터 나온 결과를 통합하여 예측하는 방식이다. 흥미로운 발표 주제였고, 이해하기 쉽게 잘 설명해 준 발표가 특히나 좋았다.
오늘 세미나는 multimodal learning for product design data를 주제로 이루어졌다. Multimodal learning은 인간의 인지적 학습방법을 모방하여 다양한 현태의 데이터로부터 학습하는 방법이다. 지난 지윤이 혹은 충협이 세미나에서와 같이 주제는 각기 다르지만 큰 인공지능 모델의 발전이 인간의 학습방법을 모사하는 방향으로 꾸준하게 발전된다는 점에서 흥미로웠다. 관련 서적을 읽으면서 인간의 뇌, 지능에 대한 분야도 상식적으로 알아두면 좋겠다고 생각했다. 각기 다른 데이터를 활용한 multimodal learning의 지향점 두가지가 있다. 첫째, 일치의 원리 (consistence principle). 두번째로는 보완의 원리 (complementary principle) 이를 손실함수에 수식적으로 녹여서 딥러닝 모델의 파라미터를 학습할 수 있는 방법론을 연구해보면 재미있겠다는 생각을 했다. 윤상오빠의 발표를 듣고 크게 깨달은 점이 있다. 나는 그동안 내가 세미나 준비를 위해 본 모든 것을 전달하고 싶어서 애를 썼던 것 같다. 시간과 노력을 들인 것을 자랑하고 싶었던 마냥... 하지만 내가 그 모든 것을 완전히 전달할 수도 듣는 청자가 아무리 똑똑해도 그 모든 것을 완전히 이해할 수는 없을 것이다. 이해가 되지 않는다면 자신이 가진 생각과 아이디어와 결합하여 응용할 수는 더더욱 없을 것이다. 윤상오빠는 핵심을 간결하게 아이디어를 잘 전달해주었다. 그랬기 때문에 많은 연구원들이 다같이 아이디어를 떠올리고 생각을 나눌 수 있는 자리가 되었다고 생각한다. 끝으로 동기로서 항상 든든하고 의지한다는 말을 전달하고 싶다. 같이 멋진 연구실 생활을 하며 추억을 쌓고 싶다. 연구도 파이팅~!!
오늘 세미나는 Multimodal Deep Learning for Product Design Data라는 주제로 윤상오빠가 진행하였다. 먼저, Multimodal이라는 것은 여러 modality(데이터 타입)을 의미하며, 우리에게 좀더 익숙한 용어로는 감각기관의 통칭으로 받아들일 수 있다. 데이터 수집 기법과 기술이 발달함에 따라 우리는 대량의 데이터를 수집할 수 있다. 최근에는 흥미롭게도 동일한 관측치 혹은 변수를 설명하기 위한 목적으로 수집되지만 수집 기법 혹은 저장 기법에 따라 전혀 다른 형태의 데이터로 관리되고 있는 경우도 종종 발생한다. 예를 들면, wafer의 품질을 관리하기 위해 수집되는 wafer bin map 이미지 데이터, wafer의 공정 이력 정형 데이터, wafer의 설계 정형 데이터 등이 서로 다른 방식으로 수집되고 관리되지만 데이터 분석관점에서 이들을 모두 활용할 수 있는 경우가 있겠다. 금일 세미나는 이러한 multi modal에 대한 설명에서부터 대표적인 논문들의 개략적인 설계와 더불어 프로젝트 응용사례까지 전달해주었다. 최근 들어 스스로 ‘지식 전이’ 분야에 관심이 있었던 것 같다. 이들은 데이터 분석을 하는 시점에서 서로의 데이터로 정보를 공유하고 더 나은 성능 도출을 목적으로 하는 연구들이다. 정말 인공지능이 사람처럼 작동하기 위해 여러 배경지식들을 주입시키는 것과 동일한 의도로 해석할 수 있는데 그런 의미에서도 다시 한 번 흥미롭게 접해볼 수 있었다. 윤상 오빠와 함께 프로젝트를 진행하면서 오빠에게 이런저런 자문을 구해볼 때마다 항상 긍정적으로 검토해주고, 어려운 문제 상황을 최대한 간결하게 정리하는 모습에서 많이 배울 수 있었다. 동료로써, 함께 프로젝트를 참여한 연구원으로써 오빠의 장점을 매번 많이 배울 수 있어서 감사하다는 말로 후기를 마친다.
금일은 Multimodal Deep Learning for Product Design Data을 주제로 세미나가 진행되었다. 개인적으로 Multimodal이라는 단어를 여러번 들었지만 깔끔하게 정리를 해본적은 없었다. 그래서 Multimodal이라는 내용에 대해 흥미진진하게 세미나를 청취할 수 있었다. Multimodal이란 Modality(양식)이 여러 개 존재하는 것이고, Modality(양식)이란 특정 자원으로부터 수집된 데이터 포현 형식을 의미한다. 결국 Multimodal data는 다양한 자원으로부터 수집된 데이터가 하나의 정보를 표현하는 것이다. 그리고 이를 데이터 형태에서 학습하는 것으로 생각하면 변수 별로 차원이 다른 데이터를 딥러닝으로 학습하는 것이 Multimodal Deep Learning이라 할 수 있다. 이후 Multimodal Learning의 핵심 원리인 일치의 원리와 보완의 원리에 대해 설명을 들을 수 있었고, 최종적으로는 윤상이가 현재 진행하고 있는 과제에 어떻게 사용했는 지 Application 내용에 대한 이야기도 들을 수 있었다. 이번 세미나를 통해 Multimodal이라는 단어에 대해 깔끔하게 정리가 된 것 같아 기뻤다. 또한 발표 흐름을 유지하며 깔끔하게 발표하는 것이 무엇인지에 대한 적절한 예시를 본 것 같았다. 다른 발표를 준비할 때 항상 깔끔하고 청취자들이 쉽게 이해할 수 있도록 많은 준비를 해야겠다고 느꼈다. 좋은 발표를 준비해 준 윤상이에게 감사함을 표한다.
금일은 Multimodal Deep Learning for Product Design Data을 주제로 조윤상 연구원님이 발표해 주셨다. Multimodal이라는 단어가 생소하였는데 예시로 5감을 들어주어 이해하기 쉬웠다. 예를 들면 음식에 대한 데이터 분석을 할 때 단맛, 신맛, 짠맛 등등 맛에 대한 여러 데이터는 같은 “맛”이라는 같은 Modal의 데이터이고, 여기에 색상, 크기 등 “시각”에 대한 데이터를 추가하여 분석을 진행하면 Multimodal 분석이 된다. 이번 세미나는 조윤상 연구원님이 실제적으로 수행하였던 현대자동차의 와이퍼와 후드 디자인의 관계를 deep learning으로 접목하여 결과를 도출해 내는 과정을 설명해주며 어려운 주제를 쉽게 전파해 주었다. 현업에서 일하며, 데이터 분석의 한계를 느끼는 경우가 많이 있었다. 항상 결측치가 문제라고만 생각하고 있었는데 이렇게 새로운 차원의 데이터를 합하여 문제를 해결할 수 있는 아이디어를 보여주어 느끼는 점이 많은 세미나였다. 좋은 분야에 대해서 이해하기 쉽게 설명해준 조윤상 연구원님께 감사하다는 말을 전한다.
Deep Learning 관점에서의 Multimodal Learning을 주로 다루었다. 쉽게 말해 서로 속성이 다른 데이터로 무언가를 학습하는 것이 목적이다. 사진과 자연어 질문을 받아 자연어로 정답을 예측하는 Visual Question Answering 혹은 엑셀시트 형태의 테이블 데이터과 그에 대한 질문을 받아 필요한 정보를 추출해주는 Structured Table Question Answering 등이 이 분야의 대표 격이라고 볼 수 있다. 반드시 쌍으로 존재해야 한다는 점에서 수집한 데이터의 품질이 상당히 중요해 보이지만 우리 연구실에서도 함께 연구하면 좋은 주제 같다. 윤상이가 진행 중인 산학 프로젝트 내용을 공유해주었는데, 데이터의 분량이 많지 않아 과적합의 걱정이 조금 되지만, 잘 해결하여 좋은 연구를 하면 좋을 것 같다.
이번 세미나는 multimodal learning에 deep neural network을 적용하는 방법론에 대해 설명하고 이 multimodal deep learning을 실제 사례에 접목 및 응용해보는 방향으로 진행되었습니다. 우선 본격적으로 방법론에 대해 알아보기 전에 multimodal learning이 무엇이고 multimodal이 무엇인지에 대해 간단하게 살펴보았습니다. Modality의 사전적 의미는 양식, 형태, 방식 등의 것으로 표현되는데, 데이터 마이닝 관점에서는 데이터의 형태나 차원이 완전히 다른 것에서 가져온 데이터라고 생각하면 될 것 같습니다. 이렇게 모아진 multimodal data를 가지고 상호보완하면서 모델을 만들고 예측을 하는 방법론이 multimodal learning입니다. 이러한 기법을 가지고 수행해볼 수 있는 과제는 예를 들면, 인간행동 인식분야에 활용하여 시각, 청각, 위치정보 등을 바탕으로 어떠한 특징을 지니고 어떤 행동을 할지 알아볼 수 있습니다.
이러한 multimodal learning에 CNN과 RNN을 적용하여 예를 들면, 이미지 정보를 처리할 때는 CNN을 활용하고 문장 정보를 처리할 때는 RNN을 사용하여 학습된 특징을 선형결합하여 데이터를 통합한 뒤에 처리합니다. 이렇게 되면 단일 데이터만을 사용하였을 때보다 성능이 좋게 나올 가능성이 크고, 여러가지 기법을 신경망 기반으로 자유롭게 적용해볼 수 있으므로 기존보다 다양한 방법을 문제해결에 사용할 수 있습니다. 이번 발표자분께서는 세미나 후반에 직접 이 기법을 실제 데이터에 한번 실험적으로 적용해본 결과를 소개하였습니다. 후드 형상 이미지와 와이퍼 설계 데이터를 기반으로 어느 속도까지 와이퍼가 버틸 수 있는지를 예측해보는 데이터를 가지고 multimodal deep learning을 사용하여 single보다 더 나은 혹은 비슷한 성능을 보여주었습니다. 이를 바탕으로 실제에도 효과가 있음을 확인할 수 있었습니다. 이번 세미나를 통해 새로운 개념과 실제 사례를 배워볼 수 있어서 뜻깊은 시간이었습니다.