- 2020년 1월 6일 오후 1:01
- 조회수: 5224
REFERENCES
INFORMATION
- 2020년 1월 10일
- 오후 1시 ~
- 고려대학교 신공학관 218호
TOPIC
OVERVIEW
발표자 후기
금일 세미나는 "Mask R-CNN"이라는 주제로 진행을 하였다. Mask R-CNN을 설명하기 이전에 이를 구성하는 Object detection과 Image segmentation에 관해 설명하고 각각을 수행할 수 있는 알고리즘인 "Faster R-CNN"과 "Fully constitutional network(FCN)' 에 대해 소개하였다. Mask R-CNN은 Instance Segmentation을 진행하기 위해 만들어진 알고리즘인데 Faster R-CNN에 Segmentation을 할 수 있는 가지를 붙여 Instance segmentation을 진행할 수 있게 되었다.
이번 세미나를 준비하면서 어떻게 내가 이해한 부분을 청중들에게 잘 전달할지 다시 한번 깨달을 수 있었다. 또한 발표 준비 과정에서 애니메이션을 적절하게 이용해, 전달하는 방법에 대해 깨달을 수 있었다. 이번에 배운 깨달음을 가지고 여러 발표 장표들을 준비해야겠다고 다짐하였다. 발표 마지막에 이야기했던 Unsupervised segmentation과 Semi-supervised segmentation에 대한 연구도 시작해야겠다. 발표를 들어주셨던 외부 인원분들께서 주신 조언들도 반영해 연구를 박차를 가해보아야겠다.
청취자 후기
오늘 세미나는 'Mask R-CNN'이라는 주제로 용원이가 진행하였다. Mask R-CNN이라는 기법은 이미지 내 객체의 (1) 위치 예측(regression), (2) 범주 예측(classification)을 할 수 있는 방법이다. 객체의 위치를 Bounding box로 예측하는 문제는 Object detection이라 하고, 이미지 내 pixel 마다 범주를 예측하는 문제를 Image segmentation이라고 말한다. Image segmentation은 (1) Semantic segmentation, (2) Instance segmentation 이 두가지 레벨로 구분할 수 있는데, Semantic segmentation은 좀 더 높은 범주레벨(예를 들어 사람과 고양이), Instance segmentation 은 상대적으로 세분화된 범주(예를 들어 사람1, 사람2, 고양이 1, 고양이 2)를 예측하는 데 사용된다. Mask R-CNN은 Object detection, Image segmentation 이 두가지를 동시에 수행하는 방법론으로 Instance segmentation 에 집중한다. 개인적으로 Mask R-CNN은 이미지 내 객체 위치와 다범주(multi class)를 '동시에' 예측할 수 있다는 점을 다방면으로 활용할 수 있을 것으로 생각한다. 지난해 팔레트(pallet) 이미지 위치를 예측하고, 그 예측된 이미지를 기반으로 분류 문제에 적용하는 two-step으로 프로젝트를 수행한 적이 있는데 오늘 소개해준 Mask R-CNN은 한번에 모델링이 가능하여 좀 더 효율적으로 모델을 구축할 수 있다는 생각이다. 오늘 세미나에서 이미지 객체 인식에 대한 전반적인 개요와 대표적인 알고리즘 세가지를 자세히 소개해주었다. 세미나를 준비하기까지 많은 스터디와 자료작성이 요구됐을 것으로 생각한다. 더불어 쉽게 설명하고자하는 발표자의 노력이 엿보였던 세미나였다. 유익한 세미나를 준비해준 용원이에게 큰 박수를 보낸다.
금일 세미나는 용원이가 Mask R-CNN을 주제로 진행하였다. Mask R-CNN은 object detection과 image segmentation을 함께 수행할 수 있는 딥러닝 모델으로, Faster R-CNN과 Fully Convolutional Network(FCN)을 결합한 형태의 모델이다. Faster R-CNN은 R-CNN, Fast R-CNN과 같은 이전 단계의 object detection 모델의 연산속도와 성능을 향상시킨 모델이다. 아이디어의 핵심은 proposal region을 selective search를 통해 추출하는 기존 방법론 대신 conv 연산으로 생성되는 feature map으로부터 객체가 존재할 것으로 판단되는 anchor을 생성하는 Region Proposal Network(RPN) 모듈이다. RPN으로부터 anchor 생성 후 객체의 범주와 bounding box의 위치를 판단하게 된다. FCN은 Image segmentation 모델으로, CNN의 마지막 layer의 feature map을 upsampling한 후 convolution 연산을 수행하여 픽셀별로 어느 범주에 속하는지를 계산하는 모델이다. Mask R-CNN은 앞의 두 모델을 결합한 multitask 모델이다. 모델의 학습 단계는 3단계로 분류할 수 있다. 1~2단계는 Faster R-CNN에서 동작하는 Bounding box regression, Classification이며 마지막 3단계는 각 픽셀이 2단계에서 예측된 범주에 속하는지 아닌지를 판단하는 이진 분류 문제로 FCN을 변형하여 적용한다.
용원이가 image segmentation 프로젝트를 수행하면서 많은 공부를 해왔고 이를 잘 전달하기 위해 얼마나 많이 준비하였는지 잘 느낄 수 있었던 세미나였다. 한번의 세미나를 통해 image segmentation, object detection이라는 분야와 3가지 모델이 어떻게 작동하는지에 대한 개념을 쉽게 이해할 수 있어서 좋았다. 좋은 세미나를 진행해준 용원이에게 감사하다는 말을 전한다.
금일 세미나는 "Mask R-CNN"에 관한 주제로 진행이 되었다. Mask R-CNN 을 설명하기에 앞서 먼저 object detection 과 image segmentation 을 먼저 설명을 해 주었다. 컴퓨터 비젼에서 사용되는 용어가 좀 햇갈렸었는데 image classification(단일 객체 기준으로 이미지 분류) , image Localization(단일 객체 기준으로 이미지 분류 및 위치 파악), object detection(다중 객체 기준으로 객체 위치 탐지), image segmentation(다중 객체 기준 이미지 분할) 등의 차이점이 무엇인지 이번에 정확하게 알게되었다. 그리고 중요한점이 반드시 해당 이미지에 대한 정답(Label)이 존재 해야 하는 점이라는것을 알 수 있었다. Mask R-CNN은 object detection 과 image segmentation 을 함께 수행한다. Region Proposal Network 에서는 object detection 에서 사용한 Fast R-CNN 을 사용하는데 이때 중요한점은 기존의 R-CNN의 경우 selective search 의 과정으로 통하는데 이는 시간이 오래걸려서 모듈 1에서 사용되는 conv 연산으로 생성되는 feature map을 이용해 높은 확률로 객체가 존재할 만한 곳만 선택하여 찾는 방법이다. 이는 10배 정도 빠른 결과를 보여 주었다. 이렇게 받은 데이터를 입력으로 모듈2의 classification 에서 bounding Box 를 그리고 객체 분류를 진행 한다. 그리고 image segmentation 영역에서 사용되는 FCN(Fully Convolutional Network)을 이용하여 탐지한 영역 내 픽셀이 예측한 객체인지 아닌지 예측 하여 더 정확한 성능을 빠르게 분류하는것을 확인 할 수 있었다.이번 세미나를 통해 굉장히 직관적으로 수업 내용을 이해할 수 있어서 유익한 세미나였다.
금일 세미나는 용원이가 Mask R-CNN에 대하여 소개해주었다. Mask R-CNN의 중요개념을 소개하기에 앞서 발표자는 Object Detection과 Image Segmentation에 대하여 이해를 도왔는데 이러한 발표 구성이 매우 탄탄했다고 생각한다. Mask R-CNN을 이해하기 위해서는 논문의 저자가 이전에 발표했던 Faster R-CNN에 대한 이해가 필요하다. Faster R-CNN에서 기존의 Selective Search를 CNN 구조에 넣은 ROI Pooling 방식을 발표만 들어도 이해할 수 있도록 잘 설명하였다. Faster R-CNN이 Object Detection을 위한 모델이었다면, Mask R-CNN은 기본적으로 Instance Segmentation을 하는 모델이다. 이러한 Instance Segmentation을 하기 위해서 Mask R-CNN은 Object Detection과 Semantic Segmentation을 동시에 진행해야 한다. 이를 위해 Mask R-CNN은 Object Detection Part를 담당하던 기존의 Faster R-CNN의 ROI Pooling layer에 Mask Segmentation을 수행하는 Fully Convolutional Network를 추가한 모델이다. 이 과정에서 발표에서는 다루지 않았으나 Mask R-CNN은 기존의 Faster R-CNN의 ROI Pooling에서 Input Image의 원본 위치 정보가 다소 왜곡되는 문제를 정확히 Pixel by Pixel로 매칭시켜주기 위해 ROI Align으로 대체한다. 이로써 Object Detection에 적용되었던 Faster R-CNN의 알고리즘이 Image Segmentation을 수행하는 Mask R-CNN이 된다. 오랜 준비를 통해 Object Detection부터 Mask R-CNN에 대한 완벽한 이해를 돕는 완성도 높은 발표를 해준 용원이에게 다시금 감사하다는 말을 전한다.
이번 세미나는 Mask R-CNN에 대해서 진행되었다. Mask R-CNN에 대해서 설명하기 이전에 수많은 배경에 대해 어떻게 설명해야할지 고민이 많았을텐대 핵심을 잘 추려 설명해주어 좋았다. Mask R-CNN은 object detection이 가능한 Faster R-CNN 모델에 추가적으로 instance segmentation 가능한 모듈이 추가되어 구성되어있다. Mask R-CNN의 큰 backbone 모델인 Faster R-CNN은 크게 Region Proposal Network와 Classification과 Bounding Box Regression을 진행하는 두가지 모듈로 구성되어 있다. 모듈2의 시작에는 Proposal Region에 ROI pooling을 사용한다. 이는 서로 다른 크기의 proposal region을 반영하기위해 구성되어 Faster R-CNN에서는 문제되지 않았지만 Mask R-CNN에서 instance segmentation을 위한 모듈에 사용될 때는 misalignment 문제가 발생한다. 따라서 Mask R-CNN의 핵심 가운데 ROIAlign이 존재한다. 하지만 이에 대해서는 세미나 때는 언급되지 않아 굳이 아쉬움을 찾자면 이 부분에 있다고 생각한다. 하지만 그것들 외에도 성능지표에서도 mAP 혹은 Fps등 내가 이미지 관련 도메인의 프로젝트나 연구를 진행한 적이 없었기 때문에 몰랐던 다양한 지식을 알 수 있어 매우 좋았다. 앞으로 진행하는 연구도 항상 꽃길이 되길 바란다. 용원오빠 파이팅~!!
최근 Computer vision쪽에서 관심 주제 중 하나인 Object detection과 Image segmentation 에 관한 세미나 였다.
1. 알고리즘을 직관적으로 설명하여 이해하기가 쉬었다.
2. 발표 내용이 매우 논리적으로 잘 정리가 되었다.
3. 발표의 태도, 속도 등이 매우 적절했다.
4. 용원이의 노력이 보인 세미나로 많은 칭찬을 해 주고 싶다.
5. 앞으로의 연구계획에서 밝혔듯이 레이블링의 수고를 덜어 줄 수 있는 Unsupervised 혹은 Semisupervised 쪽으로 연구를 수행하면 좋을 것 같다.
이번 세미나는 bounding box object detection과 image segmentation을 (동시에) 수행하기 위한 mask R-CNN에 대한 내용으로 진행되었다. Computer vision에서 이미지 주어졌을 때, 해당 이미지 내에 특정 object가 어느 위치에 존재하는지를 찾는 것은 중요한 문제이며, 일반적으로 object의 위치를 bounding box로 나타내는 object detection, object에 해당하는 pixel을 찾는 image segmentation 두 가지로 나눌 수 있다. 예전에는 보다 간단한 bounding box를 이용한 object detection을 수행했으나, 최근에는 픽셀 단위로 더 정교한 detection을 수행할 수 있는 image segmentation을 위주로 연구가 진행되는 것 같다. 세미나에서는 object detection, segmentation에 대한 설명들과 이를 위한 알고리즘인 Faster R-CNN, FCN을 설명하고, 두 모델의 특징을 조합하여 bounding box object detection과 image segmentation을 동시에 수행할 수 있는 mask R-CNN을 설명하였다. 문제 정의나 배경에 대한 설명이 자세한 점이 인상적이었다. 향후 연구 방향으로 설정한 unsupervised object detection algorithm은 좋은 연구 방향이라고 생각한다. Computer vision의 많은 알고리즘들이 label을 필요로 하지만 labeling을 하는 데 많은 비용이 필요하기 때문이다. Unsupervised object detection algorithm들이 어떤 방식으로 작동하는지 간단한 설명이 있었으면 조금 더 좋았을 것 같다.
오늘은 Mask R-CNN을 주제로 한 세미나를 들었다. Mask R-CNN에 대한 설명을 돕기 위해서 먼저 Object Detection과 Image Segmentation에 대한 설명이 진행되었다. Object Detection은 사전에 정의한 범주가 사진에 존재하는지 파악한 뒤, 존재하는 경우 사진 속에 해당 범주가 있는 위치를 찾는 것을 의미한다. 그리고 이 위치는 Bounding Box로 표현이 된다. Object Detection에서 찾고자 하는 범주가 있는 위치는 총 4개 값으로 나타낼 수 있다. Bounding Box에 시작점이 되는 X, Y 좌표와 높이(H), 너비(W) 4가지가 바로 그것이다. 이후 Object Detection 방법론 중 하나인 Faster R-CNN에 대한 설명이 이어졌다. Faster R-CNN은 두가지 모듈로 이어져 있는데 첫번째 모듈에서는 Region Proposal Network(RPN)로 객체가 존재할만한 영역을 찾는다. 이어서 두번째 모듈에서는 이미지 내 범주와 그들의 위치를 찾게 된다. Object Detection에 대한 정의와 방법론까지 설명한 이후 Image Segmentation에 대한 설명이 이어졌다. Image Segmentation은 이미지 내 Pixel별로 범주를 예측하는 것이다. Object Detection과 달리 Image Segmentation은 Pixel마다 범주를 예측해야 하기 때문에 이미지 내 범주를 찾고 Bounding Box를 찾는 Object Detection에 비해 예측해야하는 대상이 더 많다는 특징이 있다. Image Segmentation에 대한 방법론으로는 Fully Convolutional network(FCN)에 대한 설명이 진행되었다. 최종적으로 본 세미나의 핵심인 Mask R-CNN에 대한 설명이 이어졌다. Mask R-CNN은 객체가 있을 만한 영역을 탐지하고 탐지한 영역 내 범주를 예측한 뒤, 탐지한 영역 내 픽셀 별로 범주를 예측하는 방법론이다. 즉 세미나 전반에 걸쳐 설명했던 Object Detection과 Image Segmentation 방법론 2개를 적절히 섞어 낸 방법론이라고 할 수 있다. 이번 세미나를 통해 좋았던 점은 Object Detection과 Image Segmentation의 차이에 대해 명확하게 알 수 있었다는 점이다. 그리고 각 내용에 대해 특정 알고리즘을 기반으로 Step by Step으로 잘 설명해주어서 이해하기 좋았다. 좋은 세미나를 준비해 준 용원이에게 감사함을 표한다.
금일 진행된 세미나는 ‘Mask R-CNN’이라는 주제로 용원 오빠가 진행하였다. Mask R-CNN은 대표적인 Instance segmentation을 하는 방법론이다. Instance segmentation은 단순히 segmentation을 수행하는 것뿐만 아니라, 동일한 class내에서도 세분화하여 구분가능하도록 한다. 기존의 semantic segmentation은 픽셀 단위로 차량 혹은 도로 등을 분류했다면, instance segmentation은 차량1, 차량2, 도로1 과같이 결과를 출력할 수 있다. 실제로 object tracking문제상황에서는 instance segmentation알고리즘이 초석이 된다고는 알고있었지만 어떻게 구현되는지 금일 세미나를 통해 직관적으로 이해할 수 있었다. Instance segmentation의 경우, class여부와 관계없이 동일한 class이더라도 다른 객체인지 아닌지에 대한 여부를 object detection loss term을 활용하고 더불어, 해당 객체에 대해 segmentation을 수행하게 되어 최종적으로 instance segmentation을 수행할 수 있다. 따라서, 금일 소개된 Mask R-CNN은 object detection 알고리즘인 Faster R-CNN과 image segmentation 알고리즘인 Fully Convolutional Network(FCN)을 결합한 구조이다. 금일 좋은 자료와 함께한 세미나를 통해 task별 이미지 데이터 구조에 대한 이해를 쉽게 할 수 있었다. 더불어 객체인식 분야에 대한 연구 혹은 프로젝트를 아직 진행해본적이 없는데, 해보고 싶다는 생각이 들었다. 좋은 세미나를 진행해준 용원오빠에게 감사함을 전한다.
금일 세미나는 'Mask R-CNN'이라는 주제로 세미나가 진행되었다. 이번 세미나의 핵심은 Mask R-CNN 알고리즘이 였지만 알고리즘 설명에 앞서 사전 지식에 관련된 자료들이 많이 구성되어 있어서 처음 세미나를 참석함에도 불구하고 본 알고리즘을 이해하는데 있어서 많은 도움을 얻을 수가 있었다. 세미나 발표의 흐름은 크게 두가지로 Object Detection 과 Image Segmentation 으로 각각의 알고리즘에 대하여 구체적인 설명과 간단한 예시를 통해서 각각 어떠한 중요한 역할을 하는지 알 수 있게 되었다. Object Detection 작업은 사진 속에서 원하는 범주의 객체가 존재하는지를 찾고 이에 따른 위치를 찾는가 하면, Image Segmentation 작업은 픽셀을 단위로 객체가 어떠한 범주에 속하는지를 예측하고자 하는 문제로 Mask R-CNN은 객체가 존재할 것 같다는 영역을 발견하고 이후 어떠한 범주가 있을 것인지 예측한 후에 탐지한 영역 내 픽셀에서 예측한 객체인지 아닌지를 알아가는 것으로 이해를 하였다. 이론적인 설명이 끝난 후 영상을 통하여서 Mask R-CNN에 대하여 더 쉽고 한눈에 이해할 수 있어서 너무나 좋았기에 이후 나의 세미나 차례가 온다면 이와 같이 사전 지식이 없는 청취자들에게 전하고자 하는 핵심적인 부분과 이를 뒷받침해줄 수 있는 사전 설명을 뚜렷하게 해서 발표를 진행해야 겠다고 생각이 들을 수 있었고, 첫 연구실 세미나가 너무나 좋은 발표여서 개인적으로 뜻깊은 발표로 기억에 남을 것 같다.
금일 세미나는 용원이형이 ‘Mask RCNN’ 이라는 주제를 가지고 진행하였다. 먼저 Mask RCNN을 이해하기 위해서는 Object Detection과 Image Segmentation에 대해서 먼저 알고 있어야 한다. Image Detection은 사전에 정의 한 범주가 사진 안에 존재하게 되면 사진 속에서 위치를 찾는 역할을 한다. Image Segmentation은 사진 내 픽셀이 사전에 정의한 범주 중에서 범주에 속하는지 예측하는 것인데 여기서 Instance segmentation은 인간이라는 범주안에서도 인간 각 각을 구분할 수 있어야 한다. Mask RCNN은 Object Detection의 Faster RCNN과 Image Segmentation의 Fully Convolutional Network(FCN)을 합친 알고리즘이다. 즉 Faster RCNN에서 객체가 있을 만한 영역을 탐지하여 탐지한 영역 안에 어떤 범주가 있는지를 먼저 실행한다. 그 후 영역 내 픽셀이 예측한 객체인지 아닌지 분류해준다. 원래 FCN은 다중 분류를 하지만 Mask RCNN에서 사용된 FCN은 이진 분류를 하는데 사용된다. 평소 computer vision에 관심이 있었던 나에게 유용한 세미나였다. 앞의 개념을 쉽게 설명 해준 용원이형에게 감사하다는 말을 전한다.
이번 세미나는 Computer vision에서 관심 주제중 하나인 Object detection과 Image segmentation을 동시에 수행할 수 있는 mask R-CNN에 대한 내용으로 진행되었다. 본인은 처음 듣는 Computer vision 세미나였기 때문에 발표를 듣기 전, 잘 이해할 수 있을까 걱정이였다. 하지만 이러한 걱정이 무색하게도, 발표 자료에는 Object detection, Image segmentation, semantic segmentation 등 사전 지식에 관련된 자료들이 쉽게 설명되어 있어서 발표 내용을 이해하는데 큰 어려움을 겪지 않았다. 발표자는 사전 지식에 관련된 내용을 탄탄하게 설명한 후, 본격적인 mask R-CNN 설명을 하였는데 매우 직관적이며 동시에 논리적인 개념 설명을 하였고, 본인은 '발표의 정석'을 보는 듯 아주 감명 깊게 들었던 세미나였다. 이와 같은 완벽한 발표 준비를 위해 조용원 연구자가 얼마나 많은 노력을 기울였고 연습하였을지 상상하며, 이는 본인이 꼭 닮아야 할 발표 자세라고 생각한다. 그리고 Computer vision쪽은 본인이 새롭게 듣게 된 기계학습의 분야여서 매우 흥미롭게 청취했고, 기계학습으로 해결할 수 있는 분야는 매우 넓고 본인도 열심히 공부하면 이렇게 흥미로운 주제를 연구할 수 있겠다 생각하며 앞으로의 공부에 대한 의지를 깊게 다졌던 세미나였다.
금일 세미나는 Mask R-CNN에 대한 내용으로 진행이 되었으며, object detection부터 image segmentation까지 하나의 흐름으로 설명하는 일종의 튜토리얼 형식의 세미나였다. 이미지에서 하나의 객체를 분류하는 작업에는 image classification, image localization이 있지만, 하나의 이미지에 여러 개의 객체가 있을 때는 object detection, image segmentation의 작업을 수행하게 된다. Object detection은 어떤 객체들이 있는지 탐지하고 각 객체의 위치를 사각형(좌측 상단 점의 좌표, 너비, 높이)로 표현하는 작업이라고 한다면, image segmentation은 각 픽셀별로 어떤 객체에 속하는지를 분류하는 보다 더 높은 난이도의 작업이라고 할 수 있다. 전자에서 주로 사용되는 알고리즘 중 하나의 스탠다드라고 말할 수 있는 Faster R-CNN의 개념과 더불어서, 후자에서는 Mask R-CNN을 대표적인 예로 들어 설명을 해주었다. 두 알고리즘 모두 예전에 많이 들어보았던 내용이었지만, 평소에 자주 접하지는 않기 때문에 디테일한 컨셉이나 내용을 놓치고 있었는데 이번 세미나를 통해서 다시 한번 리마인드 하고, 몰랐던 부분들 또한 확인할 수 있었던 기회였다. 비록 하나의 세미나였지만 image segmentation을 설명하기까지 많은 논문들의 내용이 녹아들어가 있었으며, 효과적으로 내용을 전달하기 위해서 발표자가 많은 고민을 했다는 것을 느낄 수 있었다. 많은 준비를 해준 발표자에게 진심으로 감사하며, 개인 연구에서도 좋은 성과가 있기를 바란다.
오늘은 Mask R-CNN에 대해서 조용원연구원의 발표를 들었다. 먼저 Computer Vision이 발전하는 방향으로 Image Classification, Image Localization, Object Detection, Image Segmentation이 각각 어떤 기술과 이론을 가지고 있는지 설명하였다. 특히 Faster R-CNN은 객체의 위치를 찾고 어떤 객체인지를 한번에 설명할 수 있는 알고리즘으로 Computer Vision에서는 중요한 알고리즘임을 알 수 있었고, Region Proposal Network을 쉽게 설명해주어 이해할 수 있었다.
Mask R-CNN은 Faster R-CNN과 Image Segmentation을 사용하여
1. 객체가 있을 bounding box를 찾고
2. box에 존재하는 객체에 라벨을 부여하고
3. box안에서 라벨에 해당하는 객체가 있는 부분을 표시하는
3단계로 이미지내에서 객체에 대한 라벨링을 할 수 있다는 점에서 앞으로 활용도가 높다고 생각하게 되었다.
전반적으로 발표할 양이 많았음에도 불구하고 준비를 많이 하여 이해하기 쉽도록 발표해준 조용원연구원에게 감사를 표한다.
금일 세미나는 용원이가 Mask R-CNN에 대해 다루었다. 비젼쪽으로는 관심이 많이 없었지만, 최근 강화학습 외에 다른 부분도 공부해야겠다 생각이 들었고 그 중 CV가 눈으로 결과도 바로 보이고 딥러닝의 발전을 가져온 분야이기 때문에 공부해야겠다는 찰나였다. 물체를 Region을 탐지하고 더 나아가 물체가 있을 확률과 가장 그럴싸한 bounding box 찾는 방법(Faster R-CNN)에다가 FCN을 통해 더 어려운 Task인 픽셀 단위의 image segmentation하는 모델도 직관적으로 설명을 해주었다. 마지막 원래 주제에 대한 챕터가 짧아서 의아했는데 아하 깨달았다. Mask R-CNN은 앞의 2개의 모델을 잘 합쳐서 나온 것이라는 걸 말이다. 논문으로 열심히 읽고 고민하여 쉽게 전달하기 위해 애를 많이 쓴게 보였다. 마지막에 나온 얘기처럼, 기업에서도 라벨링을 어떻게 하면 자동화하고 효과적으로 할 것인지 고민이 많은데 이것을 이 연구와 결합하면 이 모델에 단점처럼 레이블이 존재하지 않는 경우는 사용이 불가능한데 사용이 가능할 것이라고 본다. 그런데 CV쪽은 잘 몰라 그러는데 모든 CV 알고리즘은 레이블이 있어야 되지 않는가 싶기도 하다. 물어봐야겠다.
오늘 세미나는 객체 탐지(Object Detection)에 사용하는 딥러닝 모델 중 Faster R-CNN과 Mask R-CNN에 대해 진행되었다. Faster R-CNN은 객체가 존재할만한 후보 지역을 제안하는 Region Proposal Network를 도입하여 Selective Search의 계산 비효율성을 없앤 것이 핵심이다. Mask R-CNN은 객체 탐지를 넘어 Instance Segmentation까지 학습할 수 있는 헤드를 추가한 것이 핵심이다. 오늘 발표를 맡았던 용원이가 위와 같은 핵심을 잘 추려서 설명해주어 대다수의 청중들이 이해할 수 있었던 좋은 시간이 되었다고 생각한다.
이번 세미나는 mask R-CNN에 관한 내용이었다. Object detection은 이미지에서 사물을 인식하는 방법론이며 정확히는 물체를 포함하는 가장 작은 직사각형(Bounding box)을 찾는 것을 의미한다. 이러한 직사각형을 찾기 위해서는 직사각형의 시작점(X,Y)과 직사각형의 가로, 세로길이(W, H)를 알아야 한다. 따라서 object detection 알고리즘은 4개의 (X,Y,W,H)의 값과 박스 안에 어떤 객체가 있는지 예측하는 문제이다. 모든 영역을 찾기에는 비효율적이기 때문에 모델의 속도를 위해서는 객체가 있을만한 영역의 후보를 찾는 것이 중요하다. Faster R-CNN에서는 feature map을 사용하여 있을만한 영역을 유사도가 높은 군집을 통합하고 후보군을 추린다. 이러한 방법을 통해 모델의 속도를 매우 향상시켰다. Mask R-CNN은 기존 faster R-CNN에서 segmentation 단계가 추가된 방법론이다. segmentation은 object detection처럼 객체를 찾는 것은 동일하지만, 직사각형 형태가 아닌 픽셀 단위의 영역을 찾는다는 것이 다르다. Loss function도 기존의 faster R-CNN에서 segmentation을 위한 loss만 추가되었다. 결과적으로는 기존의 모델들보다 더 정확한 성능을 보였다. r-cnn의 시리즈에서 가장 최근 모델인 mask R-CNN에 대한 설명을 잘 해주었던 것 같다. 결과적으로 보면 이 시리즈의 모델들은 점점 많은 task들을 같이 학습시킬수록 좋은 성능을 보였다. 마지막에는 단순히 segmentation의 loss function을 더해준 것 만으로도 기존보다 더 좋은 성능을 보이게 되었다. 이러한 실험 결과들은 사실 멀티태스크 모델처럼 비슷한 task가 동시에 학습될 때마다 더 좋은 성능을 보여준다는 것과 동일한 의미를 나타낸다. 이러한 아이디어는 다른 딥러닝 모델들에서도 공통적으로 사용할 수 있기 때문에 새로운 구조를 고안할 때 마다 생각해볼 만한 것 같다.
이번에 진행된 세미나의 주제는 Mask R-CNN이었다. 이는 컴퓨터 비전 알고리즘 중에서 Image Segmentation을 수행하는 알고리즘에 속한다. 보통 Multiple Object를 검출하는 알고리즘은 Object Detection 또는 Image Segmentation을 수행하는데 Mask R-CNN은 각각을 Faster R-CNN과 Fully Convolutional Network(FCN)를 순차적으로 사용하여 진행한다. 우선 Faster R-CNN의 경우 모듈 1에서 Region Proposal Network를 통해 Object가 존재할 영역을 찾고, 모듈 2에서는 RoI pooling과 Fully Connected Layer를 사용하여 Object들의 위치를 파악하고, 어떤 범주에 속하는지 분류하게 된다. FCN은 Image segmentation을 수행한다. 최종 feature map을 Upsampling한 다음 합성곱 연산을 통해서 픽셀 마다 Faster R-CNN에서 분류했던 범주에 속하는지를 아닌지를(이진 분류) 계산한다. 이번 용원이 형 세미나를 들으며 형이 발표 내용을 편안하게 전달해주는 느낌을 받았다. 덕분에 컴퓨터 비전에 대한 지식을 한 층 넓힐 수 있었다. 세미나 전날에 형이 밤 늦게까지 준비하는 모습을 보았었는데 형의 노력이 멋진 발표로 이어진 것 같아서 너무 좋았다.
이번 세미나의 주제는 주어진 이미지 내에서 효과적인 instance segmentation을 수행하도록 하는 알고리즘인 Mask R-CNN에 관한 내용이었습니다. Mask R-CNN의 내용을 충분히 이해하기 위해서, 기존에 진행되었던 object detection과 image segmentation에 관한 연구들을 먼저 살펴보았습니다.
Object detection 과정을 간단히 설명하면, 기존의 image와 그에 맞는 label을 가지고 supervised learning방식으로 neural net을 충분히 학습시킨 후 새로운 input image가 들어왔을 때 특정 객체(예를 들면 사람, 버스, 자전거 등)를 잘 표현하는 bounding box를 찾아내도록 하는 것이 최종적인 목표입니다. 이 object detection과 관련한 연구 중에서 Faster R-CNN은 가장 유명한 논문 중 하나입니다. 이미지 내 객체가 존재할 법한 영역(proposal region)이라는 개념을 도입하여 전체적인 연산속도를 효과적으로 줄였기 때문입니다.
Image segmentation 과정은 크게 semantic segmentation과 instance segmentation으로 분류할 수 있습니다. 예를 들면 semantic방식은 사람과 자전거를 분류할 때 사람이면 그냥 사람이라고만 분류합니다. 즉, 정확하게 어떤 사람인지는 분류하지 않습니다. 이에 반해, Instance방식은 사람으로 분류하더라도 사람1, 사람2,… 처럼 사람끼리도 나누어 분류합니다. 직관적으로 이해하기에도 후자의 방식이 좀 더 현실의 문제를 해결하기에 적합해 보입니다. 따라서 본 세미나는 instance segmentation을 어떻게 잘 할지에 대해 중점적으로 설명하였습니다.
Instance segmentation을 잘 하도록 만든 알고리즘이 바로 Mask R-CNN입니다. 이 알고리즘은 위에서 설명한 Faster R-CNN과 기존의 image segmentation에서 주로 사용되었던 Fully Convolutional Network(FCN)을 결합하여 만든 것입니다. Faster R-CNN의 loss function에 segmentation관련 loss term을 추가하여 최종적인 loss function을 가지는 neural net구조입니다. 실험결과에서도 기존의 알고리즘보다 우수한 성능을 보여주었습니다. 다만, 기존의 모든 이미지 관련 알고리즘들이 label이 필요한 supervised learning 방식이라는 점이 아쉬운 점입니다. 추후에 unsupervised learning과 semi-supervised learning방식을 활용한 연구가 진행될 것이라 생각합니다.
끝으로 이번 후기를 통해, 세미나를 훌륭하게 진행해준 조용원 연구원님께 감사의 인사를 전합니다.
이번 세미나는 Mask R-CNN에 관한 주제로 진행되었다. 하나의 이미지 내에서 다중 객체를 탐지하는 방법으로 Object Detection, Image Segmentation이 수행된다. Object Detection은 사전에 labeling된 범주의 존재 유무를 탐지하고 위치를 찾는 작업을 한다. Object Detection의 알고리즘인 Faster R-CNN에서는 모듈1의 Region Proposal Network를 이용해 Feature Map 상에서 객체가 존재할 만한 영역을 찾고, 모듈2을 통해 내부에 존재하는 범주와 그들의 위치를 찾는다. Image Segmentation은 이미지 내 픽셀이 사전에 정의한 범주 중 어떤 범주에 속하는지 예측하는 작업을 한다. Image Segmentation은 크게 semantic segmentation과 instance segmentation으로 나뉘는데, 본 세미나에서는 instance segmentation를 잘 하기 위한 알고리즘인 Mask R-CNN에 중점을 두었다. Mask R-CNN은 앞서 설명한 Faster R-CNN를 통해 Object Detection을 수행하고, FCN 결합해 이전 스텝에서 예측한 객체인지 아닌지 이진분류하는 과정을 거치게 된다. 기존 알고리즘 보다 우수한 성능을 보여주었다.
조용원 연구원의 태도, 자료, 발표력 모두 본받을 만한 훌륭한 발표였다. Computer vision 분야에 대한 기본적인 지식부터 응용 알고리즘까지 한번에 이해할 수 있는 좋은 세미나였다.