- 2020년 8월 13일 오후 11:20
- 조회수: 5152
REFERENCES
INFORMATION
- 2020년 8월 21일
- 오후 1시 ~
- 온라인
- 온라인 비디오 시청 (YouTube)
TOPIC
On-Line Video
OVERVIEW
발표자 후기
금일 세미나를 준비하면서 많은 생각이 들었다. 우선 연구실에서 인턴을 시작하면서 레이블링을 진행했던 것이 생각났다. 레이블링을 진행하면서 이를 모델로 대체할 수 없을까라는 고민을 한 기억이 있어 피식 웃음을 지었다. 이미지 분할 모형 데이터셋 생성부터 시작하여 이미지 분할 모형에 대한 연구, Weakly Supervised Semantic Segmentation 연구까지 관심을 가질 수 있었다. 연구실 생활 전반을 되돌아 볼 수 있게 해준 감사한 세미나이다. 다음으로 세미나를 준비하면서 많은 논문을 읽었고 'CNN 모형이 어떻게 객체를 똑바로 볼 수 있게 할까?'를 보며 이 분야에 대해 더 흥미가 생겼다. 세미나 준비하면서 읽은 논문들을 실제 구현하고 나만의 방법론을 만들고 싶다는 생각이 강해졌다. 또한 세미나를 녹화하여 YouTube를 이용해 HCAI/ DMQA 연구원들에게 링크를 제공하는 방식으로 진행되었다. 청중없이 노트북을 보며 녹화하니 청중들의 반응이 그리웠다. 하루 빨리 코로나가 종식되었으면 좋겠다. 마지막으로 Weakly Supervision에 대해 이미지에서만 적용할 수 있을까라는 궁금증이 생겼다. 텍스트 분야나 센서 데이터를 다루는 분야에서 Weakly supervision과 유사한 연구가 있을지 찾아보아야 겠다.
청취자 후기
이번주 세미나는 용원이형이 ‘Introduction to Weakly Supervised Semantic Segmentation’이라는 주제로 진행하였다. 컴퓨터 비전에는 여러가지 문제들이 존재하는데 이번 세미나에서는 이미지 분류와 이미지 분할에 관련된 알고리즘을 설명해 주었다. 이미지 분류는 이미지 내 탐지하고자 하는 범주 중 어떤 범주가 있는지 예측해주는 문제이고 이미지 분할은 이미지 내 특정 영역이 탐지하고자 하는 범주 중 어느 범주에 속하는지 예측하는 문제이다. 이미지 분할은 픽셀 별로 탐지하고자 하는 범주가 입력된 출력 변수가 필요하다. 하지만 이미지 분할을 하기 위해서 많은 데이터 셋이 필요한데 데이터 셋 구축에 어려움이 존재한다. 이러한 어려움을 해결하기 위해 Weakly Supervised Semantic Segmentation(WSSS)이 등장하게 되었다. WSSS에 여러가지 방법이 존재하는데 그 중 하나는 범주와 위치를 이용한 알고리즘이다. 범주가 위치하고 있는 모든 픽셀은 특정 범주에 속하는 픽셀로 간주하게 되며 학습을 진행하게 되는데 1회 학습 후 예측 결과를 뽑게 되고 이를 정답과 비교하여 상자가 작은 것을 선택하게 된다. 또한 범주를 이용한 알고리즘도 존재하는데 이는 Multi-label Classification과 Grad-CAM을 사용한다. Multi-label Classification을 통해 이미지 내에 탐지하고자 하는 여러 개의 범주가 있는지 학습을 하고 이렇게 학습된 모형을 가지고 Grad-CAM을 통해 범주가 대략적으로 어디에 위치해 있는지 찾게 된다. Grad-CAM을 통해 범주가 어디에 위치하는지 대략적으로 알고있지만 범주의 경계선을 표시할 수는 없다. 이런 경계선을 찾아주는 알고리즘은 Dense Conditional Random Field(Dense CRF)이다. Dense CRF에 들어가는 변수는 픽셀 별 확률 값과 이미지가 들어가게 되고 픽셀 별로 객체가 존재할 확률을 계산하게 된다. 픽셀 별 객체 존재 확률과 색상을 기준으로 객체의 경계를 찾아준다. 많은 내용을 발표했음에도 불구하고 자세한 자료와 이해하기 쉬운 발표를 진행해준 용원이형에게 감사하다는 말을 전하고 싶다.
금일 세미나는 “Introduction to Weakly Supervised Semantic Segmentation”에 대한 주제로 용원이가 발표했다. Weakly Supervised Semantic Segmentation은 입력 이미지에 해당하는 정답 이미지 데이터 셋을 구축하는 어려움을 덜고자 하는 연구 분야 중 하나이다. Semantic Segmentation은 이미지 내에 존재하는 객체들을 픽셀 단위로 레이블링하여 정답 이미지를 구성한다. 하지만 이 작업은 사람마다 오차가 있고 많은 인력과 시간, 비용이 필요하다는 단점이 존재한다. 이러한 문제를 해결하기 위해 지난 연구들은 Class Activation Map (CAM) 기법을 적용하여 CAM 결과로부터 입력 이미지에 해당하는 정답 이미지를 생성하도록 했다. 최근 연구들은 핫한 분야인 self-supervised learning을 접목시켜 레이블링 성능을 향상시키는 연구들이 나오고 있다. self-supervised learning에는 다양한 pretext task가 존재하는데 레이블링 하고자 하는 데이터에 여러 self-supervised learning을 적용하여 결과를 비교해보는 것도 연구하는데 있어 인사이트를 얻을 것 수 있을 것 같다.
오늘 세미나는 "Introduction to Weakly Supervised Semantic Segmentation"이라는 주제로 진행되었습니다. Semantic segmentation은 이미지의 어느 부분에 객체가 존재하는지에 대해 예측하는 문제입니다. 이미지의 픽셀별로 배경인지 혹은 객체인지 예측을 하게 되고 모든 픽셀에 대해 예측하게 되면 이미지 전체에서 어느 부분에 객체가 존재하는지에 대해 알 수 있게 됩니다. Segmentation 모델을 학습하기 위해서는 이미지에 대한 레이블이 존재해야 하는데 레이블링을 하는 데에 시간이 많이 소요되며 레이블링을 하는 사람에 따라서 결과물의 차이가 발생할 수도 있습니다. 따라서 segmentation의 데이터셋을 구축할 때 모델을 통해서 레이블링하고자 하는 시도가 현재 연구되고 있으며 해당 연구 중 하나인 weakly supervised semantic segmentation에 대해서 이번 세미나에서 소개되었습니다. 첫 번째 방법론은 이미지의 범주와 위치에 대한 정보를 줬을 때입니다. 모델에 이미지의 범주와 위치에 대한 정보를 주고 모델이 예측해 나가는 segmentation map을 다음 epoch의 정답으로 교체하는 방식을 통해 학습해 나가게 됩니다. 기존의 디테일한 segmentation label 대신 범주와 위치에 대한 정보만으로 segmentation map을 만들어나가기 때문에 레이블링에 필요한 비용이 훨씬 줄어들게 됩니다. 두 번째 방법론은 범주에 대한 정보를 줬을 때입니다. 이미지의 범주를 예측하는 모델을 학습한 후 Grad-CAM을 통해서 이미지의 어느 부분을 보고 범주를 예측했는지에 대한 이미지를 생성합니다. Grad-CAM을 통해 생성된 이미지와 기존의 이미지를 Dense CRF라는 기법을 통해서 후처리를 진행하게 되면 segmentation map을 생성해낼 수 있게 됩니다. 세미나의 마지막 부분에서는 weakly supervised semantic segmentation의 연구 트렌드에 관해 소개되었습니다. 이미지의 범주를 예측하는 모델에서 어느 부분을 보고 예측했는지에 대해 알 수 있는 CAM이라는 알고리즘은 이미지의 크기가 달라짐에 따라 결과가 바뀌게 된다는 단점이 있었습니다. 기존의 CAM을 자가학습을 통해 성능을 올리게 되면 기존의 단점을 보완하면서 segmentation에서도 좋은 성능을 얻을 수 있게 됩니다. 이번 세미나를 통해서 weakly supervised semantic segmentation에 대해 알게 되었으며 자가학습과 결합한 최근의 연구 트렌드 까지 살펴볼 수 있었습니다. 코로나의 여파로 갑작스럽게 온라인으로 바뀌었음에도 불구하고 열심히 세미나를 준비해준 용원이형에게 감사의 뜻을 표하며 세미나 후기 마무리하겠습니다.
Segmentation 분야는 단순한 classification 과 다르게 픽셀별 클래스에 대한 범주를 모두 레이블링 해야하기 때문에, 잘 레이블링된 대량의 데이터 셋을 구성하기란 쉽지 않다. COCO 나 Pascal VOC 같이 오픈 소스 데이터가 아니라, 특정 태스크에 대한 데이터셋의 Segmentation labeling을 진행한다면 상당히 많은 시간이 소모된다. 그렇다면 단순히 class label만 혹은 bounding box만 가지고 모델이 segmentation 할 수는 없을까? 라는 아이디어에서 나온 것이 오늘 세미나 주제인 Weakly Supervised Semantic Segmentation이다.
단순히 class label만 주어 classification을 수행한후, 모델이 어느 부분을 보고 이러한 클래스가 있다는 것을 예측했는가를 Grad CAM으로 추출한뒤, Dense CRF를 통해 pixelwise label을 예측한다. 혹은 class label과 bounding box를 주어, 모델이 segmentation을 한 예측값과 bbox 중 작은 것으로 label을 교체해가는 방식이 존재한다.
용원이형의 예전 프로젝트를 도와주기 위해 Segmentation labeling을 진행한 적이 있다. Segmentation labeling은 하나하나 하는데 시간이 오래 걸릴 뿐 아니라, 클래스가 많을 경우는 더욱 소요시간이 오래걸리며, 사람마다 판단하기 모호한 클래스 같은 경우 레이블링으로 인한 에러가 발생할 수도 있다. 나또한, 최근 3D 의료 데이터 사진으로부터 Segmentation을 해본적이 있지만, 3D의 경우는 일일이 픽셀별로 Segmentation이 되어있지 않은 경우가 허다하다.
실제 레이블링한것과 비교해보았을 때 Weakly Supervised Semantic Segmentation의 성능이 나오지 못하는 것은 당연하다. 하지만 데이터 레이블링 없이도 모델이 객체의 위치를 잘 찾아낼수 있다는 것을 입증한 연구라 의의가 크다고 볼수 있다.
코로나 사태의 장기화와 악화로 인해 이번 세미나는 Youtube 녹화영상으로 진행되었다. PPT 준비 뿐 아니라 처음 진행하는 녹화 방식이라 어려움이 많았을텐데, 고생하신 용원이형께 감사의 말씀을 드리고 싶다.
이번 세미나는 용원이가 Weakly Supervised Semantic Segmentation(WSSS)이라는 주제로 발표하였다. 최근 테슬라 자율주행 차량의 오작동 사례가 한동안 뉴스에 많이 나왔었다. 지난 몇년간 이미지 세그멘테이션 분할을 수행하는 딥러닝 모델들이 많이 발전해왔지만 결국 모델이 학습하는 데이터에 문제가 있다면 (레이블링, 데이터 수, 새로운 유형의 데이터 등) 언제든 자율주행 차량에서 사고가 날 확률은 존재할 수 있다. 결론적으로 모델 구조만큼이나 데이터가 중요한데, 지도학습에 요구되는 데이터를 확보하는 일(특히 픽셀 단위에 레이블이 요구되는 이미지 세그멘테이션에서는)은 매우 비용이 많이 든다. 금일 용원이가 소개해준 WSSS 방법론은 Multi-label classification 모델에 Grad-CAM을 이용하여 픽셀별 확률값을 생성하고 이를 Dense CRF 알고리즘에 입력변수로 사용한다. 알고리즘은 픽셀별 객체 존재 확률과 색상을 기준으로 객체의 바운더리를 탐색하게 된다. 최근에는 self-supervised learning을 적용하여 WSSS를 해결하는 방법이 연구가 되고 있고, 시각화 결과를 보면 유의미한 성능을 보이는 것을 확인할 수 있었다.
용원이가 세미나를 성의있게 잘 준비해서 쉽게 이해할 수 있었고, 특히 수식 관련한 부분도 하나하나 잘 짚어주면서 설명해주어 연구자들이 아이디어를 알고리즘으로 어떻게 구현했는지 설명해준 부분이 좋았다. 좋은 세미나를 진행해준 용원이에게 감사하다는 말을 전한다.
이번 세미나의 주제는 Introduction to Weakly Supervised Semantic Segmentation이라는 주제로 용원이형이 발표를 진행하였다. WSSS(Weakly Supervised Semantic Segmentation)는 적은 정보를 가지고 Semantic Segmentation을 하는 것을 말한다. 예를 들어 비행기 사진이 있다고 할 때, 일반적인 경우에는 사진에서 label 데이터로서 비행기를 나타내는 Mask 데이터가 있기 마련이다. 하지만 여기서 작은(Weakly) 정보라 함은 label데이터가 그냥 ‘airplane’이라는 범주만 주어진 경우 또는 비행기에 대해서 Bounding-Box만 그려져 있는 경우라고 볼 수 있다. 만일 범주만 주어진 경우라면 먼저 Grad-CAM을 사용한다. Grad-CAM은 범주를 분류하는 데에 있어 픽셀 별 중요도를 계산해주기 때문에 범주의 위치를 어느 정도 파악할 수 있게 해준다. 하지만 찾고자하는 객체의 세밀한 위치를 파악하는 것은 아니기 때문에 Dense CRF를 통해서 각각의 객체들의 경계선을 찾아주도록 한다. 이 때 입력값으로는 Grad-CAM으로 계산한 픽셀 별 확률 값과 이미지가 들어가게 된다. 이를 통해서 각 객체 별로 배경과 해당 객체를 구분해주는 Mask를 출력한다. 한편 Bounding-Box만 주어진 경우에는 먼저 각각의 Bounding-Box에 내의 모든 픽셀은 해당하는 label에 관련된 픽셀이라고 가정을 하고 이를 정답 이미지로 둔다. 이후에 매 에폭마다 좀 더 작은 범위의 픽셀들로 예측한 것을 좀 더 정확한 정답 이미지라 가정하여 교체한다. 이를 반복함으로써 객체에 대한 Mask를 출력하게 된다. 이번 주에 코로나가 다시 크게 확산되면서 세미나를 갑작스럽게 온라인으로 전환하게 되었음에도 발표 내용과 영상 녹화까지 열심히 세미나를 진행해주신 용원이형에게 감사하다는 말씀을 전하고 싶다.
오늘 용원이가 "Weakly supervised semantic segmentation"에 대해 소개해주었다. 먼저 용어를 살펴보면 semantic segmentation은 이미지 내 객체가 어디에 위치했는지 Pixel별로 예측하는 문제다. "supervised"라는 용어가 함께 사용된 이유는 Pixel별 정답(Y)이 부여된 경우에 semantic segmentation를 수행한다는 의미로 그 Pixel별 정답(Y)을 부여하는 데 높은 시간 비용을 해소하기 위해 조금 더 큰 수준에서 정답을 부여하는 게 "weakly supervision" 방법이다. Pixel별 정답(Y)을 보다 넓은 범위로 정답을 지정하기 위해 (1) 이미지 단위로 어떤 객체가 존재하는 지 범주형 정답을 부여하는 방법, (2) 이미지별 범주와 위치정보를 포함하는 Bounding box로 표현하는 방법이 있다. 예를 들어, 이미지별 범주형태로 정답이 부여된 상황(1)에서 semantic segmentation을 수행하기 위해선 모델이 특정 범주를 예측한 데 가장 집중적으로 반영했던 Pixel 들이 무엇인지 그 중요도를 강조하는 방법(Grad-CAM 등)이 있다. 여기까지 수행되면 이미지 내 정답에 대한 강조된 Pixel들이 도출될텐데 객체라는 건 서로 가까운 중요 Pixel들에 정답을 부여하는 DenseCRF 방법을 적용해 Pixel별 정답을 결정짓는 방법이 있다.
개인적으로 이미지 형태로 디자인된 센서데이터를 CNN 기반 중요위치강조를 연구 중이다. 실험이 진행될 때마다 강조하는 위치가 조금씩 다른 문제가 있었는데 DenseCRF를 적용한다면 좀 더 일관된 결과를 도출할 수 있을 것으로 생각한다. 오늘 세미나는 이미지 분석에서 가장 널리 사용되는 semantic segmentation 문제를 다루기 위해 기초적인 개념부터 확장된 방법론까지 살펴볼 수 있는 세미나였다. 아울러 언택트(untact) 시대가 앞당긴 온택트(ontact) 시대에 맞추어 YouTube로 진행된 첫 연구실 세미나였다. 오프라인보다 더 준비하기 까다로웠을 텐데 잘 준비해준 용원이에게 고마운 마음 전한다.
이번 세미나는 “Introduction to Weakly Supervised Semantic Segmentation”을 주제로 진행되었다. Weakly Supervised Semantic Segmentation(WSSS)이라는 분야와 그 분야에서 활용되는 많은 방법론들에 대하여 설명을 해주셔서 쉽게 이해할 수 있었다. 이미지 분할(Image Segmentation) 분야에서는 각 이미지 내의 픽셀이 어느 범주에 속하고 있는지를 알려주는 출력 변수가 필요하지만, 이러한 데이터를 구축하는 것은 굉장히 많은 시간과 비용이 들게 된다. 복잡한 데이터의 생성을 CNN 알고리즘을 활용하여 진행하는 것이 WSSS 분야의 목적이다. WSSS 분야 내에는 다양한 알고리즘들이 존재한다. 우선 범주와 위치를 활용하여 모델이 segmentation map을 그리게 될 경우, 한 epoch의 결과물을 다음 epoch의 정답 이미지로 교체하여 진행하는 방법이 있다. 또한, 범주 정보만을 활용하여 이미지 분류 모형을 활용한 segmentation map을 생성하는 방식도 있다. 해당 방법을 사용할 때에는, 각 범주를 예측할 때 어느 부분을 집중적으로 보고 범주의 정답을 확인하였는지 예측의 원인을 파악하고자 Grad-CAM 알고리즘을 활용한다. 또한, 더욱 나아가 Dense Conditional Random Field (Dense CRF) 방법론을 통하여, 픽셀별 확률 값과 이미지를 입력하였을 때 각 객체의 경계면을 탐색하여 더욱 명확하게 특정 객체의 위치를 파악할 수 있다. 이 외에도 WSSS 분야의 핫한 트렌드인 Self-Supervised Learning을 활용하는 여러 아이디어들에 대해서도 간략하게 설명해주셔서 현재 발전 방향에 대하여도 알아볼 수 있는 기회가 되었다. 이번 세미나를 통하여 공부한 여러 방법론들의 아이디어가 다른 분야에서도 잘 활용할 수 있지 않을까라는 궁금증이 생겨 이에 대하여 찾아보고 적용하고 싶다는 생각이 들었다. Weakly Supervised Semantic Segmentation이라는 분야에 대하여, 그리고 그 분야 내에서의 다양한 알고리즘들과 그 발전 과정부터 최신 트렌드까지 다양하게 들을 수 있는 유익한 세미나였다.
이전에 투입 되었던 프로젝트 중 Instance Segmentation 결과를 얻기 위해 Mask-RCNN 모델을 활용했었기 때문에 이번 조용원 연구원님 세미나 주제인 Weakly Supervised Semantic Segmentation을 좀더 흥미롭게 들을 수 있었던 것 같습니다. 세미나 초입에 말씀하셨던 것처럼 해당 프로젝트 진행 시에도 Segmentation 정답지 셋을 만들기 위해 많은 인력 투입에 대한 이슈가 있었습니다. Weakly Supervised Semantic Segmention이 해당 이슈에 대한 해결책이 되어줄 수 있을 것같아 더 주의 깊게 들을 수 있었습니다.
기존의 컴퓨터 비전 알고리즘 대부분이 이웃한 픽셀 들의 차이 값을 계산하여 그 안에 범주를 정하고 탐색하는 방식들이 많은데 이번 세미나의 주제도 이를 기반으로 진행되지 않을까 짐작하며 들었습니다. 세미나에서 나온 첫 번째 방법론은 범주와 위치 기반, 두 번째 방법론은 범주 기반으로 구성되어있는데 이중 두 번째 방법론이 제게는 좀더 와 닿았던 것같습니다. Grad-CAM 과 Dense CRF로 구성된 두 번째 방법론은 이미지의 어떤 부분을 보고 예측을 했는지 먼저 맵을 뽑은 다음, 이에 대해 후처리 Dense CRF를 적용시켜 MIOU 수치 역시 높일 수 있었습니다. 사내에서 프로젝트를 진행할 땐 MIOU 수치를 무엇보다 중요하게 보는 경향이 있어서 수치를 중점적으로 보게 되었습니다.
최근 트렌드인 자가학습의 내용까지 정리해주셔서 좀더 넓게 생각해볼 수 있는 기회가 되었습니다. 감사합니다.
오늘은 용원오빠가 ‘Introduction to weakly supervised semantic segmentation’이라는 주제로 세미나를 진행해주었다. 이미지를 활용한 연구는 image classification에서부터 image localization, object detection, image segmentation으로 확장되며 점차 복잡하고 세분화된 target을 예측하도록 발전되어왔다. 하지만, image segmentation과 같이 상대적으로 복잡하다고 알려진 문제상황을 실생활에 적용시키기 위한 양적/질적으로 충분한 데이터셋이 부족한 것이 한계점이며 이들을 레이블링하기 위해서는 많은 비용을 필요로 하기 때문에 데이터 구축 또한 어려운 실정이다. 따라서 상대적으로 적은 정보로 semantic segmentation을 할 수 있는 모델이 제안되어오고 있으며, 오늘 소개된 WSSS연구 또한 이를 목표로 한다. 여기서 적은 정보라는 것은 우리가 흔히 아는 class정보이며, 이는 픽셀별 위치정보가 고려된 semantic segmentation label에 비해 굉장히 적은 정보라 할 수 있다. class정보를 알고리즘을 통해 segmentation을 수행하기 위해 추가적으로 도입된 기능은 모델이 분류를 수행하는 과정에서 주요하게 반영한 pixel을 찾는 것으로 CAM기반 알고리즘 등이 이러한 역할을 수행한다. Grad-CAM알고리즘은 아무래도 feature extraction과정으로 인해 우리가 기대하는 segmentation결과와는 달리 주변부와 뭉개진 smooth한 결과가 도출된다. 이러한 부분을 좀더 보정하고, 위치 및 색상에 대한 제약을 부여하기 위해 Grad-CAM으로부터 도출된 확률과 원본 이미지를 함께 사용하는 Dense CRF방법을 적용한다. 이때 유사한 위치의 픽셀은 같은 범주에 속하도록, 유사 색상의 픽셀은 같은 범주에 속하도록 loss function을 구성함으로써 segmentation과 같은 결과를 도출할 수 있다. 평소 weakly supervised연구가 궁금했었는데, 개괄적으로 잘 설명해주어 쉽게 이해할 수 있었다. 예전 텍스트 관련 프로젝트를 하면서 CRF개념을 공부한 적이 있는데, 의미적으로 어떠한 연관성을 갖는지 다시한번 살펴보고 싶었다. 오늘 세미나를 진행해준 용원오빠에게 감사하다는 말로 세미나 후기를 마친다.
금일 세미나는 용원이형이 "Introduction to Weakly Supervised Semantic Segmentation"이라는 주제로 진행해주었다. 우선 주제 제목에서 살펴볼 수 있듯이 Semantic Segmentation은 사진 내 픽셀 별로 클래스를 분류하고자 하는 것이고, Weakly Supervised는 Segmentation을 수행하기 위한 데이터를 수집하는데 너무 많은 비용과 시간, 노력이 필요하기 때문에 적은 정보만을 이용해서 문제를 풀어나간다고 이해할 수 있었다. 세미나는 이미지 분류 및 분할에 대한 기본적인 이론부터 이미지 분할 문제를 풀기 위한 데이터 셋 구축의 어려움, WSSS(Weakly Supervised Semantic Segmentation)의 연구 목적 및 이론으로 체계적인 순서로 진행되었다. 개인적으로 Weakly supervision의 유형을 범주와 위치를 알고 있을 때, 범주만 알고 있을 때로 나누어 각각 어떠한 방식으로 학습이 되는지 시각화 자료와 자세한 설명을 통해서 알 수 있어서 좋았다. 범주와 위치 전부 알고 있을 경우에는 Feature를 추출하기 위한 Encoder 블록과 분류기 역할을 해주는 Decoder 블록을 학습하며 실제 정답과 예측 결과를 비교하며 학습을 진행하는 반면, 범주만 아는 경우에는 입력 이미지로부터 Feature를 추출하는 Encoder 블록만 이용해 Encoder의 output을 NN의 입력으로 들어가 예측 원인을 이용할 수 있는 알고리즘을 함께 이용해서 최종적으로 정답을 출력한다고 한다. 평소에 Grad-CAM과 Attention이 어떠한 차이점이 있는지 알아보고 싶었는데 세미나에서 Grad-CAM의 작동 원리에 대해서 자세하게 설명해주어 평소 궁금했던 점이 해결되었다. 더 나아가서 Grad-CAM의 결과를 이용해 특정 객체의 위치를 파악할 수 있도록 해준다는 것이 인상 깊었다. 이는 단순히 Grad-CAM을 모델이 특정 입력값을 출력값으로 예측하는 과정에서 어떠한 부분에 초점을 두었다는 해석 관점의 수준에 넘어서서 이러한 정보를 학습에 이용할 수 있다는 것이 놀라웠다. 오늘도 흥미로운 주제를 청취자들이 이해하기 쉽게 세미나를 준비해준 용원이형에게 감사하다고 전하고 싶다.
이번 세미나는 용원오빠가 “Introduction to Weakly Supervised Semantic Segmentation” 주제로 진행하여 주셨다. 이미지 분할 (Image segmentation)문제를 풀기위해 픽셀 별로 탐지하고자 하는 범주의 레이블링이 필요하다. 사람이 직접 레이블링 작업을 해야 하기 때문에 비용, 시간, 이미지 이해의 차이 등 다양한 문제가 존재한다. 이러한 문제를 최소화하기 위해 Weakly Supervised Semantic Segmentation(WSSS)분야가 연구되고 있다. WSSS는 크게 범주와 위치 정보(1)를 가지고 학습하는 방식과 범주 정보(2)만 가지고 학습하는 방식으로 구분된다. (2) 방식을 자세히 살펴보면 다음과 같다. 우선, 이미지의 특징을 잘 추출하는 Encoder 부분만 사용하여 범주를 구분하고 예측 원인을 파악(Grad-CAM)한다. Grad-CAM을 통해서 특정 객체의 위치를 파악할 수 있지만, 객체가 존재하는 영역의 경계선을 찾을 수 없다. 따라서, 기존 input 이미지와 Grad-CAM의 output 이미지를 Dense Conditional Random Field 알고리즘에 입력하여 Segmentation map 결과를 출력한다. 비지도 학습 쪽이 최근에 많이 연구되고 있어 공부해보고 싶은 분야였는데 이번 세미나를 통해 weakly supervised관련 연구를 접하게 되어 연구 시작에 좋은 발판이 되는 세미나였다. 이미지를 활용한 컴퓨터 비젼 문제에 대한 기초적인 설명부터 최근 WSSS의 트렌드까지 말끔한 설명을 통해 유익한 세미나를 준비해준 용원오빠께 감사의 말 전하고 싶다.
금주는 Weakly supervised semantic segmentation을 주제로 세미나가 진행되었다. 코로나가 갑자기 다시 유행하고 있어 금주 세미나는 온라인으로 진행이 되었다. 세미나는 Weakly supervised semantic segmentation을 시작으로 Grad-CAM, Dense Conditional random field(Dense CRF)에 대한 설명이 이어졌다. 그리고 마지막으로 최신 Weakly supervised semantic segmentation에 대한 연구 핵심 포인트들이 설명되었다. Weakly supervised semantic segmentation에 종류로 2가지가 설명되었다. 첫번째는 범주와 위치 정보를 모두 활용하여 예측한 결과를 다시 정답 이미지로 활용해 예측을 진행하는 방식이고 두번째는 입력 이미지 내 존재하는 범주 정보만을 활용하여 예측 모델을 구축한 뒤 그 예측 원인을 파악하는 방식이다. Grad-CAM에서는 한가지 사례를 통해서 Grad-CAM이 계산되는 방식을 설명했는데 개인적으로 이부분이 이해가 잘되어 좋았다. Dense-CRF는 Grad-CAM을 사용해 feature 내 pixel별 객체 존재 확률을 구하고 색상을 기준으로 객체의 경계면 가장자리를 탐색한다. 그리고 이렇게 진행될 때 색상이 유사하더라도 거리가 먼 pixel에 대해서는 동일한 범주로 판단하지 않는다. 그리고 마지막에는 pixel별로 가장 확률이 큰 범주를 최종 범주로 할당하게 된다. 마지막으로 이런 방법론에 관련된 최신 연구들이 소개되었다. 이미지 크기에 따라 달라지는 CAM 결과를 특정 공간에 Mapping한 이후 이 정보를 활용하여 자가 학습을 진행하는 방식과 기존 Label과 기존 입력 이미지에서 추출된 특징을 군집하여 새롭게 레이블을 형성한 2가지 결과물을 활용해 모델을 학습시키는 방식이 소개되었다. 이번 세미나는 Weakly supervised semantic segmentation에 대해 전반적인 흐름을 알 수 있어서 좋았다. 그리고 현실적인 데이터 문제인 양질에 Label을 얻기 위한 연구에 대해 들을 수 있어서 좋았다. 온라인임에도 최선을 다해 준비해준 용원이에게 수고했다고 말하고 싶다.
오늘 세미나는 ‘Introduction to Weakly Supervised Semantic Segmentation’이라는 주제로 조용원 연구원님이 진행해 주셨다. CNN의 탄생 이후 컴퓨터의 이미지 인식 능력은 기하급수적으로 높아졌다. 최초의 이미지 인식 능력이 한 장의 이미지를 가지고 강아지와 고양이 정도를 분류하는 정도에 그쳤다면, 이제는 한장의 이미지 안에 어떠한 것들이 있고 어느 위치에 있음의 정도를 Pixel 단위까지 예측하는 수준까지 이르렀다. 경우에 따라서는 이제 인간보다 문제에서는 훨씬 높은 정확도와 속도를 자량한다. 이러한 컴퓨터의 이미지 인식은 절대적으로 학습 데이터의 수량과 품질에 의존한다. 과거 고양이와 강아지를 구분하던 분류 문제에서의 데이터는 단 2개의 정답 레이블을 갖는 학습 데이터가 필요했다. 따라서 이러한 분류 모델을 구축하기 위해서 필요한 리소스는 무시할 수 있는 정도였다. 하지만, 픽셀단위를 분류 해야 하는 문제일 경우 정답 레이블을 맞추기 위한 노력이 엄청나게 추가 된다. 특히 의료 데이터와 같은 경우 일반인들은 레이블을 만들 수 조차 없기 때문에 정답 레이블을 만들기 위해 필요한 노력과 비용은 천문학적으로 높아질 수 있다. 따라서 최근에는 이러한 정답 레이블을 AI를 사용하여 만들기 위한 연구가 이미지 연구의 핵심 분야로 대두되었는데 이를 예시를 들어 잘 설명하여 이해하기 너무 수월하였다. 세미나는 짧았지만 이러한 이미지 연구의 히스토리와 작동 방식 그리고 현재 화두가 되고 있는 연구영역까지 총 망라한 정말 훌륭한 세미나였다는 생각이 든다. 특히 코로나라는 특수한 상황에서 연구원님의 노력에 의해 녹화된 동영상으로 제공되어 놓쳤던 부분을 다시 볼 수 있고 추후에도 다시 볼 수 있다는 점에서 150% 만족을 주는 멋진 세미나였다. 훌륭한 자료와 발표를 해준 조용원 연구원님께 감사의 말을 전하고 싶다.
이번 세미나는 weakly supervised semantic segmentationㄹ 주제로 진행되었다. 급작스러운 코로나 확산으로 인해 인터넷을 통해 진행했지만 발표자가 좋은 흐름과 내용으로 구성을 해주어서 이해하는데 무리가 없었다. Semantic segmentation이란 이미지에서 픽셀별로 클래스를 할당하는 작업이다. 일반적인 이미지 분류와는 달리 모든 픽셀별로 분류를 해야한다는 점에서 훨씬 난이도가 높다. 더군다나 픽셀별 클래스정보를 실질적으로 얻기가 매우 힘들고 비용이 많이 든다는 단점이 있다. 이러한 이유로 인해 상대적으로 작은 정보로 segmentation을 수행하려는 연구가 weakly supervised semantic segmentation이며 이 분야에는 여러가지 방향으로 시도가 되고 있다. 1) 픽셀별 레이블 대신 위치 (box)를 지정하여 단계적으로 경계선을 찾아가는 방법 2) 이미지별 클래스정보를 기반으로 분류모형을 만든 후 segmentation map을 생성하는 방법이 대표적이다. 이번 세미나에서는 2)를 중점적으로 설명을 했으며 Dense Conditional Random Field (Dense CRF)를 이들 중 대표적인 방법론으로 간단하게 리뷰를 했다. 원본 이미지와 Grad-CAM을 동시에 사용하는 방법으로 유사한 위치 or 색상의 픽셀은 같은 범주에 속하도록 loss function을 디자인했다. 또한 최근 연구의 트렌드까지 소개함으로써 유익한 정보를 얻을 수 있었다.
Semantic Segmentation 모델을 학습시키기 위해선 아주 다량의 이미지와 더불어 픽셀 단위로 레이블된 타겟값이 필요하다. Weakly Supervised Semantic Segmentation(WSSS)에서는 픽셀이 아닌 이미지 단위의 멀티 레이블로 Image Classification 모델을 학습한 후, Class Activation Map을 활용하여 입력 이미지 내 각 범주의 logit 값을 최대화하는 영역을 찾아낸다. CAM (혹은 Grad-CAM)로 추출된 이 영역의 경계면은 태생적으로 울퉁불퉁하고 불명확한데, 이를 보정하기 위해 Dense Conditional Random Field를 이용한다. 최근에는 self-supervised learning을 이용하여 모델 CAM 기반의 WWWS 연구를 개선시키는 연구도 등장하는데, 아이디어가 직관적이고 확장 가능성도 많아 좋은 연구 주제라고 생각된다. 정면으로 컴퓨터 비전 연구에 도전하는 용원이가 앞으로도 좋은 연구를 많이 했으면 좋겠다.
이미지 분할(Image Segmentation) 문제의 데이터 셋 구축을 위해서는 픽셀 단위의 Labeling 작업이 필요하고, 이는 많은 시간과 비용을 수반한다. 본 세미나에서는 이러한 문제를 해결하기 위한 방법 중 하나인 Weakly Supervised Sementic Segmentation(WSSS)에 대한 연구를 소개하고 있다. WSSS은 비교적 적은 정보로 Semantic Segmentation을 수행할 수 있는 방법으로, 이를 위한 두 가지 접근법이 제시되었다. 첫 번째 접근법에서는 이미지의 범주와 위치 정보가 주어진다. 모델은 예측값과 기존 정답 상자를 비교하여 크기가 작은 것을 새로운 정답으로 채택하고, 해당 과정을 반복함으로써 Semantic Segmentation을 수행할 수 있다. 두 번째 접근법에서는 범주에 대한 정보만이 주어진다. 먼저 Multi-label Classification을 통해 이미지에 어떤 범주가 존재하는지를 예측하고, Grad-CAM을 통해 Multi-label Classification 모형의 원인 지역을 분석한다. 그러나 Grad-CAM의 결과로는 범주의 대략적인 위치만 파악할 수 있기 때문에, 객체의 경계선을 예측하기 위해 Dense-CRF를 사용한다. Dense-CRF는 원본 이미지와 Grad-CAM을 통해 생성된 픽셀별 확률값을 입력 변수로 사용한다. 픽셀의 색상 및 픽셀간 거리를 기준으로 객체의 경계를 탐색하고, 최종적으로 각 필셀에 범주를 할당함으로써 Semantic Segmentation을 수행할 수 있도록 한다. 명료한 설명과 구체적인 예시를 통해 WSSS에 대한 전반적인 이해도를 증진시킬 수 있었고, 자가학습의 분야의 최신 트렌드까지 파악할 수 있어 매우 유익한 세미나였다.
최근 모델 간 공정한 비교를 위해서 벤치마크 데이터셋에 대한 구축이 늘어나고 있지만, 성능이 더 좋은 모델을 훈련시키기 위해서는 제공된(벤치마크) 데이터 셋 이외의 훈련 데이터가 많이 필요하며 , 나아가 실제 application에서 쓰이기 위해서는 해당 도메인 데이터로 재훈련을 해야한다. 즉, 아무리 benchmark에서 잘 나온 모델이더라도 실제 application 상황에서 어떻게 모델에 학습데이터를 수급할 것인지는 머신러닝의 도메인에 상관없이 공유하는 핵심 문제다. 컴퓨터 비전 분야의 예를 들자면, Image segmentation 모델의 레이블은 '픽셀' 단위로서 학습데이터 셋 구축이 일반적인 이미지 분류보다 수고가 많이 들기 때문에 이렇게 부족할 수 밖에 없는 레이블 데이터를 보충하기 위해 segmentation 후보 위치에 대한 prior를 상대적으로 얻기 쉬운 bounding box로서 수급하거나, 2) Grad-CAM 기반 이미지 분류 모형의 Heat-map을 사용하는 등의 방법을 사용하게 된다. Bounding box로 간접적으로 접근하는 첫번째 방식도 참신했지만, Grad-CAM을 최종결과물로서 사용하지 않고 Segmentation을 위한 hint로 재응용하는 부분이 매우 인상적이었다. 컴퓨터 비전의 기초부터 해서 WWWS, 나아가 최근 트렌드까지 필요한 부분을 잘 집어서 설명해준 용원이형의 발표로부터 많이 배워간다.
이번 세미나는 용원이가 "Weakly supervised semantic segmentation"라는 주제로 코로나때문에 온라인 세미나를 유투브 플랫폼에서 진행하었다. Weakly supervised semantic segmentation을 위해 Grad-Cam과 Dense Contiional random filed대한 2개의 논문을 집중적으로 다루었고 마지막에도 최신 트렌드까지 잡아주었다. 이전 인성이가 잘 발표해준 Grad Cam에 더 나아가서 뭔가 새롭고 막강한 연구의 초석이 되는 게 참 멋지다 싶었고 또한 개인적으로 리마인드가 되어서 좋았고 Grad-cam의 선행 연구의 결과를 활용하여 다시 근처의 위치 그리고 유사한 픽셀의 RGB값을 보고 영역을 재조명을 하여 더 정확한 결과를 얻어내었다. 이미지에 대한 분류한 결과를 Grad-Cam읠 결과와 확실히 우위의 성능을 보여주었고 특히 인간의 눈에서 잡기 어려운 버스안의 사람을 잡기까지하는 걸 보고 참 대단하다 생각했다. 간단 명료한 설명과 깔끔한 정리된 슬라이드를 통해 WSSS에 대해 접반적인 이해를 시켜준 고마운 세미나였다.
이번주 세미나는 ‘Introduction to Weakly Supervised Semantic Segmentation’이라는 주제로 진행되었다. 컴퓨터 비전에서의 이미지 인식은 단일객체 대상으로 이미지 분류와 위치파악이 있고 다중 객체 대상으로 객체 탐지와 이미지 분할로 분야가 다양하게 존재한다. 그중 분할에서 분할 문제를 해결하기 위한 데이터 셋 구축이 어렵다.(ex. 탐지하고자 하는 범주가 적어서:주행도록, 장애물등) 그리하여 상대적으로 적은(작은) 정보로 Segmantic Segmentation을 수행하는것이 목표로 Weakly Supervised Semantic Segmentation(WSSS)가 연구되고 있다. 또한 Multi-label Classfication and Grad-CAM 이 있다. Multi-label Classfication은 다중 객체 존재 여부를 예측하는 것으로 확률값을 이용해 범주 별 존재여부를 예측하며 Grad-CAM으로 이미지 분류 모형 예측 결과에 대한 판단 근거를 제시하고 원인 분석 시각화 결과까지 보여주어 해당 결과에 대해 신뢰를 할 수 있다. 추가적으로 Dense Conditional Random Field(Dense CRF)를 소개해주었다. Grad-CAM으로 특정 객체의 경계선을 찾기 어렵기 때문에 Dense-CRF를 활용한다. Dense-CRF의 알고리즘의 입력 변수는 픽셀별 확률값(Grad-CAM으로 확률값 생성)과 이미지이다. 이를 활용하여 경계선을 찾는데 잘 설명을 해주어 이해가 잘 되었다. 이번 세미나는 Weakly supervised semantic segmentation에 대한 전반적 흐름을 알 수 있어서 좋았다. 온라인으로 들어도 훌륭한 용원이의 발표에 감사를 표한다.
이번 세미나의 주제는 “Introduction to Weakly Supervised Semantic Segmentation”로 용원이 형이 발표를 했습니다. 도입부에서 컴퓨터 비전, 이미지 분류, 이미지 분할에 대해 간략히 설명한 뒤, 정답 생성 과정에서 현재의 이미지 분할 문제 해결을 위한 데이터 셋 구축의 어려움을 말하며 Weakly Supervised Semantic Segmentation이 등장한 배경을 설명했습니다. Weakly Supervised Semantic Segmentation은 상대적으로 작은 정보를 통해 Semantic Segmentation을 수행하는 것이 목표였으며 일반적은 Semantic Segmentation의 정답 생성 과정과 Weakly Supervised Semantic Segmentation의 정답 생성 과정의 차이를 설명했습니다.
'Simple Does It: Weakly Supervised Instance and Semantic Segmentation'이라는 논문을 소개하며 정답 생성 과정에서 범주와 위치를 지정하는 알고리즘에 대해 쉽게 설명했습니다.
그 후, 'Gradient-weighted Class Activation Mapping'이라는 논문을 소개하며 Multi-label Classification과 Grad-CAM을 사용하여 이미지를 예측하는 알고리즘과 인공지능이 이미지의 어느 부분을 중요하게 생각하는지에 대한 부분을 설명했습니다. Grad-CAM만으로는 사물의 경계를 파악하기 힘들다는 단점이 있었고, 그 부분을 보완하기 위해서 'Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials'논문에서 소개된 Dense Conditional Random Field라는 방법을 소개했습니다. 이 방법으로 픽셀별로 객체의 존재 확률과 색상을 기준으로 객체의 경계면을 탐색할 수 있었고, 특히 픽셀간 거리가 멀 경우, 비슷한 색상을 가져도 같은 범주에 포함되지 않도록 하는게 흥미로웠습니다. 마지막으로 Weakly Supervised Semantic Segmentation의 트렌드인 자가학습을 소개하며 자가학습을 통해 더 정확한 결과를 얻을 수 있다는 것을 마지막으로 발표를 마무리 했습니다. 인턴으로 들어오고 첫 세미나를 온라인으로 진행해서 아쉬웠지만 시각 인공지능에서의 이슈와 새로운 알고리즘을 배울 수 있어서 좋았습니다. 갑작스럽게 온라인으로 바뀌었음에도 좋은 세미나를 해준 용원이형께 감사드리며 세미나 후기를 끝내겠습니다.
이번 세미나는 Weakly Supervised Semantic Segmentation 이라는 주제로 진행되었다. 기본적으로 Segmentation 모델을 학습시키기 위해서는 픽셀 단위의 label이 필요하다. 하지만 이러한 label을 만들기 위해서는 사람들의 시간과 노력이 많이 들어간다. 하지만 실제로 픽셀 단위의 labeling을 진행하다 보면 상당히 단순한 반복작업이라는 것을 알 수 있다. 그렇기 때문에 이러한 작업들을 하지 않거나, 최소화하기 위해 여러 방법들이 있다. 처음으로 소개한 논문은 grad-CAM이다. 이는 사진에 있는 물체의 이름만으로 학습시킨 모델에서 어떤 부분이 가장 중요한가에 대한 중요도를 구하는 방법이다. 즉 사진을 고양이라고 판단했다면, 그 판단의 근거가 되는 부분을 표시할 수 있다. 이부분을 활용하면 대략적으로 어떤 부분이 고양이인지에 대해 알수 있다. 그 다음으로 소개한 논문은 Dense conditional random field 이다. 대략적으로 어느 부분에 물체가 위치하는지를 파악하였지만 정확하지는 않기 때문에, 이를 위해 conditional random field라는 방법론을 사용했다. grad CAM을 이용해 생성된 확룔값으로 픽셀 단위로 어느 물체를 나타내는지 탐색을 하여 조금 더 정확하게 판단한다. CRF를 사용한 이유는 이미지라는 특성상 주변 픽셀과 연관되어있는 경우가 대부분이며, 이러한 것들을 고려할 수 있는 확률적 모델이기 때문이다.
모델을 학습시키기 위해 레이블링을 해주었지만, 이제는 모델에게 레이블을 시키려고 하고 있다. 이러한 과정은 사실 딥러닝 모델의 해석과도 깊은 연관이 있다. 모델을 학습시킨 후 모델이 어떤 것 때문에 이런 판단을 내린건지 확인하는 작업과 거의 일치한다. 흥미로운 분야이며 여러가지로 사용될 가능성이 높은 것 같다.
이미지 분류와 이미지 분할에 관한 여러 알고리즘을 쉽게 이해할 수 있는 세미나였다. Semantic segmentation은 이미지 내 어느 부분이 사용자가 찾길 원하는 객체인지 픽셀 단위로 탐지해내는 작업이다. 정확한 학습을 위해선 입력 이미지에서 탐지하려는 객체의 경계선이 구분된 정답 데이터(segmentation map)를 입력해야 하지만(Fully supervised), 이같은 데이터셋을 구축하는 데 많은 시간과 비용이 드는 문제가 있다. Weakly-Supervised Semantic Segmentation(WSSS)은 이런 문제를 해결하기 위해 범주 정보만 주거나 박스 형태로 객체의 위치를 표시한 이미지로 모델을 학습시킨다.
WSSS 방법론 중에서도 범주 정보를 기반으로 한 알고리즘이 자세히 소개됐다. 우선 분류 알고리즘인 Multi-label Classification으로 이미지 내 다중 객체가 존재하는지 예측하는 모델을 만든 다음, 예측의 원인이 된 지역을 분석하는 Grad-CAM을 통해 해당 객체의 대략적인 위치를 찾는다. 이때 대략적인 위치란 객체의 일부만 탐지 가능한 정도이기 때문에, 다시 Dense CRF 알고리즘으로 후처리하면 객체의 정확한 경계선까지 찾을 수 있게 된다.
다양한 알고리즘과 개념이 등장한 세미나였는데 재밌는 예시 이미지들이 활용돼 이해가 수월했다. 현장 발표가 아닌 유튜브로 내용을 전달하는 게 쉽지 않았을텐데도 좋은 세미나를 진행해준 발표자께 감사 드린다.
오늘은 Weakly supervised semantic segmentation에 대해서 조용원 연구원이 세미나를 진행해주었다. 컴퓨터 비전 task 중 semantic segmentation에서는 정확한 분할 레이블을 손수 만드는 데에 특히나 큰 시간과 비용이 소요된다. 따라서 최근 self-supervision과 더불어 오늘 소개된 weakly supervision 연구가 최근 컴퓨터 비전에서 주목을 받고 있다. 오늘 조용원 연구원은 weakly supervised semantic segmentation 에서 연구되는 다양한 방법론 가운데 몇 가지를 자세히 설명해주었다. 방법론 내에 Grad-CAM, CRF 등 사용되는 모듈 일부를 자세히 설명해주기 위해 노력한 점이 돋보였다. 또한 오늘 세미나는 기본인 이미지 분류와 분할의 정의부터 오늘의 주제까지 모두 차근차근 단계적으로 설명해주어서 모두에게 도움될 수 있는 세미나를 만들기 위해 노력한 것이 보였다. 하지만 주제의 키워드(?) 중에 semantic segmentation보다 weakly supervised에 비중을 두어 소개해고, 또한 Grad-CAM, CRF에 대한 디테일을 왜 자세히 설명해주는지 목적에 대해 먼저 설명해 주었다면 더 좋았을 것 같다는 아쉬움이 남았다.
이번 세미나는 코로나로 인한 사회적 거리두기 2단계 조건에 맞게 온라인으로 진행되었으며, ‘Introduction to weakly supervised semantic segmentation’이라는 주제로 조용원 연구원님께서 발표해주셨습니다. 다양한 영상 관련 기기들과 저장매체의 발달에 따라 수많은 이미지 데이터가 쏟아져나오고 있는 상황 속에서, 이미지 관련 연구들도 함께 빠른 속도로 증가하고 있습니다. 초기에는 이미지와 label이 쌍으로 존재하는 이미지 데이터셋을 기반으로 이미지 분류 알고리즘을 주로 연구하였고 그 후 object detection이나 image segmentation 등의 알고리즘을 발전해나갔습니다. 최근에는 정확한 label이 거의 없는 상황에서 효과적으로 semantic segmentation을 진행할 수 있는 방법론 또한 제안되었습니다. 본 세미나는 방금 언급한 방법론 WSSS(Weakly Supervised Semantic Segmentation)에 대해 다루었습니다.
대표적으로 두 가지 접근법이 존재하는 데 첫째는 pixel의 label을 대신하여서 이미지 내의 위치를 이용하여 분류하는 것이고 두번째는 입력 이미지의 label만을 이용하여 분류모형을 구축하고 이를 통해 segmentation map을 생성하여 문제를 해결하고자 하는 것입니다. 이 중에서 두번째 접근 방식에 대해 논문 두개를 소개해주어 이해를 도와주었습니다. 첫번째 논문은 Grad-CAM으로 multi-label classification 모형의 결과를 해석하는 데 도움을 주는 알고리즘입니다. 기존 CNN 구조와 다르게 이미지의 특정 부분이 모델의 예측에 중요한 역할을 했다라고 말해줄 수 있어 해석에 용이합니다. 다만 Grad-CAM 알고리즘은 정확하게 segmentation이 되는 것은 아니고 경계선이 모호한 단점이 있습니다. 이를 보완하기 위해 두번째 논문에 소개된 Dense CRF(Dense Conditional Random Field) 알고리즘을 사용하였습니다. 특정 pixel의 주변 pixel이 어떤 범주에 속할 것인지에 대해 확률값으로 나타내어 가장 큰 확률을 가지는 범주의 label로 할당하는 방식입니다. 위에 소개된 두가지 논문의 알고리즘을 통해 효과적인 WSSS를 수행할 수 있게 됩니다.
데이터 분석과 관련하여 과제 및 연구를 진행하다보면 항상 양질의 데이터, label 작업이 잘되어있는 데이터에 성능이 크게 의존한다는 것을 느꼈는데 항상 현실적으로 비용문제 때문에 좋은 데이터를 얻는 것이 쉽지는 않았던 것 같습니다. 오늘 세미나에서 제시된 방법론과 기타 유사한 여러 연구들이 활발히 진행되어 labeling에 대한 문제를 잘 해결하고 추후 연구실이 보유한 데이터셋에도 적용해보면 좋겠습니다. 이상으로 좋은 세미나 들려주신 조용원 연구원님께 감사의 인사를 드리며 짧은 후기 마치도록 하겠습니다.
금주 세미나는 Weakly Supervised Semantic Segmentation라는 주제로 용원이가 진행해주었다. 일반적으로 Semantic Segmentation은 이미지의 픽셀마다 분류를 진행해야 한다는 점에서 단순한 이미지 분류 모델보다 복잡한 모델 구조를 지닌다. 하지만 복잡한 모델 구조를 지님에도 정답 레이블 구축에 많은 비용이 필요하기에 충분한 데이터셋을 확보하는 것에 큰 어려움이 따른다. 이러한 상황에서 확보된 데이터셋을 통해 새로운 이미지가 입력되었을 때 Segmentation map을 구축해주는 모델을 설계하는 연구가 진행되고 있다. 금일 용원이가 소개해 준 방법론은 일반적인 이미지 분류 모델을 구축한 뒤에 Grad-CAM 등을 활용해 입력 이미지에서 어떠한 부분이 분류 결과에 영향을 주었는지를 추적하여 Segmentation map을 구성하는 방식을 위주로 설명해주었다.
일반적으로 Classification task를 진행하는 CNN 모델은 입력이미지의 구체적인 부분에 집중하기보다는 대략적인 패턴을 찾는 것에 최적화되어 있다. 또한 원본 이미지를 줄이면서 feature를 추출한 뒤 이를 다시 원본 이미지 사이즈의 Segmentation map을 구성하는 줄였다가 늘리는 과정에서 객체가 존재하는 영역을 정확히 인식하는 것이 어렵다. 따라서 단순히 Grad-CAM을 이용하여 얻은 결과값은 정확히 객체가 존재하는 영역을 인식하기 어렵고 이를 Segmentation map으로 활용하기 위해서는 보완이 반드시 필요하다. 오늘 세미나에서는 이러한 한계를 해결하는 방법으로 Fully Connected Conditional Random filed을 소개했다. 후처리 작업으로 Fully Connected Conditional Random filed를 사용하면 픽셀의 색상의 유사도와 위치적인 유사도를 함께 고려하게 되어 실체 객체가 존재하는 영역에 가까운 보다 정확한 Segmentation map을 얻을 수 있게 된다.
근래 Vision쪽의 새로운 연구들을 많이 접하지 못하였는데, 활발하게 연구를 진행하며 신선한 연구 주제들을 소개해 준 용원이에게 다시금 감사의 말을 전한다.
image segmentation에는 semantic segmentation과 instance segmentation이 있다.
semantic segmentation은 "사람", "비행기" 같은 의미를 찾는 방법이고 instance segmentation은 여러 사람을 구분할 수 있는 방법이다.
segmentation을 잘 하는 모형을 학습하기 위해서는 실제 정답을 많이 가지고 있어야하는데 segmentation의 정답을 만드는 것은 상당히 많은 노력이 필요하다.
weakly supervised semantic segmentation은 작은 정보만을 가지고 semantic segmentation을 하려는 것이 목적이고 segmentation을 수행할 때 정답을 사람 대신 AI모델이 생성하게 하는 방법이 최근에 연구되고 있다.
Multi-label classification을 통하여 다중 객체 존재 여부를 예측한다. 범주별로 존재 여부를 결과로 주는 모형을 학습하게 된다. 분류문제는 segmentation보다 정답을 만들기 쉬우므로 학습도 원활하게 할 수 있다.
Gradient-weighted class activation mapping (Grad-cam)은 특정 객체가 어디 있는지 대략적인 위치를 알게 해준다. 단순히 multi-label분류의 예측 결과만을 사용하며 완벽한 segmentation label이 없어도 사용할 수 있는 장점이 있다.
Grad-CAM과 더불어 Dense Conditional Random Field(Dense CRF)를 사용하면 instance 의 가장자리를 더 잘 찾을 수 있는 segmentation을 할 수 있게 된다.
결국 Segmentation문제를 푸는데 있어 손쉽게 정답을 만들 수 있는 다중 라벨 분류 모형의 정답만을 사용하는 방법을 알 수 있었다.
원하는 모형의 정답이 있어야만 학습을 할 수 있다는 고정관념에서 벗어나게 해주는 세미나를 온라인으로 진행한 조용원연구원에게 감사한다. 세미나 녹화가 쉽지 않았지만 모르는 부분을 여러번 들을 수 있어서 훨씬 이해하기가 수월하였다.