- 2023년 11월 30일 오후 10:23
- 조회수: 24725
REFERENCES
INFORMATION
- 2023년 12월 1일
- 오후 12시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
청취자 후기

금일 세미나는 데이터의 labeling cost를 최소화하는 cost effective instance segmentation을 주제로 진행되었다. 해당 세미나는 image segmentation 모델들에 대한 간략한 설명 그리고 unsupervised learning 그리고 weakly supervised learning을 사용한 image segmentation 방법론인 CutLER과 BoxTeacher라는 방법론에 대해 다루었다.
[1] CutLER: 기존 image segmentation 모델인 DINO와 TokenCut은 하나의 object에 대해서 밖에detection을 수행하지 못한다는 치명적인 단점이 존재하였다. 따라서 CutLER는 선행 연구들과 달리 multi-object detection을 해결하기 위해 MaskCut이라는 방법을 적용하였다. 이때 MaskCut이란 ViT로 추출한 attention map을 NCut이라는 graph 기반의 image segmentation 방법을 여러 번 반복 수행하는 것을 의미한다. 더하여 MaskCut 덕분에 label 없이 학습이 가능하며, Self-training을 통해 이전 단계에서 생성된 Coarse mask를 pseudo mask로 활용하여 반복 학습한다.
[2] BoxTeacher: BoxTeacher는 weakly supervised annotation을 활용한 방법이다. 즉 정확한 pixel기반의 label처럼 정확한 label이 아닌 bounding box label을 사용하는 것이다. Weak label을 얻기 위해 BoxTeacher는 선행연구인 BoxInst라는 모델을 사용해 Pseudo mask를 추출하고, 이를 Self-trainig에 활용한다. BoxTeacher는 teacher-student로 이루어진 모델인데, Teacher가 생성해내는 고품질의 psuedo mask로 student 모델이 학습하게 되는 것이다. 이때 pseudo mask의 품질을 높이기 위해 IOU와 신뢰도 점수를 바탕으로 filtering하는 과정을 거치고, EMA 방식으로 teacher 모델을 업데이트 해준다.
해당 세미나에서 다룬 두 모델은 공통적으로 초기 label의 품질이 좋아야 한다는 것에 중점을 둔다. 즉 학습 초기부터 성능이 좋지 않다면 뒤에 가서도 성능이 좋지 않을 것이기 때문인 것 같다. 개인적으로 이는 어느 인공지능 모델을 설계하던 항상 중요하게 여겨야 한다고 생각하며, 나 역시 이 점을 항상 유의하며 연구를 진행해야겠다고 느꼈다. 유익한 세미나를 준비해준 영환형에게 감사의 인사를 전하며 세미나 후기를 마친다.

이미지 세그멘테이션은 크게 세 가지(Semantic Segmentation, Instance Segmentation, Panoptic Segmentation)로 분류되며 이를 위한 다양한 방법론이 존재한다. 그중 딥러닝을 활용한 방법론은 많은 양의 데이터가 요구되며 이는 높은 수준의 labeling cost가 필요하다는 한계가 존재한다. 이번 세미나에서는 이러한 한계점을 개선하기 위해 unsupervised, weakly supervised 방식으로 접근한 2가지 연구를 소개하고 있다.
(1) CutLER: 비지도 객체 탐지 및 객체 분할 방법론으로 MaskCut, DropLoss, Self-training을 활용하여 기존 선행 연구가 갖는 한계점을 개선한 연구이다. MaskCut은 NCut을 반복 적용하여 이미지 내 다중 객체 탐지를 가능하게 하며 DropLoss는 MaskCut이 놓인 객체가 계속 검출되지 않는 방향으로 학습되는 기존 loss 문제를 개선하기 위해 제시된 새로운 loss 함수이다. 마지막으로 Self-training은 문자 그대로 반복 학습을 통해 모델을 발전시키며 t 단계에서 생성된 mask를 t+1 단계의 pseudo mask로 사용하여 학습하게 된다.
(2) BoxTeacher: weakly supervised 이미지 분할 방법론으로 픽셀 기반의 정답 레이블이 아닌 weakly 레이블(bounding box)을 사용한다. Teacher와 student 모델을 사용하고 teacher 모델이 생성한 pseudo mask 중 품질이 낮은 마스크는 필터링하여 GT bounding box에 하나씩 할당해 최종 pseudo mask를 생성한다. 그리고 student 모델은 앞서 생성한 pseudo mask를 target으로 두어 학습을 진행한다. 학습을 위해 detection loss, box supervised loss, mask supervised loss가 존재하며, 새롭게 제안된 mask supervised loss는 noise를 완화하기 위해 pixel 간 유사성을 활용하는 손실 함수이다. (teacher 모델은 student 모델의 weight를 활용한 EMA 방식으로 업데이트된다.)
이미지 분할 기법의 종류와 관련 최신 연구를 알 수 있는 유익한 세미나였고 굉장히 흥미로웠다. 고생하신 영환이형에게 감사드리며 이상으로 세미나 후기를 마친다.

금일 세미나는 cost-effective instance segmentation이라는 주제로 영환이형이 진행해주셨다. image segmentation 분야를 직접적으로 다뤄보지 않아서 개념을 명확하게 알지 못했는데, 세미나 처음부터 image segmentation을 분류(semantic, instance, panoptic)하여 각 특징을 일목요연하게 설명해줘서 전반적인 이해가 편했다. 그리고 labeling cost가 높은 limitation을 지적하면서 unsupervised 및 weakly supervised segmentation의 사례 연구로 CutLER와 BoxTeacher을 소개한다.
[1] CutLER : MaskCut, DropLoss, Self-training을 적용하여 Unsupervised 기반의 Object Detection, Instance Segmentation의 성능을 향상시켰다. MaskCut은 NCut의 반복 적용을 통해 기존 선행연구인 DINO, TokenCut의 multi-object detection이 불가한 문제를 해결하는데 기인하였고, Ground-truth와 겹치지 않는 예측 영역에 불이익을 주는 기존 loss를 DropLoss를 통해 해결하였다. 그리고 Self-training 기법을 활용해서 이전 단계에서 생성된 mask를 다음 단계의 pseudo mask로 사용한다.
[2] BoxTeacher : Weakly supervised instance segmentation 방법론으로, 기존 bounding box annotation 방식에 고품질의 psuedo masking을 사용한다. Teacher-Student 구조로 되어있는 End-to-End Framework이라는 특징이 있다. Teacher는 pseudo mask를 생성하고, 생성된 mask에 대해 confidence score 기반으로 품질이 낮은 mask를 filtering하는 역할을 한다. Student는 augmentation이 적용된 input image data에 GT box 및 pseudo mask를 활용하여 학습하고, EMA를 통해 Teacher 모델을 업데이트함으로써 고품질의 pseudo mask를 생성하는 목적을 갖는다.
이미지 분할 기법을 접할 기회가 없어서 많이 생소한 주제였는데, 기초 개념부터 적용 연구 사례까지 잘 설명해주셔서 굉장히 유익한 세미나였다. 세미나를 준비하느라 고생하신 영환이형께 감사의 말을 전하며 세미나 후기를 마친다.

비지도와 약지도학습 기반의 Segmentation에 관한 논문 2건을 소개해주는 세미나를 청취하였다.
1. 비지도학습 기반 Segmentation 논문 느낀 점
: Segmentation처럼 복잡한 태스크를 Label 정보 없이 도전해볼까 처음 생각한 연구진들에게 따봉 한번 날려주고 싶다. 그러나, 오늘 소개된 논문에서는 높은 성능 확보를 위해 사전 학습된 Segmentation 모델로부터 지식 증류 받는 것을 제안하였는데, 사전 학습에 레이블 정보를 사용할텐데 이걸 두고 비지도학습이 맞을까?라는 생각이 들긴 했다. 이어, Drop loss에서도 IoU 산출 과정에서 Label 정보를 활용하는 것 같은데, 비지도학습의 목적과 잘 맞는지 혹은 내가 잘못 이해하고 있는지 체크해봐야겠다. 그리고, 본 논문에서 Self-training과 같은 준지도학습 테크닉들을 함께 사용하고 있던데, 준지도학습이 여러 연구 분야에서 활용될 수 있는 근본 연구라는 것을 다시 한번 깨달으며, 본인 관심 연구 주제인 준지도학습 열심히 공부 해야겠다 생각했다.
2. 약지도학습 기반 Segmentation 논문 느낀 점
: 약지도학습은 레이블 정보가 틀리지는 않았지만 대충(?) 주어진 경우에도 딥러닝 모델을 잘 학습시키려 하는 것을 의미한다. 본 논문의 경우 박스 형태로 레이블 정보가 대충 주어진 상황에서 Segmentation 모델을 좋게 학습하기 위해, Pseudo label(=mask) 퀄리티를 향상시키려는 것에 초점을 두고 있는 듯 하다. 정확성이 떨어지는 Pseudo label sample을 어떻게 잘 필터링 할 지 마스크 단위로 고민하는 흔적들을 살펴볼 수 있었으며, student-teacher 조합으로 pseudo mask 퀄리티를 올리려는 연구 내용 잘 살펴볼 수 있었다.
아무래도 Segmentation이 분류보다 복잡한 태스크이다 보니, 디테일한 테크닉들이 많이 사용되는 것 같은데, 세미나 준비하시느라 고생 하셨을 영환이 형에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 레이블 비용 효과 측면의 Image Segmentation 방법론이라는 주제로 진행되었다. Segmentation Task가 이미지 분류보다 훨씬 많은 정보를 담고 있기 때문에 활용성이 매우 크다고 생각하기에 흥미롭게 세미나를 청취할 수 있었다. 하지만 이를 위해 레이블된 데이터가 필요한데 Pixel 단위의 레이블을 얻는다는 것은 굉장히 힘들다. 따라서 레이블 비용을 줄이는 연구들에 대하여 본 세미나가 진행되었다. 첫번째로 CutLER 방법론과 그 선행 연구들(DINO, NCut, TokenCut)에 대해 설명하였는데 선행 연구의 한계점이 왜 발생하는지, 또한 이를 어떻게 극복하였는지를 설명하여 이해하기가 수월하였다. 그리고 해당 논문의 특이점으로 논문에서 제시하는 방법론의 세부 사항을 어떻게 결정하였는지 구체적인 실험 결과를 근거로 들었다는 점이 인상 깊었다. 특히 딥러닝 분야 연구를 보다 보면 왜 레이어를 그러한 방식으로 쌓았는지, 왜 그 값을 사용했는지 등의 다양한 의문이 드는 경우가 있었는데 확실히 실험으로 보여주니 설득력이 높게 느껴졌다. 두번째는 BoxTeacher를 소개하였다. 이는 Weakily Supervised Segmentation 방법론인데 정확하게 Pixel 단위의 정답이 아니라 두루뭉술한 정답을 제시하고 학습하는 방법론이다. Box로 레이블된 데이터로 슈도 레이블을 생성하며 이를 바탕으로 Student-Teacher가 학습 하도록 하는 구조를 가지고 있다. Segmentation 분야는 활용성이 무궁무진할 것으로 예측되는 분야라고 생각하기 때문에 관심이 많이 가는 분야인것 같다. 마지막으로 언급했던 Segment Anything에 대해서도 궁금해져서 찾아보려한다. 유익한 세미나를 준비해주신 이영환 연구원에게 고맙다는 인사를 전하며 이상으로 세미나 후기를 마친다.

이번 세미나는 Cost-Effective Methodologies for Instance Segmentation이라는 주제로 진행되었다. 딥러닝이 발달함에 따라 이미지 세그멘테이션 분야도 많은 각광을 받았지만 대부분의 분야에서 그렇듯이 높은 labeling cost 문제점을 가진다. 따라서 이번 세미나에서는 이를 극복하면서 우수한 성능을 보인 두 가지 논문에 대해 소개되었다.
첫 번째 방법론인 CutLER는 비지도 학습 기반으로 기존 방법론들의 여러 가지 한계점을 극복하였다. Multi-object detection 문제를 극복하기 위해 NCut을 사용했고 Maskcut에서 놓친 새로운 객체를 탐색할 수 있도록 Droploss 전략을 제안했다. 다양한 실험에서 우수한 성능을 보였고 특히 제로샷 상황에서 큰 성능 향상을 이루어냈다.
두 번째 방법론인 BoxTeacher는 low-quality mask를 극복하기 위해 Teacher model이 생성한 고품질의 pseudo mask로 Student model이 훈련하는 방식을 제안했다. 방법론적으로 기존 방법론들에서 큰 변화를 주진 않았지만 어느 정도의 성능 향상이 이루어졌고, 스케쥴 횟수가 증가함에 따라서는 더 큰 성능 향상 폭을 보여주었다.
이미지 세그멘테이션 분야에 대해서 잘 알지 못했지만, 역시나 labeling cost가 문제가 되는구나 하고 다시 한 번 되새길 수 있었다. 이러한 문제점을 개선하면서 좋은 성능을 보인 방법론들에 대해 알 수 있었고 이 역시 무궁무진한 분야라고 생각한다. 좋은 세미나를 준비해주신 영환이형께 감사드리며 본 세미나 후기를 마친다.

이번 세미나는 Image Segmentation에서 Label 데이터가 희소할 때, 효과적으로 학습할 수 있는 방법론에 대해 소개되었다. Segmentation의 경우, 픽셀 단위 분류가 이뤄지기에 Labeling Cost가 가장 큰 Task 중 하나이다. 최근에는 이미지 해상도가 점점 커지고 있는 만큼, Cost는 더욱 더 커지고 있는 실정이다. 이러한 상황에 대해 본 세미나에서는 Unsupervised Learning 기반 방법론과 Weakly Supervised Learning 방법론을 각각 1개씩 소개한다.
Unsupervised Learning – CutLER: Maskcut, Droploss, Self-training으로 구성된다. Maskcut은 Ncut을 여러 번 반복하여 Pseudo Mask를 형성한다. 이러한 Mask에 대해 기존 연구들은 GT와 겹치지 않는 영역에 불이익을 부과했지만, 본 연구에서는 새로운 객체 검출에 이점을 얻기 위하여 패널티를 부과하지 않는 Droploss를 적용한다. 즉, 겹치는 영역이 너무 작으면 Loss 연산에 포함하지 않는다(GT와 겹치는 부분이 조금이라도 있어야 학습에 반영). 이후, Self-training으로 해당 과정을 반복하여 모델을 고도화한다.
Weakly-supervised Learning – BoxTeacher: Student-Teacher 구조로 구성된다. 우선 Teacher 모델에서 Pseudo Mask를 생성한 후, 신뢰도가 낮은 Mask는 배제한다. 이러한 Pseudo Mask를 증강된 이미지에 대한 Label로 삼아 Student모델 Prediction과 비교하는 과정을 거치고, 이때 Loss를 산출하여 Student 모델을 업데이트 한다. 또한 Teacher 모델은 Student 모델을 EMA하여 업데이트 한다. 이때, Loss에 이웃 픽셀과 local context를 고려하는 affinity loss term을 추가한다는 특징을 갖는다. 이는 Pseudo Mask기에 존재 가능한 Noise를 최소화하고자 하며, 이웃 픽셀과 관계를 고려했을 때, Predicted 값과 Label 값이 모두 비슷한 Context(ex. 둘 다 객체를 가리킨다 or 둘 다 배경을 의미) 를 갖는다고 판단되면(Thresholding) Loss를 산출한다.
이번 세미나를 통해 Image Segmentation에서 Labeling이 어려울 때, 효과적으로 학습 가능한 방법론들에 대해 살펴볼 수 있었다. 개인적으로 고품질의 Pseudo Label을 위해 Thresholding하는 매커니즘에 집중해서 보았는데, BoxTeacher의 접근방법이 꽤나 흥미로웠다. 단순하게 한 픽셀만 고려하기 보다는, 주위 픽셀도 함께 고려하여 Local Context를 파악하는 것이 꽤나 신뢰도 있는 결과를 얻을 수 있겠구나 싶었다. 추후 연구에서는 Local 뿐만 아니라, Global Context까지 반영하면 더 좋은 품질의 Pseudo Label을 획득할 수 있지 않을까라는 생각을 조심스레 해본다. 유익한 세미나를 준비해준 이영환 연구원님께 고맙다는 말을 전하며 세미나 후기를 마친다.

금일 세미나는 Instance Segmentation의 2가지 방법론 CutLER와 BoxTeacher에 대해 알아보았다. Segmentation 쪽 분야를 잘 알지는 못하지만 그래도 예전에 연구실 인원들과 소규모로 진행했던 ViT 스터디에서 리뷰했던 DINO가 기반이라 그래도 나름 잘 따라갈 수 있었다.
CutLER는 DINO + NCut였던 TokenCut 알고리즘에서 Multi-Object Detection을 해결하기 위해 MaskCut, Drop loss, Self-Training이라는 세 가지 테크닉을 접합한 논문이다. 기존 TokenCut 테크닉에서 NCut 과정을 여러번 반복해서 수행함으로써, 스텝마다 Cut을 통해 생성된 Mask를 분리하고 새롭게 Mask를 생성한다. 보면서 느끼는 질문은 다음과 같다.
Q1) 그렇다면 탐지하고 싶은 객체의 수를 지정하면(예를 들어 3) 해당 객체 수 만큼 스텝을 반복하는 것인가? 그렇다면 객체 수가 많아질수록 탐지 속도는 현저히 낮아지지 않을까?(1번에 전부 탐지하는 것이 아니니까)
Q2) 실제 객체 수와 탐지하고 싶은 객체 수(스텝 수)를 다르게 설정하면 엉뚱한 마스크가 생성될 거 같은데, 실제 객체 수는 몇개인지 알고 있다는 전제하에 진행되어야 할 것인가?
BoxTeacher는 Pairwise Relations Loss term 을 통해 local boundary를 잡는데, 이 때 pixel 기반 그래프를 생성해서 similarity 기반으로 boundary를 생성하는 것으로 이해하였다.
Q3) 그렇다면 이미지가 커질수록 해당 스텝에서 Graph를 생성하고 유사도를 계산하는 일련의 과정에 대한 복잡도가 기하급수적으로 커질 것 같은데 속도적으로 저하가 크지 않을까?
Segmentation 쪽에 거의 문외한이라 단번에 이해하기 쉽지는 않았다. 그래도 영환이형이 준비해준 세미나 덕분에 대강적인 흐름을 파악할 수 있었다. 해당 질문들은 직접 논문을 읽어보고 코드를 보고 스스로 해결해야겠다. 세미나를 준비하느라 고생한 영환이형에게 감사의 말을 전한다.