- 2022년 5월 20일 오후 4:53
- 조회수: 7805
REFERENCES
INFORMATION
- 2022년 5월 20일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
일반적인 컴퓨터 비전 모델은 사전학습된(pre-trained) task에 대해 우수한 성능을 보이지만, 그 외 task에 대해서는 낮은 성능을 보인다. 따라서 새로운 task에 적합한 미세조정(fine-tuning)이 필요하며, 이를 위해 새로운 데이터셋과 추가 레이블링 작업이 많은 비용과 함께 뒤따른다. 이처럼 일반화 성능이 낮고 비효율적인 기존 사전학습 기법에서 벗어나, 최근 인터넷 상의 이미지와 텍스트 데이터를 함께 사용하여 미세조정 없이도 일반화된 이미지의 특징을 잘 추출하는 대조학습(contrative learning) 기법이 고안됐다. 본 세미나에서는 해당 기법인 Contrastive Language-Image Pre-training(CLIP)에 대한 전반적인 설명과 이를 활용한 다양한 어플리케이션에 대해 소개한다.
참고문헌
[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (pp. 8748-8763). PMLR.
[2] Goh, G., Cammarata, N., Voss, C., Carter, S., Petrov, M., Schubert, L., ... & Olah, C. (2021). Multimodal neurons in artificial neural networks. Distill, 6(3), e30.
[3] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125.
청취자 후기

대량의 Unlabeled Data 를 통해 모델을 사전 학습하는 방법론은 자연어 처리, 컴퓨터 비전에서 큰 각광을 받았다. 자연어 처리 분야에서는 BERT 와 GPT1&2 를 넘어 입출력을 모두 text 로 처리하는 T5, GPT3 가 등장하여 놀라울만한 Few-Shot 및 Zero-Shot 성능을 보여주었다. 이미지 분야에서도 Pretext-task, Contrastive Learning, BYOL, SWaV, Barlow Twins 등 다양한 사전 학습 방법론이 제안되었지만, Fine-tuning 없이 새로운 downstream task 에 적용하기 어렵다는 단점이 있다.
본 세미나에서는 Image 와 Image 를 서술하는 Text-pair 를 통해 Multi-modal Contrastive Learning 으로 사전학습한 CLIP을 제안한다. CLIP에서 사용되는 Image-Text Pair 는 검색 키워드를 통해 추출한 Image를 Pair 로 정의하기 때문에 Labeling Cost 가 들지 않는다는 장점이 있다.
CLIP 과 동일한 양상으로 Multi-modal Contrastive Learning 을 진행하는 ConVIRT 라는 알고리즘이 존재한다. ConVIRT 는 의료 CT 이미지와 해당 CT에 대한 의사 소견을 positive pair 로 정의한다. ConVIRT 는 의학 전문 지식이 필요한 의사 소견 텍스트를 필요로 할뿐만 아니라, pairing 과정에서도 전문가의 지식을 요구하기 때문에 대규모 사전학습 데이터셋을 구축하기 어렵지만, CLIP은 단순한 크롤링으로 대량의 데이터셋을 구축할 수 있다. 뿐만 아니라 CLIP은 사전학습 데이터와 다른 색감이나 분포를 지닌 데이터셋에서도 Robust 한 성능을 보였다.
Zero-shot CLIP 은 지도 학습한 ResNet 50보다 많은 데이터셋에서 큰 차이로 좋은 성능을 보였다. 뿐만 아니라 Content Moderation, Object Tracking 에도 적용될 수 있으며, Image-to-Text인 Dall-E 모델에도 적용이 가능하듯 다양한 태스크에 적용가능함으로써 Fine-tuning 의 수고를 덜어주었다. 훌륭한 세미나를 준비해준 유이경 연구원께 감사의 인사를 전하고 싶다.

OpenAI가 두 가지 이상의 모달리티 데이터를 기반한 새로운 방법론을 제안했다. 아직까지는 적절한 혹은 비유할만한 용어가 떠오르지 않아, 최선으로 '사전학습'이라는 말을 붙인 것 같았다. '사전'학습보다는 정말 '인공지능'스러운 방법론이라고 생각했고, 대규모 인공지능 회사에서는 방법론도 그렇고 데이터 규모도 그렇고 어나더 레벨이 되어가고 있구나 생각했다.
최신에 가장 활발히 연구되고 있는 자가지도학습을 기반하였는데, 자가지도학습보다 기여점 맥락이 더 넓다고 생각했다. 구글 인터넷 상에서 검색되는 문구랑 이에 해당되는 이미지 데이터를 이용한 방법론으로 fine-tuning을 하지 않고 바로 사용되는 방법론이기에, 레이블이 (전혀) 필요하지 않고 데이터 분포에 대한 강건성 역시 높다. (근데 이 장점은 워낙 많은 데이터를 학습하다 보니 얻어 걸린 장점 같다.) 활용될 때에는 풀고자 하는 태스크의 정답이 포함될 여러 텍스트 문장들을 마련해둬야 하는데, 이러한 불편한 점들도 언젠가는 극복되고 진짜 인공지능이 올 것 같다. 알고리즘의 활용도 역시 높아 다양한 applications 예시들이 많았다. 이 세미나에서는 이러한 것들 모두 접목할 수 있다. 논문의 경우 이미지와 텍스트만으로 제안된 방법론이지만, 두 가지 이상의 모달리티 데이터면 충분할 것으로 판단되어 활용도 및 향후 연구 측면에서 좋은 방법론이라고 생각한다.
유의미하고 인싸이트가 높은 세미나로 많은 연구원들이 들었으면 좋겠다. 멋진 세미나를 만드느라 고생한 이경이에게 감사의 말을 전하며 세미나 후기를 마치도록 한다.

이미지 분류 문제는 이미지를 입력하고 클래스를 출력하는 형태로 지도 학습을 적용하며 높은 성능을 위해서 대규모 데이터 셋(ImageNet)을 사전 학습하고 사전 학습 된 파라미터를 이용하여 실제 풀고자 하는 데이터에 fine-tuning 하여 이미지의 분류 문제에 적용하고 있다. 그런데 이러한 방법에는 한계가 존재하는데 본 세미나에서 3가지로 정리하여 설명해주었다. 첫째로 fine-tuning 없이는 의미 있는 분류 자체가 불가능하고 둘째로 fine-tuning을 위한 labeled 데이터를 얻는 것이 많은 cost가 필요로 한다. 마지막으로 ImageNet 등을 사용하여 pretrained 하다 보니 현실에서 수집한 데이터와는 다소 거리가 있어 성능이 저조하다고 한다. 이러한 한계를 극복하기 위한 CLIP을 소개해주었다. 평소에 ImageNet이 세상의 모든 이미지를 다 표현한 것이 아니기 때문에 당연히 다른 도메인의 경우 성능이 떨어지는 것이 당연하다고 생각하고 있어서 쉽게 동의할 수 있었다.
CLIP은 Web-based image-text pair를 기반으로 visual representation을 학습하는 방법론이다. 이미지와 이를 표현한 텍스트를 결합하여 사용하는데 텍스트를 추가적으로 사용하기 때문에 보다 일반화된 특징을 학습하는 것 같다. CLIP에 이름에도 포함되어 있듯이 contrastive learning을 활용하는데 이는 최근 self-supervised learning 관련하여 수업에서 배웠던 내용이었고 이미지-이미지 간 대조 학습이 아니라 이미지-텍스트 간 대조 학습이라 흥미로웠다. 그리고 세미나 내용 중 zero-shot CLIP의 정확도가 supervised learning의 정확도보다 높은 데이터 셋이 꽤 많다는 것이 굉장히 인상 깊었다. Semi/Self 학습 모델이나 pretrained된 모델도 fine-tuning 없이는 fully supervised learning 보다 항상 정확도가 낮을 것이라고 예상했었는데 그렇지 않은 경우도 있다는 것을 알게 되었다. 하지만 CLIP의 경우 Google에서 쉽게 접할 수 있는 4억개에 달하는 엄청난 양의 이미지를 학습하였기 때문에 학습한 데이터 셋의 분포가 훨씬 광범위하여 이렇게 좋은 성능이 나온 것이 아닌가 하는 생각이 들었다. 그럼에도 불구하고 CLIP의 학습 방법이 높은 비용을 필요로 하는 데이터가 아닌, 인터넷에서 쉽게 구할 수 있는 데이터를 사용하여 실생활에 보다 더 적합하고 강건한 AI 모델이 되는 것 같았다. 특히 DALL-E 2 같은 경우는 굉장히 인상 깊었고 초거대 AI에 대해서 찾아보게 되어 많은 도움이 되었던 것 같다. 마지막으로 본 세미나를 준비해주신 유이경 연구원님께 감사드리며 본 세미나 후기를 마친다.

이번 세미나에서는 대조학습(contrative learning) 기법이 사용된 Contrastive Language-Image Pre-training(CLIP)에 대한 전반적인 설명과 이를 활용한 다양한 어플리케이션에 대해 소개를 해주었다. 이미지 분류문제는 입력이미지를 사전에 정의한 클래스 중 하나로 분류하는 문제이다. 일반적으로 이미지를 입력으로 클래스 레이블을 출력하는 지도학습을 적용하여 학습 및 예측을 수행한다. 최근 이미지 분류 문제에서는 대규모 데이터 셋을 기반으로 모델을 pre-training 된 파라미터를 활용해서 모델의 weight를 initialize 한 뒤 실제 풀고자 하는 데이터를 학습을 시킨다. 이렇게 하면 더 높은 성능을 보여주게 된다. 이러한 방법은 한계점이 존재 하는데, 첫번째로는 fine tuning 없이 새로운 downsteam task에 적용하기 어렵다는 것이다. (fine-tuning이 필요한 이유는 모델이 사전에 학습된 label만을 output으로 가질 수 있기 때문이다. 그래서 새로운 task 에 맞는 output head를 추가해줘야한다.) 두번째 한계점은 새로운 downstream task에 적합한 다량의 이미지와 레이블링 작업을 필요로 한다는 것이다. 세번째로는 벤치마크 데이터셋 성능과 실제 현실에서 수집한 데이터셋 성능과의 차이가 존재한다는 것이다. 이로 인해서, 우리는 pre-training 시 Fine-tuning이 필요 없는 일반화된 모델, 이미지 수집 및 정답 레이블 생성에 적은 노력이 필요한 모델, 벤치마크 데이터셋 외 여러 현실 데이터셋에서도 좋은 성능을 보이는 강건한 모델이 필요하다. 이러한 필요를 충족해주는 Model 이 CLIP(Contrastive Language-Image Pre-training) 이다. CLIP는 Web-based image-text pair를 기반으로 visual representation 을 사전 학습하는 방법론입니다. CLIP은 text와 이미지를 결합한 데이터를 사용한다. 이를 통해서 이미지와 언어에 대한 representation을 함께 학습을 한다. dataset은 인터넷으로 부터 레이블링이 필요없는 약 4억개의 image-text pair데이터를 수집하여 사용하는데, 이는 레이블링이 되어있는 거와 유사하기 때문에, 추가의 인력과 비용이 필요하지 않는다. image-Text pair를 사용한 pre-training 기법은 이전부터 존재하였지만, CLIP은 앞선 방법론과 달리, 효율적인 contrastive learing을 적용하여, 더욱 우수한 성능을 보인다. 특히 Zero-shot prediction(한 번도 본 적 없는 특징 하위 문제의 데이터셋에 대해서 예측 수행)에서 가장 우수한 성능을 보인다. 그렇다면, Contrastive learning이 무엇이냐면, 데이터 내 positive(특정 이미지에 대해 비슷하게 만들고 싶은 sample) & negative(특정 이미지에 대해 다르게 만들고 싶은 sample) samples 간의 관계를 학습하는 것을 말한다. 즉, positive 간 유사도는 크게, negative간 유사도는 작게 학습을 한다.
일반적인 Contrastive learning 은 이미지만을 사용하여, positive & negative를 분류하지만, CLIP은 이미지pair를 사용하여, 이미지에 맞는 context를 positive로, 이미지에 맞지 않는 context를 negative로 나누게 된다. 이것이 CLIP의 핵심이 된다. 다음으로는 CLIP model의 전반적인 구조에 대해서 한 단계씩 차례대로 설명을 해주었다. 가장 흥미로웠던 점은 Fine-tuning 과정을 거치지 않고도 처음 보는 이미지에 대해 예측이 가능하다는 것이었다. CLIP의 application으로 Content moderation, Object tracking, DALL-E2에 대해 설명을 해주었다. Text를 가지고 이미지를 생성해주는 DALL-E2는 매우 흥미로운 내용으로 다가왔다. 이미지 생성이 된다면, 동영상 생성도 가능하지 않을까? 하는 궁금증을 만들어주는 부분이었다. 이번 세미나를 보면서 수업 때 배운 contrastive 내용을 다룬 새로운 방법을 세미나로 접하게 되어 더욱 재미있게 들은 세미나 였다. 본 세미나를 준비해주신 유이경 연구원님께 감사를 드립니다.

이번 세미나는 CLIP: Connecting Text and Images 라는 논문을 주제로 진행되었다. 기존 이미지 분류 문제는 대규모 데이터셋을 기반으로 pre-training model을 활용하여 자신의 task에 맞게 fine-tuning 하는 방식으로 진행되었다. 하지만 이러한 방법은 fine-tuning 없이 풀고자 하는 자신의 task 문제에 적용하는 것이 어렵고 fine-tuning에 필요한 데이터에 대한 레이블링 작업이 필요하다는 단점이 있다. 세미나에서 제안 된 CLIP은 이러한 fine-tuning이 필요하지 않고 레이블 생성에 적은 노력이 드는 로버스트한 모델로 제시되었다. CLIP은 이미지와 이미지를 설명하는 텍스트를 결합한 이미지-텍스트 Pair를 입력으로 사용한다. Pair를 함께 학습함에 따라 일반화된 특징을 학습할 수 있다. 이러한 Pair를 통해 데이터 내 Positive & Negative 샘플 간 관계를 학습하는 Contrastive learning을 한다. 또한, 레이블링이 필요 없게 인터넷 검색을 통해 이미지-텍스트 Pair 데이터를 수집한다. 앞의 학습을 마친 CLIP은 fine-tuning을 거치지 않고도 처음 보는 이미지에 대한 예측이 가능하다. 기존 타 모델과 비교 시 좋은 성능을 보이며, content moderation, object detection 등 CLIP이 다양한 분야에도 적용될 수 있음을 알 수 있었다.
제일 흥미로운 부분은 사람이 하던 레이블링을 방대한 데이터가 있는 검색엔진을 통해서 한다는 것이 획기적이라는 생각이 들었다. 가끔 모르는 AI 분야 영단어에 대해 검색할 때 구글에 이미지를 바로 보는 나의 행위가 떠오르는 순간이었다. 이미지 분야에서 이러한 방법은 큰 기여를 줄 것으로 예상된다. 해당 분야를 잘 알지 못했는데 발표자의 쉬운 설명을 통해 재미있게 청취할 수 있었다. 유익한 세미나를 준비한 이경이에게 고생했다는 감사의 말을 전하며 세미나 후기를 마친다.

금일 세미나는 Contrastive Language-Image Pre-training(CLIP) 기법을 주제로 진행되었다. CLIP은 web-based image-text pair를 기반으로 visual representation을 pre-train 하는 방법론이다. CLIP은 image와 이를 설명하는 text가 결합된 image-text pair를 입력 데이터로 사용하여 visual representation 뿐만 아니라 semantic information을 함께 학습할 수 있다. 이때, 사용되는 image-text pair는 인터넷으로부터 labeling이 필요 없는 방식으로 수집되기 때문에 쉽게 매우 많은 양을 얻을 수 있다. CLIP은 text 데이터를 활용하는 기존의 방법론과 달리 contrastive learning을 적용하여 pre-train 함으로써 좋은 효율을 보이며, 더 나아가 모델이 한번도 본 적 없는 데이터에 대한 예측을 수행하는 zero-shot prediction에서도 우수한 성능을 보인다. CLIP이 좋은 성능은 내는 이유를 image 데이터와 text 데이터를 연결하기 위해 contrastive learning을 사용하기 때문으로 설명할 수 있다. Contrastive learning은 데이터 내의 positve sample과 negative sample 간의 관계를 학습하는 방법론으로 데이터 sample 임베딩 시 positive 간의 유사도는 크게하고 negative 간의 유사도는 작게 학습하도록 한다. CLIP은 image만을 사용하여 positve와 negative를 정의하는 일반적인 contrastive learning 방법론과 달리 image-text pair를 사용하여 특정 이미지에 맞는 text는 positive로 맞지 않는 text는 negative로 정의한다. 즉, image에 맞는 text를 연결하는 task로 생각해볼 수 있다. 본 세미나에서는 CLIP의 작동 원리를 포함한 전반적인 설명과, 어플리케이션 연구를 소개한다. 두 가지 모달리티 데이터를 활용하는 흥미로운 내용의 유익한 세미나였다.

이번 세미나는 Contrastive Language-Image Pre-training이라는 주제로 진행되었다. 기존 분류 모델들은 Pre-training 후 Fine-tuning과정이 필요하고, Labeling 비용이 많이 들며, 학습된 데이터 이외에 다른 데이터에는 안 좋은 성능을 보인다는 한계가 있다. CLIP은 이러한 한계를 극복하기 위해서 Web-based Image-text Pair를 활용하여 모델을 학습한다.
CLIP을 보면서 든 생각은 인간이 인터넷을 통해 정보를 얻고, 표현하는 방식과 비슷하다는 생각이 들었다. 인간이 필요한 정보를 인터넷에서 검색하여 얻고, 이를 뇌에 축적한 후, 추후 필요할 때 활용하는 것처럼 말이다. CLIP은 Pre-train만 실시하고 Fine-tuning은 수행하지 않는다. Pretraining 시 각 Image와 Text를 모두 임베딩하고 내적을 통해 Text 및 Image 간 유사도를 산출한 후 Contrastive Learning을 기반으로 학습한다. 세미나에서는 Contrastive Learning을 통해 기존 연구의 비효율성을 극복할 수 있었고 일반화 성능을 높일 수 있었다고 말한다. 특히 Distribution Shift에 강건하다는 결과가 인상적이었는데, Fine-tuning 없이도 이러한 결과가 나온 것이 놀라웠다. 마지막으로 Object Tracking이나 Image Generation 등의 응용 예시를 통해 CLIP의 무궁무진한 활용가능성까지 볼 수 있었다.
본 세미나를 통해 CLIP이라는 새로운 아이디어를 공부할 수 있었다. 개인적으로 공부하고있는 OCR도 Text Recognition 시 단순한 Visual정보 뿐만 아니라 Language 정보를 함께 고려하는 Multi-modal적 연구가 많이 진행되고 있는데, 이번 세미나를 통해 Language정보를 활용할 수 있는 새로운 접근 관점을 알 수 있었다. 유익한 세미나를 준비해주신 유이경 연구원님께 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Contrastive Language-Image Pre-training (CLIP)을 주제로 진행되었다.
기존 image classifier task는 사전학습된 모델을 fine-tuning하여 다양한 downstream task에 활용하였다. 하지만 이런 방법은 Fine-tuning 없이 새로운 downstream task에 적용하기 어렵다는 문제가 있다. 또한 이미지 수집 및 정답 레이블 생성에 많은 인력과 비용이 요구되고, 벤치마크 데이터셋에 최적화되어 그 외 데이터셋에서는 저조한 성능을 보인다는 단점이 존재한다.
세미나에서 소개된 Contrastive Language-Image Pre-training(CLIP) 모델은 fine-tuning이 필요 없는 일반화된 모델이고, 이미지 수집 및 정답 레이블 생성이 쉽고, 벤치마크 데이터 셋 이외에도 좋은 성능을 보인다는 강건한 모델이다. 즉, 기존 image classifier의 단점을 해결한 방법이다.
CLIP은 그 이름에 맞게 이미지와 이미지를 설명하는 텍스트를 결합한 image-text pair를 입력으로 사용한다. 따라서 이미지만 사용하는 모델 대비 이미지와 언어에 대한 representation을 함께 학습하여 일반화된 특징이 학습가능하다는 장점이 있다. 또한 학습과정에서 positive sample은 가깝게 학습하고, negative sample은 멀어지게 학습하는 contrastive learning을 사용하여 기존의 방식 (transformer based, bags of words based) 보다 효율적으로 모델을 학습하였다.
신기했던 점은 단순 단어가 아닌 "a photo of {}"라는 구로 변환하여 인코더를 통과시켰다는 점이다. 이렇게 단어를 구로 변환하여 실험한 모델이 더 높은 성능을 보여주었다. 아무래도 image-text pair 데이터를 인터넷 검색을 통해 얻었기 때문으로 보이는데, 만약 검색이 아닌 다른 방법으로 이미지를 수집했으면 어떤 방법으로 모델의 성능을 올릴 수 있었는지 궁금하다.
CLIP은 IMAGENET이나 STANFORD CARS와 같은 벤치마크 데이터셋에선 지도학습 방법보다 우수한 성능을 보여주었다. 하지만 MNIST와 같은 데이터셋에서는 그렇지 못한 성능을 보여주었다. 그럼에도 불구하고 content moderation, object tracking 그리고 image generation 과 같은 분야에 실제 활용되는 점을 보니 매우 실용적인 모델인 것 같다는 생각이 들었다.
내용이 재미있고 DALLE와 같이 흥미로운 모델을 소개해준 세미나였다. 멋진 세미나를 만들어준 이경이에게 감사의 말을 드리며 세미나 후기를 마무리한다.

이번 세미나는 OpenAI에서 발표한 CLIP(Contrastive Language-Image Pre-training)을 주제로 진행되었다.
전통적인 지도학습 기반 이미지 분류에서는 사전학습을 진행하고 추후 분류하고자 하는 하위 테스크에 맞는 이미지를 사용해 fine tuning을 진행하게 되면 더 좋은 결과 도출이 가능하다. 하지만 이러한 전통적인 방법에는 fine tuning이 꼭 필요하다는 점, 벤치마크 데이터 외에 실제 현실 데이터에서는 좋지 못한 성능을 보인다는 점, 이미지 수집 및 정답 레이블 생성에 많은 시간과 노력이 필요하다는 한계가 존재한다. 이러한 한계를 개선한 모델이 바로 'CLIP'이다.
CLIP은 web에서 검색을 통해 나온 결과 이미지와의 pair를 데이터로 사용하는 web based image-text pair 기반 visual representation을 사전 학습하는 방법론이다. web에서 검색을 통해 나온 결과 이미지 간의 pair를 data로 사용하기 때문에 많은 인력과 비용이 필요하지 않다는 점에서 한계를 개선했다고 보고 있다. 이러한 데이터를 학습하는 방법으로는 Contrastive learning method를 사용하고 있는데 평소에 알고 있던 contrastive learning method와 달리 이미지에 맞는 텍스트를 positive로 그렇지 않은 텍스트를 negative로 정의한 후 그에 따른 유사도를 학습한다. 이후 사전 학습된 모델을 별도의 fine tuning 과정 없이 downstream task를 진행하게 되는데 기존의 지도학습 기반 모델과의 성능 비교와 image-text pair를 데이터로 사용한 다른 사전학습 기법인 image captioning 간의 성능 비교를 통해 CLIP의 우수성을 확인할 수 있었다.
CLIP에서 fine tuning을 진행하지 않고 하위 테스크를 진행하는 과정에서 신기했던 부분은 단순한 단어가 아닌 구를 텍스트 인코더에 입력으로 사용했다는 점이다. 이후 예측하고자 하는 이미지를 학습된 이미지 인코더에 통과시켜 산출한 임베딩 벡터와 이전에 산출시킨 텍스트 임베딩 벡터와의 코사인 유사도를 계산하여 높은 값을 가지는 텍스트를 선택하게 된다. 이를 통해 처음 보는 이미지에 대해서도 예측이 가능하다는 점이 인상적이었다. 그뿐만 아니라 test, train data의 distribution이 동일하지 않은 distribution shift에서 강건함을 보이는 것을 실험 결과에서 확인할 수 있었는데 추후 image & text pair 데이터를 사용하여 사전학습을 진행할 때 꼭 한번 사용해보아야 겠다는 생각을 들게 해주었다. 마지막으로 CLIP이 content moderation과 object tracking, image generation 분야에서도 활용되고 있다는 사실을 통해 CLIP의 뛰어난 활용성을 확인할 수 있었다.
본 세미나에서는 전통적인 지도학습 기반 이미지 분류에서의 한계점을 제시하고 한계를 개선한 모델을 소개하는 흐름으로 진행되었는데 CLIP에 대한 이해가 굉장히 수월했다. 알찬 내용과 흥미로운 포인트가 많아 듣는 내내 집중해서 들을 수 있는 좋은 세미나를 만들어준 유이경 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.