- 2022년 11월 30일 오후 11:58
- 조회수: 13429
INFORMATION
- 2022년 12월 2일
- 오후 1시 ~
온라인 비디오 시청 (YouTube)

TOPIC
On-Line Video
OVERVIEW
요약:
장면 이미지 속 문자 인식(Scene Text Recognition)은 규격화된 인쇄체 글씨를 인식하는 광학 문자 인식(Optical Character Recognition, OCR)과 다르게, 간판이나 책표지처럼 다양한 배경과 폰트가 존재하는 이미지 내 글자들을 인식하는 분야이다. 하지만 장면 이미지 속 문자 인식의 경우 데이터 레이블링 시 글자가 존재하는 위치를 찾아 잘라오는(Crop) 과정을 필요로 하기 때문에 labeled 데이터 수집 비용이 크다는 한계점이 존재한다. 따라서 선행연구들은 인위적으로 만든 합성 이미지로 모델을 학습하지만, 이는 합성 이미지와 실제 이미지 사이에 도메인 격차를 만들어 일반화 성능을 떨어뜨릴 수 있다. 최근 이러한 labeled 데이터가 부족한 상황에서는 합성 이미지가 아닌, unlabeled 데이터를 활용하여 모델의 일반화 성능을 높인 연구사례들이 다수 존재한다. 특히, 이러한 연구들은 자기지도학습(Self-supervised Learning)과 준지도학습(Semi-supervised Learning)이 주를 이루고 있다. 따라서 본 세미나에서는 이처럼 장면 이미지 속 문자 인식의 labeled 데이터가 부족한 상황에서 자기지도학습 및 준지도학습을 통해 기존 한계를 극복한 연구들을 소개하고자 한다.
참고문헌:
[1] Zheng, C., Li, H., Rhee, S. M., Han, S., Han, J. J., & Wang, P. (2022). Pushing the Performance Limit of Scene Text Recognizer without Human Annotation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[2] Aberdam, A., Litman, R., Tsiper, S., Anschel, O., Slossberg, R., Mazor, S., ... & Perona, P. (2021). Sequence-to-sequence contrastive learning for text recognition, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[3] Aberdam, A., Ganz, R., Mazor, S., & Litman, R. (2022). Multimodal Semi-Supervised Learning for Text Recognition, arXiv preprint arXiv:2205.03873.
청취자 후기

딥러닝 기반 장면 속 글자 인식을 위한 자가/준지도학습 세미나를 청취하였다. 기존 여러 자가/준지도학습 알고리즘들을 장면 속 글자 인식 특성에 알맞게 변형하여 적용하는 것이 주된 내용이었다. 자가/준지도학습에 대해 기본적인 이해가 있다면, 장면 속 글자 인식 분야(STR)를 잘 모르더라도 세미나에 자세하게 소개되어 있어 편하게 청취할 수 있다. STR의 합성 글자 이미지가 자가/준지도학습에서 어떠한 역할을 할 수 있는 지 알아가는 것이, 개인적으로 가장 재미있던 부분인데 Domain Adapation 분야의 아이디어를 차용하고 있다. 합성 글자 이미지와 실제 장면 속 글자 이미지 간의 도메인 분포 차이를 잘 극복할 수 있다면, STR 분야에서도 성능 좋은 사전 학습 모델 개발이 가능할 것으로 생각해보았다. 좋은 세미나를 준비해 준 성수에게 감사의 말씀을 전하며 세미나 후기를 마치도록 한다.

이번 세미나는 'Self/Semi-supervised Learning for Scene Text Recognition'을 주제로 진행되었다. 먼저 Scene Text Recognition (STR) 은 글자가 존재하는 이미지 내 글자들을 인식하는 것을 말한다. 본 방법은 Scene Text Spotting에 포함되고 크게 Scene text Detection & Scene Text Recognition으로 구성되어 있다. 본 세미나에서는 STR의 한계점(레이블 되어 있는 데이터가 불충분하다)을 개선하기 위해 자기 지도 학습과 준 지도 학습을 적용한 3가지 논문에 관해 소개되었다. 차례대로 자기 지도 학습, 준 지도 학습, 그리고 자기 지도 학습과 준 지도 학습을 모두 적용한 논문으로 모두 레이블 된 데이터가 불충분한 상황을 개선한 논문이다.
자세한 설명은 김성수 연구원이 준비한 세미나에 너무나도 설명이 잘 되어 있어 해당 세미나를 들으면 좋을 것 같다. 평소 OCR 및 STR에 관해 잘 몰랐지만, 세미나를 청취하며 OCR, STR에 관한 설명 외에도 자기 지도 학습과 준 지도 학습에 대한 설명까지도 포함되어 있어 큰 틀 내에 세세한 부분까지 알 수 있었다. 가장 인상 깊었던 부분은 모든 설명에 입력과 출력에 관한 설명이 자세하게 포함되어 있던 것이었다. 아마 김성수 연구원이 모델에 대해 이해하기에 앞서 항상 먼저 확인하는 부분이 입력과 출력이 아닐까 하고 조심스럽게 추측해본다.
방대한 내용이었다. 하지만 김성수 연구원이 꼼꼼하게 준비해준 덕분에 이해하는 데 아주 어렵지 않았다. 유익함을 넘어서 너무 좋은 세미나를 준비해준 김성수 연구원에게 감사드리며 이상으로 세미나 후기를 마친다.

이번 세미나는 Scene Text Recognition(STR)이라는 주제로 진행되었다. 석사논문경진대회를 준비하면서 김성수 연구원의 논문을 여러번 읽었기에 친근하게 와 닿았던 주제였다. 세미나는 STR의 정의부터 시작하여 단계적으로 설명이 진행되었다. STR은 주어진 이미지에서 글자부분을 추출하는 것과 글자를 인식하는 Task 모두 필요하기에 쉽지 않은 Task이다. 현재 상용화 되어 있는 주차 차단기만 봐도 비교적 정해진 위치에서 정해진 규격으로 정해진 가짓수와 포멧만을 인식하는데도 불구하고 인식률이 높지 않다는 생각이 드는데 정해져 있는 형태가 아닌 무한한 경우의 수를 가진 이미지 속에서 글자를 인식한다는 것은 굉장히 어려운 Task라는 것을 알 수 있었다. 세미나에서 STR의 단계를 크게 4가지로 설명해주었는데, 어떤식으로 모델의 흐름이 진행되는지에 대한 개념을 잡을 수 있어서 추후 방법론을 이해하는데 굉장히 도움이 많이 되었다. 특히, 그 중에서 Feature Extraction 단계에서 ResNet이나 VGGNet과 같은 Backbone 네트워크를 사용하고 있어서 이전에 심세진 연구원이 진행한 Backbone 네트워크 세미나의 중요성을 다시 느낄 수 있었다. 모든 딥러닝 분야와 마찬가지로 STR 분야에서도 Labeled 데이터를 구하는것은 비용이 높기 때문에 임의로 생성한 합성 데이터나 Unlabeled 데이터를 활용하는 연구가 활발히 진행되고 있다고 한다. 본 세미나에서는 Unlabeled 데이터를 활용한 Semi/Self-supervised Learning 방법론 3가지를 소개해주었다. 평소 딥러닝 공부를 하면서 Text를 다루는 분야는 깊이 있게 공부하지 않았기에 여러개의 출력이 이루어지고 그에 따라 성능, Threshold 등을 설정하는 것이 다 새로웠다. Self/Semi-supervised Learning의 기본적인 내용을 통해 step-by-step으로 진행되는 김성수 연구원의 설명을 들으며 최신 방법론의 모델 구조에 대해서 이해할 수 있었다. 모델의 구조를 상세히 전달하기 위하여 굉장히 많은 고생하였음을 알 수 있었다. STR Task를 수행할 때 이미지가 뜻하는 도메인(교통상황, 상가, 학교, ...) 정보를 추가한다면 성능이 높아지지 않을까?라는 생각을 했었는데 마지막에 소개해준 SemiMTR 방법론이 동일한 것인지 궁금하다. 세미나를 통해서는 글자가 있는 부분에서만 Vision model을 train하는데 논문을 통해 확인해봐야겠다. STR이라는 생소한 분야자체에 대한 설명과 쉽지 않은 최신 방법론을 꼼꼼히 설명해주어 많은 것을 보고 배울 수 있었던 세미나였다. 항상 모든것을 열심히 하는 김성수 연구원에게 좋은 세미나를 준비해주어 감사하다는 말을 전하며 세미나 후기를 마친다.

이번 세미나는 Scene Text Recognition이라는 주제로 진행되었다. Scene Text Recognition이란 이미지 안에서 글자를 인식하고 출력하는 것이다. 딥러닝에서 Scene Text Recognition은 4가지 단계로 구성되는데 이를 매우 상세하게 설명을 해주었다. 단계에 대한 설명을 들으면서 이미지속의 글자를 잡아낸다는 것이 얼마나 어려운지를 확인할 수 있었다.
Scene Text Recognition의 현실적인 문제는 Labeled 데이터를 구하는 것이 어렵다는 것이다. 레이블링 과정이 복잡하고, 언어 역시 다양하기 때문에 레이블링에 많은 비용이 들게 된다. 최근에는 합성 데이터나 Unlabeled 데이터를 활용하는 연구들이 진행되고 있다. 본 세미나에서는 Semi/Self-supervised Learning을 활용한 연구를 3가지를 소개해준다. 자세한 내용은 김성수 연구원의 세미나에 상세하게 설명을 하고 있기 때문에 해당 세미나를 꼭 들어보았으면 한다.
OCR과 Scene Text Recognition 분야에 대해서 잘 몰랐으나 이번 세미나를 통해서 매우 상세하게 배울 수 있었다. Scene Text Recognition이 더욱 발전된다면 스마트폰을 통해서 이미지를 인식하고
시각장애인을 위한 실시간 음성전달을 할 수 있는 시각보조 인공지능이 개발 될 수 있겠다는 생각을 해보았다. 유익한 세미나를 준비해준 김성수 연구원에게 감사의 말씀을 전하며 세미나 후기를 마친다.

금일 세미나는 Self/Semi-Supervised Learning for Scene Text Recognition에 대해 성수가 발표했다. Scene Text Recognition은 레이블이 있는 데이터가 불충분하다는 한계점이 명확하다. 이를 개선하기 위해 레이블이 없는 데이터를 활용할 수 있는 Self/Semi-Supervised Learning이 활발히 적용되고 있다. 매번 느끼고 있지만 가장 문제가 되는 것 중 하나인 데이터에 대한 레이블의 부재는 대부분 Self/Semi-Supervise Learning으로 해결되고 있다. Self/Semi-Supervised Learning은 필수로 공부해야 할 부분이라고 생각하며 성수처럼 특정 문제를 다루는 분야에 적용 및 방법론 제안 등 다양한 연구를 해볼 수 있는 기회가 많다고 생각한다. 이번 세미나를 통해 연구원들에게 관심 있는 다양한 산업 도메인과 Self/Semi-Supervised Learning을 활용해 볼 수 있는 새로운 연구들이 나오는 계기가 되었으면 한다.

이번 세미나는 Self/Semi-supervised Learning for Scene Text Recognition을 주제로 진행되었다. Scene Text Spotting은 일상 이미지에서 글자를 검출 및 인식하는 분야를 말한다. 검출 모델과 인식모델로 구성되어 있다. 해당 세미나는 인식 분야에 대해 다루고 있으며 불규칙한 이미지에 대한 검출로 OCR보다 더 어려운 특징을 갖고 있다. 또한, 순차적인 출력 값(각 글자 단위)을 갖는 연속 예측 Task이다. 해당 분야의 최근 문제 점은 레이블링 데이터가 부족하다는 것이다. 그래서 최근 연구 흐름은 Unlabeled data를 활용하여 적은 labeled data로도 좋은 성능을 내는 Semi/Self supervised 연구가 주목되고 있다.
첫 번째로 소개된 연구는 Self-supervised learning의 대조학습이 적용된 SeqCLR 방법론이다. 도메인에 적합한 증강 기법이 제안 되었고, 3가지의 Instance mapping function을 제안하여 성능을 비교하였다. Window-to-Instance 방법이 3가지 방법 중 가장 좋은 성능을 보이는 특징을 갖는다. 두 번째 소개된 연구는 Semi-supervised learning의 Consistency Regularization이 적용된 방법론이 소개되었다. Domain Adaptation loss를 활용하여 합성 데이터와 실제 데이터의 도메인 격차를 줄이는 특징을 갖고 있다. 세 번째 소개된 연구는 Self+Semi가 적용된 SemiMTR 방법론이다. Vision Model을 사전 학습하고, Language Model을 학습한 뒤, Fine-tuning & Fusion Model을 학습하는 특징을 갖고 있다.
해당 세미나를 통해 Scene Text Recognition에 대한 도메인적 이해와 왜 Self/Semi 방법론이 해당 도메인에서 중요한지 알 수 있었다. 이미지를 인식하여 글자를 예측하기 때문에 다양한 모델들과 구조가 혼합되어 비교적 복잡한 딥러닝 프레임워크를 갖고 있음을 알 수 있었다. 구글에 검색만 해도 글자를 포함한 이미지가 넘쳐나기에 앞으로 더욱 많은 방법론들이 시도할 수 있을 것으로 예상된다. 본인이 연구하는 분야에 대해서 최대한 이해하기 쉽고 흥미롭게 발표해준 김성수 연구원님께 수고했다는 얘기를 전하며 세미나 후기를 마친다.